16TB 的美国联邦公开数据集档案上线

2025-02-07
16TB 的美国联邦公开数据集档案上线

哈佛大学法学院的研究人员发布了一个包含超过 311,000 个数据集的 16TB 档案,这是 2024 年和 2025 年数据 .gov 的完整存档。该项目旨在通过保存元数据和数字签名来确保数据的完整性和可信度,方便研究人员和公众访问和引用这些信息。该项目还开源了其软件和文档,以便其他人可以复制其工作并创建类似的存储库。该项目得到了 Filecoin 基金会和洛克菲勒兄弟基金会的支持。

阅读更多

百年数字存储:一场与时间赛跑的持久战

2024-12-14
百年数字存储:一场与时间赛跑的持久战

文章探讨了如何将数字数据保存100年这一难题。从IBM第一台带有硬盘的电脑RAMAC的诞生到如今云存储的盛行,作者分析了硬盘、云存储、可移动介质以及刻录在石材或打印成册等多种存储方式的优劣及面临的挑战。无论是硬件的物理损坏、软件的更新迭代,还是机构的变迁、市场的波动,都威胁着数据的长期保存。最终,作者认为,百年数字存储的关键在于建立一种重视维护和传承的文化,并需要社会各界共同努力,才能对抗时间的侵蚀,守护人类的数字遗产。

阅读更多

WARC-GPT: 使用人工智能探索网络档案的开源工具

2024-06-09
WARC-GPT: 使用人工智能探索网络档案的开源工具

本文介绍了WARC-GPT,一个开源的检索增强生成工具,可用于探索网络档案和人工智能的交叉领域。该工具允许创建自定义聊天机器人,使用一组网络档案文件作为其知识库,让用户通过对话探索馆藏。与依赖关键词搜索和元数据过滤器不同,WARC-GPT提供了一种新的搜索起点,使用多文档全文搜索和摘要来探索网络档案的内容。

阅读更多
未分类 网络档案