互联网记忆的消逝与LLM的潜在解决方案

2025-03-16

互联网正在逐渐遗忘:每年都有大量网页永久消失。互联网档案馆(IA)成为守护互联网记忆的关键,但其生存却面临越来越大的挑战。文章作者认为,虽然保存所有信息在经济上不可行,但大型语言模型(LLM)强大的信息压缩能力,即使存在不精确性,也比彻底丢失信息要好。DeepSeek V3等模型已提供互联网的压缩视图。我们应支持IA等机构,并确保公开发布的LLM权重不会丢失,且IA成为LLM预训练数据集的一部分。

科技 信息保存