사라져가는 웹과 LLM의 약속
2025-03-16
인터넷은 서서히 잊고 있습니다. 매년 상당수의 웹 페이지가 영원히 사라집니다. 인터넷 아카이브(IA)는 이 디지털 기억의 중요한 수호자이지만, 생존은 점점 더 어려워지고 있습니다. 저자는 모든 것을 보존하는 것은 경제적으로 불가능하지만, 대규모 언어 모델(LLM)의 정보 압축 능력은 부정확성이 있더라도 완전한 정보 손실보다는 낫다고 주장합니다. DeepSeek V3와 같은 모델은 이미 인터넷의 압축된 보기를 제공하고 있습니다. 우리는 IA와 같은 기관을 지원하고, 공개된 LLM 가중치가 손실되지 않도록 하고, IA가 LLM의 사전 훈련 데이터 세트의 일부가 되도록 해야 합니다.
기술
정보 보존