Le Web qui Disparaît et la Promesse des LLMs

2025-03-16

Internet oublie lentement : chaque année, une partie significative des pages web disparaît à jamais. Les Internet Archive (IA) sont un gardien crucial de cette mémoire numérique, mais sa survie est confrontée à des défis croissants. L’auteur soutient que, même si préserver tout est économiquement impossible, les puissantes capacités de compression d’informations des grands modèles de langage (LLM), malgré les imprécisions, sont meilleures qu’une perte totale. Des modèles comme DeepSeek V3 offrent déjà une vue compressée d’Internet. Nous devons soutenir des institutions comme IA et veiller à ce que les poids des LLM publiés publiquement ne soient pas perdus, et que IA fasse partie des ensembles de données de pré-entraînement des LLM.