Le Web Éphémère : Préserver son Héritage Numérique

2025-02-25
Le Web Éphémère : Préserver son Héritage Numérique

Le contenu en ligne est éphémère. Cet article souligne l'importance de préserver les informations numériques et préconise l'utilisation de fichiers texte Markdown comme solution robuste. La lisibilité de Markdown, sa compatibilité multiplateforme et son accessibilité à long terme sont des avantages clés. L'auteur partage ses stratégies personnelles, incluant l'utilisation d'Obsidian pour la prise de notes, de générateurs de sites statiques pour les blogs et de scripts Python automatisés pour la conversion de contenu. Des sauvegardes régulières et des téléchargements de données sont mis en avant, ainsi qu'un appel à de meilleurs outils d'exportation de données des réseaux sociaux.

Lire plus
Divers

N'utilisez pas la similarité cosinus sans précaution !

2025-01-14
N'utilisez pas la similarité cosinus sans précaution !

Cet article explore les risques liés à une dépendance excessive à la similarité cosinus pour les comparaisons vectorielles en science des données. L'auteur soutient que, bien que simple sur le plan computationnel, la similarité cosinus échoue souvent à capturer la similarité sémantique et peut être facilement induite en erreur par des schémas superficiels tels que le style d'écriture et les fautes de frappe. L'article utilise des exemples pour illustrer ce problème et propose plusieurs méthodes améliorées, notamment : l'utilisation directe de LLM pour la comparaison, l'ajustement fin ou l'apprentissage par transfert pour créer des embeddings spécifiques à la tâche, l'ingénierie de prompts préalables et le prétraitement du texte. L'auteur souligne l'importance de choisir des métriques de similarité appropriées en fonction des besoins spécifiques, plutôt que d'utiliser aveuglément la similarité cosinus.

Lire plus