Construire un moteur de recherche web à partir de zéro : 3 milliards d’embeddings et 2 mois de travail acharné
L’auteur raconte son périple de deux mois pour construire un moteur de recherche web à partir de zéro, en utilisant 3 milliards d’embeddings SBERT. Motivé par les lacunes des moteurs de recherche existants – excès de spam SEO et manque de contenu de qualité – le projet visait à améliorer la pertinence de la recherche et la compréhension des requêtes complexes. L’article détaille le processus, en couvrant la collecte de données, la normalisation du texte, le découpage, le traitement du contexte sémantique, la génération d’embeddings, le stockage (à l’aide de RocksDB et HNSW) et la récupération. Le moteur de recherche résultant affiche une latence de requête de 500 ms et gère les requêtes complexes en langage naturel, en affichant des résultats de haute qualité.