Construyendo un motor de búsqueda web desde cero: 3 mil millones de embeddings y 2 meses de trabajo

2025-08-13

El autor relata su viaje de dos meses construyendo un motor de búsqueda web desde cero, utilizando 3 mil millones de embeddings SBERT. Motivado por las deficiencias de los motores de búsqueda existentes – exceso de spam de SEO y contenido de alta calidad insuficiente – el proyecto tenía como objetivo mejorar la relevancia de la búsqueda y la comprensión de consultas complejas. La publicación detalla el proceso, cubriendo la recopilación de datos, la normalización de texto, la segmentación, el manejo del contexto semántico, la generación de embeddings, el almacenamiento (utilizando RocksDB y HNSW) y la recuperación. El motor de búsqueda resultante tiene una latencia de consulta de 500 ms y maneja consultas complejas en lenguaje natural, mostrando resultados de alta calidad.

Leer más