Construindo um mecanismo de busca na web do zero: 3 bilhões de embeddings e 2 meses de trabalho árduo

2025-08-13

O autor relata sua jornada de dois meses construindo um mecanismo de busca na web do zero, utilizando 3 bilhões de embeddings SBERT. Motivado pelas deficiências dos mecanismos de busca existentes – excesso de spam de SEO e conteúdo de alta qualidade insuficiente – o projeto tinha como objetivo melhorar a relevância da busca e a compreensão de consultas complexas. O post detalha o processo, cobrindo a coleta de dados, normalização de texto, segmentação, tratamento de contexto semântico, geração de embeddings, armazenamento (usando RocksDB e HNSW) e recuperação. O mecanismo de busca resultante possui latência de consulta de 500 ms e lida com consultas complexas em linguagem natural, exibindo resultados de alta qualidade.