2ヶ月で30億のニューラルエンベディングを用いたウェブ検索エンジンの構築

2025-08-13

著者は、30億個のSBERTエンベディングを活用して、2ヶ月かけてゼロからウェブ検索エンジンを構築した経緯を記しています。既存の検索エンジンの欠点、つまりSEOスパムの過剰と高品質なコンテンツの不足を解消するために、複雑なクエリに対する検索の関連性と理解を向上させることを目指しました。この記事では、データクロール、テキスト正規化、チャンク化、セマンティックコンテキスト処理、エンベディングの生成、ストレージ(RocksDBとHNSWを使用)、検索などのプロセスを詳細に説明しています。結果として得られた検索エンジンは、500ミリ秒のクエリレイテンシを誇り、複雑な自然言語クエリを処理し、高品質な結果を提供します。