Entwicklung einer Websuchmaschine von Grund auf: 3 Milliarden Einbettungen und 2 Monate Arbeit

2025-08-13

Der Autor beschreibt seine zweimonatige Reise, bei der er eine Websuchmaschine von Grund auf neu entwickelt hat, wobei er 3 Milliarden SBERT-Einbettungen verwendet hat. Motiviert durch die Mängel bestehender Suchmaschinen – zu viel SEO-Spam und zu wenig hochwertige Inhalte – sollte das Projekt die Relevanz der Suche und das Verständnis komplexer Suchanfragen verbessern. Der Beitrag beschreibt den Prozess im Detail, einschließlich der Datenerfassung, Textnormalisierung, Segmentierung, Verarbeitung des semantischen Kontextes, Erzeugung von Einbettungen, Speicherung (mit RocksDB und HNSW) und Abruf. Die resultierende Suchmaschine hat eine Query-Latenz von 500 ms und verarbeitet komplexe Suchanfragen in natürlicher Sprache, wobei sie qualitativ hochwertige Ergebnisse liefert.

Mehr lesen