Endliche Automaten als Datenstrukturen: Indizierung von Milliarden von URLs

2025-08-14

Dieser Artikel untersucht die Verwendung von endlichen Automaten (FSMs) als Datenstrukturen zur Darstellung geordneter Mengen und Abbildungen und zeigt die Effizienz des Rust-Crates fst für den Aufbau von Indizes. Er geht tief in die Konstruktion von FSMs ein, behandelt die Konstruktion von Tries und FSAs und demonstriert die Indizierung von über 1,6 Milliarden URLs aus dem Common Crawl-Archiv vom Juli 2015. Techniken wie Memory Mapping, Automaten-Schnittmengen mit regulären Ausdrücken, Fuzzy-Suche mit Levenshtein-Distanz und Streaming-Mengenoperationen werden ebenfalls diskutiert. Der Autor baut FSTs und vergleicht deren Performance mit anderen Kompressionsverfahren (gzip, xz) an verschiedenen Datensätzen mit unterschiedlichen Größen und Eigenschaften.

Entwicklung Indizierung