Les machines à états finis comme structures de données : indexation de milliards d'URL
Cet article explore l'utilisation des machines à états finis (FSM) comme structures de données pour représenter des ensembles et des mappages ordonnés, en montrant l'efficacité du crate fst de Rust pour construire des index. Il approfondit la construction des FSM, couvrant la construction de Trie et de FSA, et démontre l'indexation de plus de 1,6 milliard d'URL de l'archive Common Crawl de juillet 2015. Des techniques telles que le mappage mémoire, l'intersection d'automates avec des expressions régulières, la recherche floue avec la distance de Levenshtein et les opérations d'ensemble en streaming sont également discutées. L'auteur construit et compare les performances de FST par rapport à d'autres schémas de compression (gzip, xz) sur plusieurs ensembles de données de tailles et de caractéristiques variées.
Lire plus