Máquinas de Estado Finito como Estructuras de Datos: Indexando miles de millones de URLs
Este artículo explora el uso de máquinas de estado finito (FSM) como estructuras de datos para representar conjuntos y mapas ordenados, mostrando la eficiencia del crate fst de Rust para construir índices. Se profundiza en la construcción de FSM, cubriendo la construcción de Trie y FSA, y se demuestra la indexación de más de 1.600 millones de URL del archivo Common Crawl de julio de 2015. También se discuten técnicas como el mapeo de memoria, la intersección de autómatas con expresiones regulares, la búsqueda difusa con la distancia de Levenshtein y las operaciones de conjuntos en streaming. El autor construye y compara benchmarks de FST contra otros esquemas de compresión (gzip, xz) en varios conjuntos de datos de diferentes tamaños y características.
Leer más