Benchmark des moteurs d'expressions régulières : Rust contre Re2 contre Ruby
2025-05-02

SerpApi rencontre des difficultés pour extraire des données de sites Web modernes, en ayant souvent recours aux expressions régulières. Son benchmark compare le moteur Onigmo de Ruby avec le moteur re2 de Google et le moteur regex de Rust. Le moteur regex de Rust s'avère le plus rapide dans la plupart des cas, notamment avec du texte Unicode, mais sa fonctionnalité d'ensemble est incohérente. Re2 est également rapide, mais présente des limitations concernant l'Unicode. Les liaisons Ruby de Pcre2 sont obsolètes. Le moteur regex de Rust apparaît comme la meilleure alternative à Ruby, bien qu'il faille faire preuve de prudence avec sa fonctionnalité d'ensemble.
Développement
expression régulière