Le problème de la tokenisation prouvé NP-complet, doublant les défis de la compression de données

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Le problème de la tokenisation prouvé NP-complet, doublant les défis de la compression de données

2024-12-22

Un article publié sur arXiv prouve la complétude NP de deux variantes de la tokenisation, définie comme le problème de compression d'un ensemble de données à au plus δ symboles, soit en trouvant un vocabulaire directement (tokenisation directe), soit en sélectionnant une séquence d'opérations de fusion (tokenisation ascendante). Cette découverte a des implications significatives pour la compression de données et le traitement du langage naturel, soulignant l'immense défi de résoudre efficacement le problème de la tokenisation pour les ensembles de données à grande échelle.

(arxiv.org)

Développement NP-complet tokenisation compression de données

Leçons apprises dans le développement de logiciels à long terme

Les Chefs de Produit à l'ère de l'IA : Nouveaux outils, mêmes principes fondamentaux