Les Classificateurs Constitutionnels d'Anthropic : Une nouvelle défense contre les jailbreaks d'IA

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-02-03

L'équipe de recherche sur les protections d'Anthropic présente les Classificateurs Constitutionnels, une nouvelle défense contre les jailbreaks d'IA. Ce système, entraîné sur des données synthétiques, filtre efficacement les sorties nuisibles, en minimisant les faux positifs. Un prototype a résisté à des milliers d'heures de red teaming humain, réduisant significativement les taux de réussite des jailbreaks, bien qu'il ait initialement souffert de taux de refus élevés et de surcharges informatiques. Une version mise à jour maintient la robustesse avec seulement une légère augmentation du taux de refus et un coût informatique modéré. Une démonstration en direct temporaire invite les experts en sécurité à tester sa résistance, ouvrant la voie à un déploiement plus sûr de modèles d'IA de plus en plus puissants.