Tencents Hunyuan-T1: Neudefinition der Effizienz des logischen Schließens mit dem ersten Mamba-gestützten Ultralarge-Modell

2025-03-22

Tencent hat Hunyuan-T1 vorgestellt, die neueste Ergänzung seiner Hunyuan-Reihe großer Sprachmodelle. Basierend auf TurboS, dem weltweit ersten ultralangen Hybrid-Transformer-Mamba MoE-Modell, bietet Hunyuan-T1 nach umfangreichem Nachtraining deutlich verbesserte Fähigkeiten im logischen Schließen und eine bessere Ausrichtung auf menschliche Präferenzen. Im Vergleich zur Vorschauversion zeigt Hunyuan-T1 eine erhebliche Leistungssteigerung und verdoppelt seine Dekodiergeschwindigkeit. Es erzielt vergleichbare oder leicht bessere Ergebnisse als R1 bei verschiedenen öffentlichen Benchmarks und übertrifft R1 in internen menschlichen Bewertungen, insbesondere beim Folgen kultureller und kreativer Anweisungen, beim Textzusammenfassen und bei Agentenfähigkeiten. Diese Veröffentlichung markiert einen bedeutenden Fortschritt bei der Nutzung von Reinforcement Learning für die Nachtrainingsoptimierung großer Sprachmodelle.

Mehr lesen