Hunyuan-T1 de Tencent: Redefiniendo la eficiencia del razonamiento con el primer modelo ultralarge impulsado por Mamba

2025-03-22

Tencent presentó Hunyuan-T1, la última incorporación a su serie de modelos grandes Hunyuan. Construido sobre TurboS, el primer modelo grande híbrido Transformer-Mamba MoE a escala ultralarge del mundo, Hunyuan-T1 cuenta con capacidades de razonamiento significativamente mejoradas y una mejor alineación con las preferencias humanas después de un extenso entrenamiento posterior. En comparación con su versión de vista previa, Hunyuan-T1 muestra un aumento sustancial en el rendimiento, duplicando su velocidad de decodificación. Alcanza resultados comparables o ligeramente mejores que R1 en varios puntos de referencia públicos y supera a R1 en evaluaciones humanas internas, particularmente en el seguimiento de instrucciones culturales y creativas, el resumen de texto y las capacidades del agente. Este lanzamiento marca un avance significativo en el aprovechamiento del aprendizaje por refuerzo para la optimización de post-entrenamiento de los modelos de lenguaje grandes.

Leer más
IA