Hunyuan-T1 da Tencent: Redefinindo a Eficiência de Raciocínio com o Primeiro Modelo Ultragrande Impulsionado por Mamba
A Tencent lançou o Hunyuan-T1, a mais recente adição à sua série de modelos grandes Hunyuan. Construído sobre o TurboS, o primeiro modelo grande híbrido Transformer-Mamba MoE em escala ultra-grande do mundo, o Hunyuan-T1 possui capacidades de raciocínio significativamente aprimoradas e melhor alinhamento com as preferências humanas após um extenso treinamento posterior. Em comparação com sua versão de pré-visualização, o Hunyuan-T1 mostra um aumento substancial no desempenho, dobrando sua velocidade de decodificação. Ele alcança resultados comparáveis ou ligeiramente melhores do que o R1 em vários benchmarks públicos e supera o R1 em avaliações humanas internas, particularmente em seguir instruções culturais e criativas, resumir texto e capacidades de agente. Este lançamento marca um avanço significativo no aproveitamento do aprendizado por reforço para otimização de pós-treinamento de modelos de linguagem grandes.
Leia mais