Tokasaurus: Um novo mecanismo de inferência LLM para alta vazão
2025-06-05

Pesquisadores da Universidade de Stanford lançaram o Tokasaurus, um novo mecanismo de inferência LLM otimizado para cargas de trabalho intensivas em termos de vazão. Para modelos menores, o Tokasaurus utiliza uma sobrecarga de CPU extremamente baixa e agrupamento dinâmico Hydragen para explorar prefixos compartilhados. Para modelos maiores, ele suporta paralelismo de tensor assíncrono para GPUs equipadas com NVLink e uma implementação rápida de paralelismo de pipeline para aquelas sem. Em benchmarks de vazão, o Tokasaurus supera o vLLM e o SGLang em até 3x. Este mecanismo foi projetado para o manuseio eficiente de modelos grandes e pequenos, oferecendo vantagens significativas de desempenho.
Leia mais