Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Tokasaurus: Um novo mecanismo de inferência LLM para alta vazão

2025-06-05

Pesquisadores da Universidade de Stanford lançaram o Tokasaurus, um novo mecanismo de inferência LLM otimizado para cargas de trabalho intensivas em termos de vazão. Para modelos menores, o Tokasaurus utiliza uma sobrecarga de CPU extremamente baixa e agrupamento dinâmico Hydragen para explorar prefixos compartilhados. Para modelos maiores, ele suporta paralelismo de tensor assíncrono para GPUs equipadas com NVLink e uma implementação rápida de paralelismo de pipeline para aquelas sem. Em benchmarks de vazão, o Tokasaurus supera o vLLM e o SGLang em até 3x. Este mecanismo foi projetado para o manuseio eficiente de modelos grandes e pequenos, oferecendo vantagens significativas de desempenho.