Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Baseten atinge desempenho SOTA no GPT-OSS-120B: Uma corrida contra o tempo

2025-08-07

Como parceiro de lançamento do novo LLM de código aberto da OpenAI, a Baseten se esforçou para otimizar o GPT-OSS-120B para o máximo desempenho no dia do lançamento. Eles aproveitaram sua pilha de inferência flexível, testando em TensorRT-LLM, vLLM e SGLang, com suporte para arquiteturas de GPU Hopper e Blackwell. Otimizações importantes incluíram roteamento com awareness de cache KV e decodificação especulativa com Eagle. Priorizando a latência, eles escolheram o paralelismo de tensor e utilizaram o backend MoE do TensorRT-LLM. A equipe rapidamente solucionou problemas de compatibilidade e refinou continuamente a configuração do modelo, contribuindo de volta para a comunidade de código aberto. Melhorias futuras incluirão decodificação especulativa para inferência ainda mais rápida.

(www.baseten.co)

Desenvolvimento Otimização de Inferência