Baseten atinge desempenho SOTA no GPT-OSS-120B: Uma corrida contra o tempo
Como parceiro de lançamento do novo LLM de código aberto da OpenAI, a Baseten se esforçou para otimizar o GPT-OSS-120B para o máximo desempenho no dia do lançamento. Eles aproveitaram sua pilha de inferência flexível, testando em TensorRT-LLM, vLLM e SGLang, com suporte para arquiteturas de GPU Hopper e Blackwell. Otimizações importantes incluíram roteamento com awareness de cache KV e decodificação especulativa com Eagle. Priorizando a latência, eles escolheram o paralelismo de tensor e utilizaram o backend MoE do TensorRT-LLM. A equipe rapidamente solucionou problemas de compatibilidade e refinou continuamente a configuração do modelo, contribuindo de volta para a comunidade de código aberto. Melhorias futuras incluirão decodificação especulativa para inferência ainda mais rápida.