Tokasaurus:一款为高吞吐量工作负载优化的LLM推理引擎

斯坦福大学的研究人员发布了Tokasaurus,这是一个针对高吞吐量工作负载优化的LLM推理引擎。针对小型模型,Tokasaurus通过极低的CPU开销和动态Hydragen分组来利用共享前缀。对于大型模型,Tokasaurus支持具有NVLink的GPU的异步张量并行性和对不具备NVLink的GPU的快速流水线并行性实现。在吞吐量基准测试中,Tokasaurus的性能最高可超过vLLM和SGLang 3倍以上。该引擎旨在高效处理大型和小型模型,并具有显著的性能优势。