Apple und NVIDIA arbeiten zusammen, um die Textgenerierung von LLMs zu beschleunigen
2024-12-18
Apple und NVIDIA haben sich zusammengetan, um Apples ReDrafter-Technologie in NVIDIAs TensorRT-LLM zu integrieren, was zu einer deutlichen Beschleunigung der Textgenerierung großer Sprachmodelle führt. ReDrafter kombiniert Beam Search und dynamische Tree Attention, wodurch eine deutlich schnellere Textgenerierung erreicht wird, ohne die Qualität zu beeinträchtigen. Durch diese Zusammenarbeit können Entwickler, die NVIDIA-GPUs verwenden, die beschleunigte Token-Generierung von ReDrafter problemlos für ihre produktiven LLM-Anwendungen nutzen und in Benchmarks eine 2,7-fache Geschwindigkeitsverbesserung erzielen, wodurch Latenz und Energieverbrauch reduziert werden.
KI