Ollama Turbo: 오픈소스 LLM 초고속 실행

2025-08-06
Ollama Turbo: 오픈소스 LLM 초고속 실행

Ollama Turbo는 데이터센터급 하드웨어를 사용하여 대규모 오픈소스 언어 모델을 실행하는 새로운 방식입니다. 많은 새로운 모델은 일반적으로 사용 가능한 GPU에는 너무 크거나 실행 속도가 매우 느립니다. Ollama Turbo는 Ollama의 앱, CLI, API와 호환되며 이러한 모델을 고속으로 실행할 수 있는 솔루션을 제공합니다. 현재 미리 보기 버전에서는 gpt-oss-20b 및 gpt-oss-120b 모델을 지원합니다. Ollama의 CLI, API 및 JavaScript/Python 라이브러리와 함께 작동합니다. 중요한 점은 Ollama는 Turbo 모드에서 수행된 쿼리를 로그에 기록하거나 보관하지 않습니다. 모든 하드웨어는 미국에 있습니다. 용량 문제를 방지하기 위해 시간 단위 및 일 단위 사용 제한이 있으며, 곧 사용량 기반 가격 책정이 도입될 예정입니다.

AI