Webtagr - 기술 뉴스 다이제스트

Ollama Turbo: 오픈소스 LLM 초고속 실행

2025-08-06

Ollama Turbo는 데이터센터급 하드웨어를 사용하여 대규모 오픈소스 언어 모델을 실행하는 새로운 방식입니다. 많은 새로운 모델은 일반적으로 사용 가능한 GPU에는 너무 크거나 실행 속도가 매우 느립니다. Ollama Turbo는 Ollama의 앱, CLI, API와 호환되며 이러한 모델을 고속으로 실행할 수 있는 솔루션을 제공합니다. 현재 미리 보기 버전에서는 gpt-oss-20b 및 gpt-oss-120b 모델을 지원합니다. Ollama의 CLI, API 및 JavaScript/Python 라이브러리와 함께 작동합니다. 중요한 점은 Ollama는 Turbo 모드에서 수행된 쿼리를 로그에 기록하거나 보관하지 않습니다. 모든 하드웨어는 미국에 있습니다. 용량 문제를 방지하기 위해 시간 단위 및 일 단위 사용 제한이 있으며, 곧 사용량 기반 가격 책정이 도입될 예정입니다.

(ollama.com)

AI

Ollama, LLM과의 상호 작용을 더욱 쉽게 해주는 데스크톱 앱 출시

2025-07-31

Ollama는 macOS 및 Windows용 새로운 데스크톱 애플리케이션을 출시하여 대규모 언어 모델과의 상호 작용을 더욱 간소화했습니다. 이 앱은 드래그 앤 드롭 방식의 파일 업로드(텍스트 또는 PDF)를 지원하여 문서 처리를 간편하게 합니다. 설정에서 컨텍스트 길이를 늘려 더 큰 파일을 처리할 수 있지만(더 많은 메모리가 필요함), Google DeepMind의 Gemma 3과 같은 호환 가능한 모델에 이미지를 전송할 수 있는 멀티모달 지원 및 코드 파일 처리를 통한 이해 기능도 제공합니다. 명령줄 인터페이스 버전도 사용할 수 있습니다.

(ollama.com)

개발 데스크톱 앱

Ollama의 새로운 멀티모달 엔진: 비전 모델의 로컬 추론

2025-05-16

Ollama는 Llama 4 Scout 및 Gemma 3과 같은 비전 모델부터 시작하여 멀티모달 모델의 로컬 추론을 지원하는 새로운 엔진을 출시했습니다. 이 엔진은 멀티모달 모델에 대한 ggml 라이브러리의 한계를 해결하여 대규모 이미지 및 복잡한 아키텍처(Mixture-of-Experts 모델 포함)에 대한 안정적이고 효율적인 추론을 위해 모델 모듈성, 정확성 및 메모리 관리를 개선합니다. 정확성과 안정성에 대한 집중은 향후 음성, 이미지 생성 및 더 긴 컨텍스트 지원의 기반이 됩니다.

(ollama.com)

AI 로컬 추론

Google의 Gemma: 경량 멀티모달 모델 패밀리

2025-03-12

Google은 Gemini 기술을 기반으로 한 경량 멀티모달 모델 패밀리인 Gemma를 공개했습니다. Gemma 3 모델은 텍스트와 이미지를 처리하며 128K 컨텍스트 윈도우와 140개 이상의 언어를 지원합니다. 1B, 4B, 12B, 27B 매개변수 크기로 제공되며 질문 응답, 요약, 추론 등의 작업에서 뛰어난 성능을 보입니다. 컴팩트한 설계 덕분에 리소스가 제한된 기기에서도 배포할 수 있습니다. 벤치마크 결과는 다양한 작업, 특히 다국어 및 멀티모달 기능에서 높은 성능을 보여줍니다.

(ollama.com)

AI 경량 모델

DeepSeek-R1: OpenAI-o1에 필적하는 성능의 추론 모델 패밀리

2025-01-21

DeepSeek은 OpenAI-o1과 비슷한 성능을 보이는 첫 번째 추론 모델 패밀리인 DeepSeek-R1을 출시했습니다. 이 시리즈는 1.5B부터 70B 파라미터까지 다양한 크기의 모델을 포함하며 Ollama를 통해 쉽게 실행할 수 있습니다. DeepSeek-R1은 수학, 코드, 추론 작업에서 뛰어난 성능을 보여주며 AI 분야에 새로운 경쟁력을 제공합니다.

(ollama.com)

AI

마이크로소프트, 140억 매개변수의 오픈소스 언어 모델 Phi-4 발표

2025-01-12

마이크로소프트가 140억 개의 매개변수를 가진 새로운 오픈소스 언어 모델 Phi-4를 발표했습니다. 합성 데이터, 필터링된 공개 도메인 웹사이트 데이터, 학술 서적, Q&A 데이터셋을 결합하여 구축되었으며, 정확한 지시 사항 준수와 강력한 안전 조치를 보장하기 위해 엄격한 개선 및 정렬 프로세스를 거쳤습니다. 컨텍스트 길이는 16k 토큰이며, 메모리/컴퓨팅 리소스가 제한된 환경, 낮은 대기 시간 시나리오, 추론 및 논리 능력이 필요한 범용 AI 시스템 및 애플리케이션(주로 영어)을 대상으로 합니다. 마이크로소프트는 개발자가 언어 모델의 일반적인 한계를 고려하고, 특히 고위험 시나리오에서 정확성, 안전성, 공정성을 평가하고 완화해야 한다고 강조합니다.

(ollama.com)

AI