알리바바의 Qwen 2.5: 최대 100만 토큰 컨텍스트 길이를 가진 LLM
2025-01-26
알리바바가 오픈소스 대규모 언어 모델 Qwen 2.5의 주요 업데이트를 발표했습니다. 최대 100만 토큰의 컨텍스트 길이를 지원합니다! 이는 "Dual Chunk Attention"이라는 새로운 기술 덕분입니다. Hugging Face에서 7B 파라미터와 14B 파라미터의 두 모델이 공개되었지만, 이를 실행하려면 엄청난 VRAM이 필요합니다. 7B 모델은 최소 120GB, 14B 모델은 최소 320GB가 필요합니다. 짧은 작업에도 사용할 수 있지만, 알리바바는 사용자 정의 vLLM 프레임워크를 사용할 것을 권장합니다. 또한 크기가 더 작은 GGUF 양자화 버전도 등장했지만, 전체 컨텍스트 길이에서 작동하는 데는 호환성 문제가 있을 수 있습니다. 한 블로거가 Ollama를 사용하여 Mac에서 GGUF 버전을 실행하려고 시도했지만, 몇 가지 문제에 직면했으며 향후 업데이트를 약속했습니다.
AI
100만 토큰 컨텍스트