Qwen-Image: 200억 매개변수 이미지 기반 모델 공개

2025-08-05
Qwen-Image: 200억 매개변수 이미지 기반 모델 공개

알리바바 DAMO 아카데미가 복잡한 텍스트 렌더링과 정밀한 이미지 편집에서 상당한 발전을 이룬 200억 매개변수의 이미지 기반 모델인 Qwen-Image를 발표했습니다. 영어와 중국어를 포함한 여러 언어의 고품질 텍스트 렌더링을 지원하며, 편집 과정에서 의미와 시각적 사실성을 유지합니다. 여러 공개 벤치마크에서 기존 모델을 능가하며 이미지 생성 및 편집 능력을 입증했습니다. 데모에서는 복잡한 중국어 서체와 레이아웃을 가진 이미지 생성, 상세한 PPT 슬라이드 제작, 심지어 이중 언어 텍스트 렌더링 등 강력한 텍스트 처리 및 이미지 생성 능력을 보여주었습니다.

더 보기
AI

알리바바, 4800억 파라미터 코드 모델 Qwen3-Coder 오픈소스 공개

2025-07-23
알리바바, 4800억 파라미터 코드 모델 Qwen3-Coder 오픈소스 공개

알리바바가 4800억 개의 파라미터를 가진 강력한 코드 모델 Qwen3-Coder를 공개했습니다. 이 모델은 지능형 코딩 작업에서 최첨단 결과를 달성했습니다. 기본적으로 256K 토큰(최대 1M 토큰까지 확장 가능)의 컨텍스트 길이를 지원하며 코딩 및 지능형 작업에 탁월합니다. 모델과 함께 매끄러운 통합을 위한 명령줄 도구인 Qwen Code도 오픈소스로 공개되었습니다. 대규모 강화 학습을 광범위하게 사용하여 코드 실행 성공률과 복잡한 문제 해결 능력이 크게 향상되었습니다.

더 보기

Qwen VLo: 이미지를 이해하고 생성하는 통합형 멀티모달 모델

2025-06-28
Qwen VLo: 이미지를 이해하고 생성하는 통합형 멀티모달 모델

알리바바 DAMO 아카데미는 이미지의 내용을 이해할 뿐만 아니라, 그 이해를 바탕으로 고품질 이미지를 생성하는 새로운 멀티모달 모델 Qwen VLo를 발표했습니다. 점진적인 생성 방식을 채택하여 왼쪽에서 오른쪽으로, 위에서 아래로 단계적으로 이미지를 구축함으로써 최종 결과의 일관성과 조화를 보장합니다. Qwen VLo는 다국어 지시를 지원하며, 이미지 편집 및 스타일 전환과 같은 복잡한 작업을 처리하고, 생성된 이미지의 내용을 이해할 수도 있습니다. 현재 미리 보기 단계이지만, 강력한 멀티모달 기능은 이미지 생성 분야에서 AI의 잠재력을 보여줍니다.

더 보기
AI

Qwen3: 전환 가능한 사고 모드를 갖춘 다국어 대규모 언어 모델

2025-04-28
Qwen3: 전환 가능한 사고 모드를 갖춘 다국어 대규모 언어 모델

알리바바 DAMO 아카데미는 최신 대규모 언어 모델 Qwen3을 출시했습니다. 다양한 크기의 모델과 오픈소스 가중치를 제공합니다. Qwen3은 작업의 복잡성에 따라 추론의 깊이와 속도를 제어할 수 있는 "사고 모드"와 "비사고 모드"를 갖추고 있습니다. 119개 언어와 방언을 지원합니다. 코딩 및 에이전트 기능도 향상되었으며 다양한 배포 및 개발 도구를 제공합니다.

더 보기
AI

QVQ-Max: 시각과 지능을 겸비한 AI 모델

2025-04-06
QVQ-Max: 시각과 지능을 겸비한 AI 모델

QVQ-Max는 이미지와 비디오를 '이해'할 뿐만 아니라, 이 정보를 분석하고 추론하여 다양한 문제를 해결할 수 있는 새로운 시각 추론 모델입니다. 수학 문제부터 일상적인 질문, 프로그래밍 코드부터 예술 작품 제작까지 QVQ-Max는 인상적인 능력을 보여줍니다. 세부적인 관찰, 심층적인 추론, 그리고 유연한 적용을 특징으로 하며, 업무, 학습, 일상생활 등 다양한 상황에서 도움이 됩니다. 향후 개발에서는 인식 정확도 향상, 다단계 작업 처리 능력 강화, 상호 작용 방식 확장에 중점을 두고, 진정으로 실용적인 시각 에이전트를 목표로 합니다.

더 보기
AI

Qwen2.5-VL-32B: 인간의 선호도에 더욱 부합하는 320억 매개변수 시각 언어 모델

2025-03-24
Qwen2.5-VL-32B: 인간의 선호도에 더욱 부합하는 320억 매개변수 시각 언어 모델

Qwen2.5-VL 시리즈 모델의 호평에 힘입어, 새로운 320억 매개변수 시각 언어 모델인 Qwen2.5-VL-32B-Instruct를 오픈소스로 공개했습니다. 이 모델은 수학적 추론, 세밀한 이미지 이해, 인간의 선호도 충족 측면에서 상당한 향상을 보여줍니다. 벤치마크 테스트 결과, MMMU, MMMU-Pro, MathVista와 같은 다중 모드 작업에서 동일 규모의 모델을 능가하며, 720억 매개변수의 Qwen2-VL-72B-Instruct보다도 성능이 뛰어납니다. 또한 동일 규모의 모델 중 텍스트 이해 능력에서 최고 수준의 성능을 달성했습니다.

더 보기
AI

QwQ-32B: LLM의 추론 능력 향상을 위한 강화 학습의 확장

2025-03-05
QwQ-32B: LLM의 추론 능력 향상을 위한 강화 학습의 확장

연구원들은 대규모 언어 모델(LLM)에서 강화 학습(RL)의 확장에 있어 획기적인 돌파구를 마련했습니다. 320억 개의 파라미터를 가진 QwQ-32B 모델은 6710억 개의 파라미터(활성화 파라미터 370억 개)를 가진 DeepSeek-R1과 비슷한 성능을 보여주며, 강력한 기반 모델에 RL을 적용한 효과를 보여줍니다. Apache 2.0 라이선스 하에 Hugging Face와 ModelScope에서 오픈소스로 공개된 QwQ-32B는 수학적 추론, 코딩, 일반적인 문제 해결에서 뛰어난 성능을 발휘합니다. 향후 연구는 장기적인 추론을 위한 RL과 에이전트 통합에 초점을 맞춰 인공 일반 지능(AGI)으로 가는 길을 열어갈 것입니다.

더 보기
AI

알리바바, 초대규모 MoE 언어 모델 Qwen2.5-Max 공개

2025-01-28
알리바바, 초대규모 MoE 언어 모델 Qwen2.5-Max 공개

알리바바가 20조 개 이상의 토큰으로 사전 훈련되고, 지도 학습 미세 조정 및 인간 피드백 기반 강화 학습으로 더욱 개선된 대규모 혼합 전문가(MoE) 모델인 Qwen2.5-Max를 발표했습니다. MMLU-Pro, LiveCodeBench, LiveBench, Arena-Hard 등의 벤치마크에서 Qwen2.5-Max는 DeepSeek V3 등 다른 모델들을 능가하는 것으로 나타났습니다. 이 모델은 Qwen Chat과 알리바바 클라우드 API를 통해 접근할 수 있습니다. 이번 출시는 대규모 언어 모델 확장의 중요한 발전을 의미하며, 향후 모델 지능 향상의 길을 열어줍니다.

더 보기

Qwen2.5-1M: 최대 100만 토큰의 컨텍스트 길이를 지원하는 오픈소스 LLM

2025-01-26
Qwen2.5-1M: 최대 100만 토큰의 컨텍스트 길이를 지원하는 오픈소스 LLM

Qwen팀은 최대 100만 토큰의 컨텍스트 길이를 지원하는 오픈소스 대규모 언어 모델 Qwen2.5-1M을 출시했습니다. 7B 파라미터와 14B 파라미터의 두 가지 버전이 있으며, 장문 컨텍스트 작업에서 기존 128K 버전을 크게 능가하며 일부 작업에서는 GPT-4o-mini를 뛰어넘는 성능을 보여줍니다. 효율적인 배포를 위해 vLLM 기반 추론 프레임워크도 오픈소스화되었으며, 스파스 어텐션 메커니즘을 통해 추론 속도가 3~7배 향상되었습니다. Qwen2.5-1M의 학습은 단계적 접근 방식을 채택하여 듀얼 청크 어텐션(DCA)과 스파스 어텐션 기술을 통합함으로써 긴 컨텍스트 처리를 효과적으로 수행합니다.

더 보기
AI