Apertus: 완전히 공개된 다국어 대규모 언어 모델

2025-09-06
Apertus: 완전히 공개된 다국어 대규모 언어 모델

Apertus는 700억 및 80억 매개변수를 가진 완전히 공개된 다국어 대규모 언어 모델(LLM)로 1000개 이상의 언어와 긴 컨텍스트를 지원합니다. 완전히 준수하는 공개 교육 데이터로 15조 토큰을 학습하여 비공개 모델과 비슷한 성능을 달성했습니다. 새로운 xIELU 활성화 함수와 AdEMAMix 최적화기를 사용하며, 지도 학습 미세 조정과 QRPO 정렬을 거쳤습니다. 가중치, 데이터 및 교육 세부 정보는 공개적으로 제공되며, 데이터 소유자의 옵트아웃 동의를 존중하고 교육 데이터를 암기하는 것을 방지합니다. transformers 라이브러리에 통합되어 다양한 배포 방법을 지원합니다. 강력하지만 출력의 잠재적인 부정확성과 편향에 유의해야 합니다.

더 보기
AI

Qwen3-235B-A22B-Thinking-2507: 오픈소스 추론 모델의 주요 업그레이드

2025-07-25
Qwen3-235B-A22B-Thinking-2507: 오픈소스 추론 모델의 주요 업그레이드

Qwen3-235B-A22B-Thinking-2507은 오픈소스 대규모 언어 모델의 중요한 업그레이드 버전으로, 추론 능력에서 획기적인 발전을 이루었습니다. 논리적 추론, 수학, 과학, 코딩 및 학술적 벤치마크에서 최첨단 결과를 달성하여 다양한 복잡한 작업에서 뛰어난 성능을 보여줍니다. 이 모델은 지시 사항 따르기, 도구 사용, 텍스트 생성 및 사용자 선호도와의 일치 등의 일반적인 기능도 향상되었으며, 256K의 긴 컨텍스트 이해 기능도 강화되었습니다. 중요한 점은 이 버전이 기본적으로 '사고 모드'로 작동하며 복잡한 추론 작업에 적극 권장된다는 것입니다.

더 보기
AI

SmolLM3: 소형, 다국어, 장문맥 추론 모델

2025-07-09
SmolLM3: 소형, 다국어, 장문맥 추론 모델

SmolLM3은 효율성과 성능 간의 균형을 놀랍도록 잘 맞춘 30억 매개변수의 완전히 오픈 소스 다국어 대규모 언어 모델입니다. 다양한 벤치마크에서 Llama-3.2-3B 및 Qwen2.5-3B를 능가하며, 더 큰 40억 매개변수 모델과도 경쟁력을 갖추고 있습니다. 6개 언어를 지원하며 최대 128k 토큰의 컨텍스트 길이를 자랑하며, 고유한 이중 모드 추론 기능(think/no_think)을 갖추고 있습니다. 모델 자체뿐만 아니라 아키텍처 세부 정보, 데이터 믹싱 방법, 학습 방법을 포함한 완벽한 엔지니어링 설계도가 공개되어 이 규모의 모델을 구축하거나 연구하는 데 귀중한 자료가 됩니다.

더 보기

Nanonets-OCR-s: 지능형 문서 처리를 통한 기존 OCR 뛰어넘기

2025-06-16
Nanonets-OCR-s: 지능형 문서 처리를 통한 기존 OCR 뛰어넘기

Nanonets-OCR-s는 최첨단 이미지-Markdown OCR 모델로 기존의 텍스트 추출을 뛰어넘습니다. 지능형 콘텐츠 인식 및 의미 태깅을 통해 문서를 구조화된 Markdown으로 변환하여 대규모 언어 모델(LLM)의 후속 처리에 이상적입니다. 주요 기능으로는 LaTeX 수식 인식, 지능형 이미지 설명, 서명 감지, 워터마크 추출, 스마트 체크박스 처리, 복잡한 표 추출 등이 있습니다. transformers, vLLM 또는 docext를 통해 모델을 사용할 수 있습니다.

더 보기
AI

Penny-1.7B: 19세기 아일랜드 산문 스타일 언어 모델

2025-06-02
Penny-1.7B: 19세기 아일랜드 산문 스타일 언어 모델

Penny-1.7B는 17억 매개변수의 인과 관계 언어 모델로, 그룹 상대 정책 최적화(GRPO)를 사용하여 미세 조정되어 1840년 아일랜드 페니 저널의 19세기 산문 스타일을 모방합니다. 보상 모델은 원본 저널 텍스트와 현대 번역을 구분하여 진정성을 극대화합니다. 창작 글쓰기, 교육 콘텐츠 또는 빅토리아 시대 아일랜드 영어 스타일의 모방에 적합하지만, 현대 사실 확인에는 권장하지 않습니다.

더 보기
AI

Hugging Face에 6,850억 파라미터의 DeepSeek-R1-0528 모델 공개

2025-05-28
Hugging Face에 6,850억 파라미터의 DeepSeek-R1-0528 모델 공개

Hugging Face에 6,850억 개의 파라미터를 가진 거대한 대규모 언어 모델 DeepSeek-R1-0528이 공개되었습니다. Safetensors 형식으로 제공되며 BF16, F8_E4M3, F32 등의 텐서 유형을 지원합니다. 현재로서는 추론 제공업체에서 배포하지 않았지만, Hugging Face 페이지에는 모델 카드, 파일, 버전 정보 등이 나와 있습니다.

더 보기
AI

Hugging Face, 무료 MCP 코스 출시: 모델 컨텍스트 프로토콜 입문

2025-05-21
Hugging Face, 무료 MCP 코스 출시: 모델 컨텍스트 프로토콜 입문

Hugging Face는 초보자부터 전문가까지를 위한 무료 모델 컨텍스트 프로토콜(MCP) 코스를 출시했습니다. 이 코스는 MCP 이론, 설계, 실습과 함께 확립된 MCP SDK 및 프레임워크를 사용한 애플리케이션 개발을 다룹니다. 과제를 완료하여 수료증을 받고, 챌린지에 참여할 수도 있습니다. 커리큘럼에는 Hugging Face 파트너와의 협업으로 구성된 유닛도 포함되어 최신 MCP 구현 및 도구에 액세스할 수 있습니다. 사전 요구 사항으로는 AI 및 LLM에 대한 기본적인 이해, 소프트웨어 개발 원칙 및 API, 그리고 적어도 하나의 프로그래밍 언어(Python 또는 TypeScript 예시 제공) 경험이 필요합니다.

더 보기
AI

완전 자율 AI 에이전트에 대한 비판적 분석

2025-02-08
완전 자율 AI 에이전트에 대한 비판적 분석

이 논문은 완전 자율 AI 에이전트 개발에 반대하는 주장을 비판적으로 분석합니다. 논리적이고 엄격하며 안전 위험이나 개인 정보 침해와 같은 실질적인 위험을 강조하지만, 지나치게 절대적인 입장, 모호한 '완전 자율' 정의, 불균형적인 위험-이익 분석, 그리고 완화 전략에 대한 불충분한 탐구라는 문제점을 가지고 있습니다. 기술 결정론의 징후도 보입니다. 개선 방안으로는 절대적인 거부 완화, 자율성 정의 명확화, 분석 균형 조정, 완화 전략 개발, 그리고 경험적 근거 강화 등이 있습니다. 결론적으로, 이것은 지속적인 AI 윤리 논쟁에 대한 귀중한 기여이지만, 결정적인 결론은 아닙니다.

더 보기
AI

Open-R1: DeepSeek-R1 추론 모델의 오픈소스 재현

2025-01-28
Open-R1: DeepSeek-R1 추론 모델의 오픈소스 재현

DeepSeek-R1 모델의 놀라운 추론 능력은 AI 커뮤니티를 매료시켰지만, 그 학습 세부 정보는 아직 공개되지 않았습니다. Open-R1 프로젝트는 데이터셋과 학습 파이프라인을 포함하여 DeepSeek-R1을 완전히 오픈소스로 재현하는 것을 목표로 합니다. 여기에는 DeepSeek-R1에서 고품질 추론 데이터셋을 증류하고, 순수 강화 학습 학습 프로세스를 재현하고, 다단계 학습 방법을 탐구하는 것이 포함됩니다. 최종 목표는 투명하고 재현 가능한 추론 모델을 만들고 오픈소스 커뮤니티의 발전을 촉진하는 것입니다.

더 보기
AI

Janus-Pro-7B: 통합된 멀티모달 이해 및 생성 모델

2025-01-27
Janus-Pro-7B: 통합된 멀티모달 이해 및 생성 모델

DeepSeek은 멀티모달 이해 및 생성을 통합한 혁신적인 자기회귀 프레임워크인 Janus-Pro-7B를 발표했습니다. 기존 접근 방식과 달리 Janus-Pro는 시각적 인코딩을 효과적으로 분리하여 단일 트랜스포머 아키텍처 내에서 효율적인 처리를 가능하게 합니다. 이 분리는 시각적 인코더의 이해 및 생성 역할 간의 충돌을 해결할 뿐만 아니라 프레임워크의 유연성을 향상시킵니다. Janus-Pro는 이전의 통합 모델을 능가하며 작업별 모델과 동등하거나 그 이상의 성능을 발휘합니다. 단순성, 높은 유연성, 효율성으로 차세대 통합 멀티모달 모델의 강력한 후보입니다.

더 보기
AI

DeepSeek-R1: 강화 학습으로 훈련된 추론 모델 및 그 증류 버전

2025-01-20
DeepSeek-R1: 강화 학습으로 훈련된 추론 모델 및 그 증류 버전

DeepSeek은 최초의 추론 모델인 DeepSeek-R1을 공개했습니다. 지도 학습 미세 조정 없이 대규모 강화 학습을 통해 훈련된 DeepSeek-R1은 이전 버전인 DeepSeek-R1-Zero에서 나타났던 무한 반복 및 가독성 저하와 같은 문제점을 RL 이전에 콜드 스타트 데이터를 통합하여 해결했습니다. DeepSeek-R1은 다양한 벤치마크에서 OpenAI-o1과 비슷한 성능을 달성했습니다. 또한 DeepSeek은 DeepSeek-R1과 Llama 및 Qwen 기반의 6개의 증류 모델을 오픈소스로 공개했습니다. DeepSeek-R1-Distill-Qwen-32B는 여러 벤치마크에서 OpenAI-o1-mini를 능가하여 증류 모델에서 새로운 최첨단 결과를 달성했습니다. 이러한 모델은 사용자 친화적인 API와 채팅 인터페이스와 함께 Hugging Face에서 제공됩니다.

더 보기

Sentence Transformers를 사용한 400배 더 빠른 정적 임베딩 모델

2025-01-15
Sentence Transformers를 사용한 400배 더 빠른 정적 임베딩 모델

이 블로그 게시물에서는 최첨단 임베딩 모델보다 CPU에서 100배에서 400배까지 더 빠르게 실행되는 정적 임베딩 모델을 훈련하는 방법을 소개합니다. 이는 기기에서 및 브라우저에서의 실행, 에지 컴퓨팅, 저전력 및 임베디드 애플리케이션과 같은 흥미로운 사용 사례를 제공합니다. 이 레시피를 사용하여 영어 검색을 위한 sentence-transformers/static-retrieval-mrl-en-v1 및 다국어 유사성 작업을 위한 sentence-transformers/static-similarity-mrl-multilingual-v1이라는 두 가지 매우 효율적인 임베딩 모델을 훈련했습니다.

더 보기

ModernBERT: BERT를 대체할 혁신적인 모델

2024-12-19
ModernBERT: BERT를 대체할 혁신적인 모델

Answer.AI와 LightOn이 ModernBERT를 선보였습니다. 속도와 정확성 면에서 BERT를 능가하는 최첨단 인코더 전용 모델 시리즈입니다. ModernBERT는 최근 LLM 연구의 여러 발전을 통합하여 확장된 컨텍스트 길이(8192 토큰), 빠른 처리 속도, 다양한 벤치마크에서 뛰어난 성능을 제공합니다. 특히 강력한 코드 검색 기능은 대규모 코드 검색 및 향상된 IDE 기능과 같은 새로운 애플리케이션으로 이어집니다. ModernBERT는 BERT 모델의 직접적인 대체 모델이며 Hugging Face에서 사용할 수 있습니다.

더 보기

Hugging Face Spaces, ZeroGPU 출시: AI 모델 효율 향상을 위한 동적 GPU 할당

2024-12-15
Hugging Face Spaces, ZeroGPU 출시: AI 모델 효율 향상을 위한 동적 GPU 할당

Hugging Face Spaces는 AI 모델 및 데모의 GPU 사용률을 최적화하기 위해 NVIDIA A100 GPU를 동적으로 할당하는 공유 인프라인 ZeroGPU를 출시했습니다. ZeroGPU는 무료 GPU 접근, 멀티 GPU 지원을 제공하며 AI 모델 배포의 장벽을 낮춥니다. 사용자는 Gradio Space 생성 시 ZeroGPU 하드웨어를 선택하고 GPU 종속 함수에 `@spaces.GPU` 데코레이터를 사용하기만 하면 됩니다. ZeroGPU는 PyTorch와 호환되며 Hugging Face의 transformers 및 diffusers 라이브러리에 최적화되어 있지만 현재로서는 Gradio SDK에서만 작동합니다. 개인 계정(PRO 사용자)은 최대 10개의 ZeroGPU Space를 생성할 수 있으며, 조직 계정(Enterprise Hub)은 최대 50개를 생성할 수 있습니다.

더 보기