Apple의 FastVLM: 초고속 비전 언어 모델

2025-07-24
Apple의 FastVLM: 초고속 비전 언어 모델

Apple ML 연구원들은 CVPR 2025에서 새로운 비전 언어 모델(VLM)인 FastVLM을 공개했습니다. VLM에 내재된 정확도와 효율성 간의 절충점을 해결하기 위해 FastVLM은 고해상도 이미지를 위해 설계된 하이브리드 아키텍처 비전 인코더인 FastViTHD를 사용합니다. 이를 통해 유사한 모델보다 훨씬 빠르고 정확한 VLM이 구현되어 기기 상의 실시간 애플리케이션과 개인 정보 보호를 유지하는 AI를 가능하게 합니다. FastViTHD는 더 적은 수의 고품질 시각 토큰을 생성하여 LLM의 사전 채우기를 가속화합니다. iOS/macOS 데모 앱은 기기 상의 FastVLM 기능을 보여줍니다.

더 보기

애플, 차세대 다국어 멀티모달 기반 언어 모델 공개

2025-07-18
애플, 차세대 다국어 멀티모달 기반 언어 모델 공개

애플이 기기 및 서버의 인텔리전스 기능을 향상시키는 두 가지 새로운 다국어 멀티모달 기반 언어 모델을 발표했습니다. 약 30억 개의 매개변수를 가진 Apple 실리콘에 최적화된 기기용 모델과 새로운 Parallel-Track Mixture-of-Experts(PT-MoE) 트랜스포머 기반의 확장 가능한 서버용 모델입니다. 두 모델 모두 대규모 다국어 멀티모달 데이터 세트로 학습되었으며, 지도 학습 미세 조정 및 강화 학습을 통해 개선되었습니다. 더 많은 언어, 이미지 이해 및 도구 호출을 지원하며, 동급의 오픈소스 기준과 동등하거나 능가합니다. 새로운 Swift 중심 프레임워크를 통해 개발자는 쉽게 통합할 수 있습니다.

더 보기
AI

TarFlow: Transformer 기반 정규화 흐름 모델, 이미지 우도 추정에서 SOTA 경신

2025-06-28
TarFlow: Transformer 기반 정규화 흐름 모델, 이미지 우도 추정에서 SOTA 경신

연구원들은 Transformer 아키텍처와 마스크된 자기 회귀 흐름의 장점을 결합한 새로운 정규화 흐름 모델인 TarFlow를 발표했습니다. TarFlow는 이미지 패치에 자기 회귀 Transformer 블록을 적용하고, 레이어 간에 자기 회귀 방향을 번갈아 전환하여 효율적인 밀도 추정과 이미지 생성을 달성합니다. 또한, 샘플 품질을 향상시키는 세 가지 주요 기술, 즉 훈련 중 가우시안 노이즈 증강, 훈련 후 노이즈 제거 절차, 그리고 클래스 조건부 및 무조건 설정 모두에 대한 효과적인 가이드 방법을 제안합니다. 이러한 기술들을 결합하여 TarFlow는 이미지 우도 추정에서 획기적인 성과를 달성하여 기존 최첨단 기법을 크게 능가하며, 독립형 정규화 흐름 모델로서는 최초로 확산 모델에 필적하는 품질과 다양성을 갖춘 샘플을 생성합니다.

더 보기

대규모 추론 모델: 붕괴와 반직관적인 확장성

2025-06-08
대규모 추론 모델: 붕괴와 반직관적인 확장성

최근의 최첨단 대규모 언어 모델(LLM)은 답을 제공하기 전에 자세한 추론 과정을 생성하는 대규모 추론 모델(LRM)을 만들어냈습니다. 이러한 모델은 추론 벤치마크에서 성능이 향상되었지만, 기본적인 기능, 확장성, 한계는 아직 충분히 이해되지 않았습니다. 본 연구에서는 제어 가능한 퍼즐 환경을 사용하여 LRM의 추론 능력을 체계적으로 조사합니다. 그 결과, LRM은 특정 복잡성을 초과하면 완전한 정확도 붕괴를 보이고, 직관에 반하는 확장성 한계를 보이는 것으로 나타났습니다. 즉, 추론 노력은 문제의 복잡성이 증가함에 따라 증가하지만, 어느 시점을 넘어서면 충분한 토큰 예산이 있어도 감소합니다. 또한, LRM은 정확한 계산에 한계가 있으며, 명시적인 알고리즘을 사용할 수 없고, 퍼즐 간에 모순된 추론을 하는 것으로 나타났습니다. 본 연구는 LRM의 장점, 단점, 그리고 진정한 추론 능력에 대한 중요한 질문을 밝힙니다.

더 보기
AI

개인정보 보호를 전제로 한 Apple의 AI 기능 개선 접근 방식

2025-04-14
개인정보 보호를 전제로 한 Apple의 AI 기능 개선 접근 방식

Apple은 Genmoji, 이미지 생성 도구, 작성 도구와 같은 AI 기능을 개선하면서도 사용자 개인정보 보호에 전념하고 있습니다. Apple은 차등 프라이버시 기술을 사용하여 사용자 데이터를 익명화하고, Genmoji의 인기 프롬프트와 같은 집계된 트렌드 정보만 수집합니다. 이메일과 같은 장문 텍스트를 처리하는 AI 기능의 경우 합성 데이터를 사용합니다. 이는 실제 이메일 콘텐츠에 액세스하지 않고도 모델 학습 및 테스트를 위해 실제 사용자 데이터 패턴을 모방하는 합성 데이터를 생성하는 것입니다. 이를 통해 Apple은 제품 경험을 개선하면서 사용자 개인정보 보호를 최우선 과제로 유지할 수 있습니다.

더 보기

Apple의 AI 혁신: Activation Transport (AcT)를 통한 생성 모델의 미세 제어

2025-04-10
Apple의 AI 혁신: Activation Transport (AcT)를 통한 생성 모델의 미세 제어

Apple 머신러닝 연구원들은 RLHF나 파인튜닝과 같은 리소스 집약적인 훈련 없이도 대규모 생성 모델(LLM 및 텍스트-이미지 확산 모델 포함)의 출력을 미세하게 제어할 수 있는 새로운 기술인 Activation Transport (AcT)를 개발했습니다. AcT는 최적 전달 이론을 사용하여 모델 활성화를 제어하며, 최소한의 계산 오버헤드로 모달리티에 독립적인 제어를 달성합니다. 실험 결과는 독성 감소, LLM의 진실성 향상, 이미지 생성의 스타일 제어 측면에서 상당한 개선을 보여줍니다. AcT는 보다 안전하고 신뢰할 수 있는 생성 모델을 위한 길을 열어줍니다.

더 보기

SeedLM: 의사 난수 생성기를 사용한 LLM 가중치 압축 방법

2025-04-06
SeedLM: 의사 난수 생성기를 사용한 LLM 가중치 압축 방법

대규모 언어 모델(LLM)은 높은 실행 비용으로 인해 광범위한 배포가 제한됩니다. Meta 연구원들은 의사 난수 생성기의 시드를 사용하여 모델 가중치를 인코딩 및 압축하는 새로운 사후 훈련 압축 방법인 SeedLM을 발표했습니다. 추론 중에 SeedLM은 선형 피드백 시프트 레지스터(LFSR)를 사용하여 효율적으로 난수 행렬을 생성하고, 이를 압축 계수와 선형 결합하여 가중치 블록을 재구성합니다. 이를 통해 메모리 액세스가 줄어들고 유휴 연산 사이클을 활용하여 메모리 제약 작업을 가속화합니다. 보정 데이터에 의존하는 최첨단 방법과 달리 SeedLM은 데이터가 필요 없으며 다양한 작업에서 우수한 일반화 성능을 보여줍니다. 어려운 Llama 3 70B를 사용한 실험에서 4비트 및 3비트 압축에서의 제로샷 정확도는 최첨단 방법과 동등하거나 더 우수하며, FP16 기준선과 동등한 성능을 유지합니다. 또한 FPGA 기반 테스트에서 모델 크기가 증가함에 따라 4비트 SeedLM은 FP16 Llama 2/3 기준선보다 4배 빠른 속도에 도달합니다.

더 보기
AI