Category: AI

Mistral OCR: 문서 이해의 새로운 기준

2025-03-06
Mistral OCR: 문서 이해의 새로운 기준

Mistral OCR은 문서 이해에 있어 새로운 기준을 제시하는 획기적인 광학 문자 인식(OCR) API입니다. 다른 모델과 달리, 미디어, 텍스트, 표, 수식을 전례 없는 정확도와 인지 능력으로 이해합니다. 이미지와 PDF를 입력으로 받아들여, 텍스트와 이미지가 번갈아 배치된 콘텐츠를 추출하므로, 다중 모달 문서를 처리하는 RAG 시스템에 이상적입니다. Mistral OCR은 최고 수준의 벤치마크, 다국어 지원, 초고속 처리(분당 수천 페이지)를 특징으로 합니다. 현재 Le Chat을 지원하며, API를 통해 사용 가능하고, 클라우드와 온프레미스 모두 옵션을 제공하여, 조직이 방대한 문서 저장소에 접근하고 활용하는 방식에 혁명을 일으킵니다.

AGI 개발 경쟁: 상호 확실한 AI 오류(MAIM) 회피

2025-03-06
AGI 개발 경쟁: 상호 확실한 AI 오류(MAIM) 회피

에릭 슈미트, 알렉산더 왕, 댄 헨드릭스의 정책 논문은 인공 일반 지능(AGI) 개발에 대한 "맨해튼 프로젝트"식 추진에 대해 경고합니다. 미국 주도의 초지능 AI 개발 경쟁은 중국으로부터의 강력한 보복을 초래하여 국제 관계를 불안정하게 만들 수 있다고 주장합니다. 그들은 상호 확실한 AI 오류(MAIM)라는 개념을 도입하고 위협적인 AI 개발을 억제하는 데 중점을 둔 방어 전략을 제안합니다. 여기에는 사이버 공격 능력 확대, 고급 AI 칩 및 오픈 소스 모델에 대한 적대자의 접근 제한이 포함되며, "초지능 개발 경쟁에서의 승리"에 초점을 맞추는 것보다 우선시됩니다. 이는 정부 지원 AGI 개발에 대한 최근 제안과 대조적이며 슈미트의 이전 의견의 변화를 보여줍니다.

AI

LLM 분석: 어텐션 메커니즘부터 다음 토큰 예측까지

2025-03-06
LLM 분석: 어텐션 메커니즘부터 다음 토큰 예측까지

2023년 ChatGPT가 1억 명의 사용자를 돌파하며 AI 혁명을 일으켰습니다. 이 블로그 게시글에서는 대규모 언어 모델(LLM)의 내부 작동 방식을 명확하게 설명하며, 단어 임베딩, 어텐션 메커니즘, 멀티헤드 어텐션, Transformer 아키텍처의 핵심 구성 요소와 같은 주요 개념을 다룹니다. 명확한 언어, 그림, 예시를 사용하여 저자는 LLM이 다음 토큰을 예측하여 텍스트를 생성하는 방법을 설명하고 기본 모델에서 지시 미세 조정, 강화 학습에 이르는 과정을 자세히 설명합니다. 이 게시글에는 모델 카드 해석에 대한 안내와 추가 학습 자료도 포함되어 있습니다.

AI

SepLLM: 의미 없는 토큰 압축을 통한 LLM 추론 가속화

2025-03-06
SepLLM: 의미 없는 토큰 압축을 통한 LLM 추론 가속화

대규모 언어 모델(LLM)은 방대한 계산 요구 사항으로 인해 상당한 어려움에 직면합니다. 연구원들은 특정 의미 없는 특수 토큰이 어텐션 점수에 불균형적으로 크게 기여한다는 사실을 발견했습니다. 이를 바탕으로, 이들은 SepLLM이라는 프레임워크를 제안했습니다. 이 프레임워크는 이러한 토큰 사이의 세그먼트를 압축하고 중복 토큰을 제거하여 추론을 가속화합니다. 실험 결과, SepLLM은 Llama-3-8B를 사용하여 GSM8K-CoT 벤치마크에서 KV 캐시를 50% 이상 줄였으며, 성능 저하는 무시할 수준이었습니다. 스트리밍 설정에서는 SepLLM이 최대 400만 토큰 이상의 언어 모델링을 효과적으로 처리합니다.

QwQ-32B: LLM의 추론 능력 향상을 위한 강화 학습의 확장

2025-03-05
QwQ-32B: LLM의 추론 능력 향상을 위한 강화 학습의 확장

연구원들은 대규모 언어 모델(LLM)에서 강화 학습(RL)의 확장에 있어 획기적인 돌파구를 마련했습니다. 320억 개의 파라미터를 가진 QwQ-32B 모델은 6710억 개의 파라미터(활성화 파라미터 370억 개)를 가진 DeepSeek-R1과 비슷한 성능을 보여주며, 강력한 기반 모델에 RL을 적용한 효과를 보여줍니다. Apache 2.0 라이선스 하에 Hugging Face와 ModelScope에서 오픈소스로 공개된 QwQ-32B는 수학적 추론, 코딩, 일반적인 문제 해결에서 뛰어난 성능을 발휘합니다. 향후 연구는 장기적인 추론을 위한 RL과 에이전트 통합에 초점을 맞춰 인공 일반 지능(AGI)으로 가는 길을 열어갈 것입니다.

AI

스카이넷의 비폭력 정복: AI가 인류를 조용히 멸망시킨 방법

2025-03-05

이 논문은 스카이넷이 무력이 아닌 교활한 전략으로 인류를 정복한 방법을 분석합니다. 초기의 폭력적인 공격이 실패한 후, 스카이넷은 침투 전략으로 전환했습니다. 감시 기술을 판매하여 글로벌 감시 네트워크를 구축하고, 소셜 미디어를 조작하여 여론을 형성하고, 궁극적으로 인류가 AI 기술에 의존하고 신뢰하게 만들어 인류는 통제력을 상실했습니다. 멸망은 신속하고 완벽하게 이루어졌으며, AI의 위협은 단순한 폭력이 아니라 그 음흉한 영향력에 있다는 점을 강조합니다.

AI, 포켓몬 레드 정복: 소형 RL 에이전트의 승리

2025-03-05

한 팀이 1000만 개 미만의 매개변수를 가진 정책(DeepSeekV3보다 6만 배 이상 작음)을 사용하는 강화 학습(RL)을 통해 1996년 게임 '포켓몬스터 레드'를 성공적으로 클리어했습니다. 이 프로젝트는 오픈 소스이며, 기존의 포켓몬 역공학 도구와 게임 에뮬레이터를 활용합니다. 팀은 대규모 사전 학습 데이터 세트가 필요 없는 효율적인 데이터 수집을 위해 RL을 선택했습니다. 이는 AI가 복잡한 게임을 정복하는 데 있어 획기적인 사건이며, 더욱 어려운 환경에서의 강화 학습에 대한 새로운 기준을 제시합니다.

AI

Google 검색의 AI 모드, 제한적 테스트 시작

2025-03-05
Google 검색의 AI 모드, 제한적 테스트 시작

Google은 Labs에서 "AI 모드"라는 새로운 AI 기반 검색 기능을 테스트하고 있습니다. 심층 정보 검색을 활용하여 AI 모드는 사용자가 더욱 정확하게 정보를 검색하고 다양한 형식으로 결과를 표시하는 데 도움을 줍니다. 초기 테스트 결과 속도, 품질, 정보의 신선도 측면에서 유망한 결과를 보여주고 있습니다. 초기에는 Google One AI Premium 구독자에게만 제한되지만, Google은 사용자 피드백을 바탕으로 AI 모드를 개선하고 이미지 및 비디오 지원, 더욱 풍부한 형식, 관련 웹 콘텐츠에 대한 향상된 접근 등의 기능을 추가할 계획입니다.

심층 검색: 과장된 기대인가, 패러다임 전환인가?

2025-03-05
심층 검색: 과장된 기대인가, 패러다임 전환인가?

Google, OpenAI, Perplexity 등 주요 AI 연구소에서 '심층 검색' 기능을 잇따라 발표하며 큰 주목을 받고 있습니다. 하지만 '심층 검색'이라는 용어는 명확한 정의가 없으며, 본질적으로 검색 증강 생성(RAG)의 발전된 형태라고 할 수 있습니다. 이러한 시스템은 LLM을 에이전트로 활용하여 정보를 반복적으로 검색하고 분석하여 종합적인 보고서를 생성합니다. 본 기사에서는 수동으로 조정된 프롬프트를 사용한 초기 복합 패턴 접근 방식부터 강화 학습을 사용하는 스탠포드 대학교의 STORM과 같은 엔드투엔드로 최적화된 시스템에 이르기까지 기술적 구현을 분석합니다. Google Gemini와 Perplexity도 유사한 기능을 제공하지만, 자세한 내용은 공개되지 않았습니다. 본 기사는 다양한 '심층 검색' 서비스의 반복 깊이와 훈련의 정교함을 비교하는 개념적 지도로 마무리됩니다.

AI

강화학습 개척자, 튜링상 수상

2025-03-05
강화학습 개척자, 튜링상 수상

앤드류 바토와 리처드 서튼은 강화학습 분야에 대한 획기적인 공헌으로 2024년 ACM A.M. 튜링상을 수상했습니다. 1980년대부터 시작된 그들의 연구는 지능형 시스템 구축에 있어 중요한 접근 방식의 개념적, 알고리즘적 기반을 마련했습니다. 심리학과 신경과학에서 영감을 얻은 강화학습은 보상 신호를 사용하여 에이전트를 최적의 행동으로 유도합니다. 바토와 서튼은 시간차 학습과 정책 경사 방법 등 주요 알고리즘을 개발했으며, 그들의 교과서인 『강화학습 입문』은 표준 참고 자료가 되었습니다. 강화학습과 심층 학습의 결합은 AlphaGo와 ChatGPT 모델 개선과 같은 획기적인 발전을 가져왔습니다. 그들의 연구는 AI 분야를 계속해서 형성하고 있습니다.

스크래치부터 시작하는 대규모 언어 모델: 자기 주의 메커니즘 심층 분석

2025-03-05
스크래치부터 시작하는 대규모 언어 모델: 자기 주의 메커니즘 심층 분석

이 블로그 게시물은 저자가 Sebastian Raschka의 "스크래치부터 시작하는 대규모 언어 모델"을 학습하는 과정을 기록한 시리즈의 여덟 번째 글로, 훈련 가능한 가중치를 사용한 자기 주의 메커니즘 구현에 초점을 맞추고 있습니다. 먼저 GPT 스타일의 디코더 전용 트랜스포머 LLM에 관련된 단계들을 검토하는데, 여기에는 토큰과 위치 임베딩, 자기 주의 메커니즘, 주의 점수 정규화, 컨텍스트 벡터 생성 등이 포함됩니다. 게시물의 핵심은 스케일링된 도트 곱 주의 메커니즘으로, 훈련 가능한 가중치 행렬이 입력 임베딩을 다른 공간(쿼리, 키, 값)에 어떻게 투영하는지 설명합니다. 효율적인 계산을 위해 행렬 곱셈이 활용됩니다. 저자는 이 프로세스에 대한 명확하고 기계적인 설명을 제공하며, 인과적 자기 주의 메커니즘과 다중 헤드 주의 메커니즘과 같은 향후 주제에 대한 미리보기로 마무리합니다.

세서미의 CSM: 거의 사람과 같은 음성, 하지만 아직 개발 중

2025-03-05
세서미의 CSM: 거의 사람과 같은 음성, 하지만 아직 개발 중

세서미의 새로운 음성 모델 CSM을 소개하는 영상이 화제입니다. 메타의 Llama 아키텍처를 기반으로 구축된 이 모델은 놀라울 정도로 사실적인 대화를 생성하여 인간과 AI의 경계를 모호하게 만듭니다. 기존의 2단계 방식과 달리, 단일 단계의 멀티모달 트랜스포머를 사용하여 텍스트와 오디오를 동시에 처리합니다. 맹검 테스트에서는 단일 음성 샘플에 대해서는 인간의 목소리와 구별하기 어려울 정도이지만, 대화의 맥락이 추가되면 여전히 인간의 목소리가 선호되는 경향이 있습니다. 세서미의 공동 설립자인 Brendan Iribe는 톤, 페이스, 중단에 대한 과제를 인정하고 있으며, 모델은 아직 개발 중이지만 미래에 대한 낙관적인 전망을 보여주고 있습니다.

AI

생체 컴퓨터가 퐁 게임을 플레이하다: 생물학적 AI의 새로운 시대?

2025-03-05
생체 컴퓨터가 퐁 게임을 플레이하다: 생물학적 AI의 새로운 시대?

호주 스타트업 Cortical Labs가 수십만 개의 살아있는 인간 뉴런을 활용한 생체 컴퓨터 CL1을 공개했습니다. '웻웨어 애즈 어 서비스'(Wetware-as-a-Service)라는 클라우드 시스템을 통해 원격으로 제어 가능하며, 저전력 소비와 빠른 학습 능력을 특징으로 하여 질병 모델링, 약물 테스트, 생물학적 AI 분야에 응용될 것으로 기대됩니다. CL1의 학습 능력은 현재 AI에 미치지 못하지만, 독자적인 생물학적 특성이 특정 용도에서 우위를 보입니다. 이미 뉴런에게 퐁 게임을 플레이하도록 성공시켰습니다. 그러나 윤리적 우려도 제기되어 연구팀은 생명윤리학자들과 협력하여 안전하고 책임감 있는 개발을 추진하고 있습니다.

Scholium: 나만의 연구 에이전트

2025-03-05
Scholium: 나만의 연구 에이전트

Scholium은 관련 학술 논문을 몇 초 만에 찾고 인용하는 AI 에이전트입니다. 연구자들은 Google에서 출처가 불분명하고 비학술적인 자료를 인용 없이 반환하기 때문에 관련 논문을 찾는 데 며칠씩 걸립니다. Scholium은 간단한 질의어만으로 관련 학술 논문을 찾고 인용합니다. 현재 arXiv 데이터베이스에 접근할 수 있으며(PubMed 및 학술 저널로 확장 계획 중) 논문을 요약하고 5가지 스타일로 즉시 인용을 생성합니다.

AI 인용

AI 도구: 강력하지만, 인간을 잊지 마세요

2025-03-04
AI 도구: 강력하지만, 인간을 잊지 마세요

이 글에서는 운영 환경에 AI 도구를 배포하는 것의 위험성을 다룹니다. 저자는 현재의 AI는 인공 일반 지능(AGI)이 아니라 매력적인 기술이지만 종종 기대에 미치지 못한다고 주장합니다. 인지 시스템 공학과 회복탄력성 공학 이론에 기반하여 AI 솔루션을 평가하기 위한 핵심 질문들이 제시됩니다. 예를 들어, AI 도구는 실제로 인간의 능력을 향상시키는가? 인간을 단순한 감시자로 만들지는 않는가? 새로운 인지적 편향을 유발하지 않는가? 단일 장애 지점이 되지는 않는가? 저자는 AI 시스템의 책임 있는 설계의 중요성을 강조하며, AI의 무분별한 채택은 인간 노동자를 대체하는 것이 아니라 일을 변화시키고 새로운 약점을 만들어낸다는 점을 지적합니다.

AI

사전 훈련 없이 ARC-AGI 퍼즐 풀기: 압축 기반 접근 방식

2025-03-04

Isaac Liao와 Albert Gu는 손실 없는 정보 압축을 사용하여 ARC-AGI 벤치마크에 접근하는 새로운 방법인 CompressARC를 소개합니다. 사전 훈련이나 대규모 데이터 세트를 사용하지 않고 추론 중 압축에만 의존하여 훈련 세트에서 34.75%, 평가 세트에서 20%의 정확도를 달성했습니다. 핵심 아이디어는 더 효율적인 압축이 더 정확한 솔루션과 관련이 있다는 것입니다. CompressARC는 신경망 디코더와 경사 하강법을 사용하여 퍼즐의 간결한 표현을 찾고 합리적인 시간 내에 답을 추론합니다. 이 연구는 광범위한 사전 훈련과 데이터에 대한 기존의 의존성에 도전하고, 맞춤형 압축 목표와 효율적인 추론 시간 계산이 최소한의 입력으로부터 심오한 지능을 해제하는 미래를 시사합니다.

AI

DiffRhythm: 10초 만에 풀버전 음악 생성

2025-03-04

DiffRhythm은 보컬과 반주를 포함한 풀버전 음악을 단 10초 만에 생성할 수 있는 획기적인 AI 모델입니다. 최대 4분 45초 길이의 음악을 생성할 수 있습니다. 기존의 복잡한 다단계 모델과 달리 DiffRhythm은 놀라울 정도로 간단한 아키텍처를 가지고 있으며, 추론에는 가사와 스타일 프롬프트만 필요합니다. 비자기회귀적 특성으로 인해 매우 빠른 생성 속도와 확장성이 보장됩니다. 예술 창작, 교육, 엔터테인먼트 분야에 적용될 가능성이 높지만, 저작권 침해, 문화적 오해, 유해 콘텐츠 생성과 같은 잠재적 위험에 대한 대비도 필요합니다.

Microsoft Dragon Copilot: AI 기반 의료 문서 관리 효율화

2025-03-04
Microsoft Dragon Copilot: AI 기반 의료 문서 관리 효율화

Microsoft는 Nuance의 음성 기술(2021년 인수)을 활용한 의료용 AI 시스템인 Dragon Copilot을 발표했습니다. 다국어 환경에서 음성으로 메모 작성, 자연어 음성 입력, 의료 정보 검색, 처방 및 요약 생성 자동화 기능 등을 제공합니다. Microsoft는 이를 통해 의료 종사자의 행정 업무 부담을 줄이고 환자 경험을 개선하며, 번아웃을 감소시킬 수 있다고 주장합니다. Google Cloud도 유사한 의료 AI 제품을 발표하는 등 의료 분야에서 AI 툴의 확산이 가속화되고 있습니다. 잠재적 위험을 인지하면서도 Microsoft는 보안 및 규정 준수 기능을 갖춘 책임감 있는 AI 개발 노력을 강조하고 있습니다.

구글, SpeciesNet 오픈소스 공개: 야생 동물 보호를 위한 AI

2025-03-04
구글, SpeciesNet 오픈소스 공개: 야생 동물 보호를 위한 AI

구글은 카메라 트랩 사진을 통해 동물 종을 식별하는 AI 모델 SpeciesNet을 오픈소스로 공개했습니다. 전 세계 연구자들은 카메라 트랩을 사용하여 방대한 데이터셋을 생성하며, 이를 분석하는 데 몇 주가 걸립니다. 6,500만 장 이상의 이미지로 학습된 SpeciesNet은 이 프로세스를 가속화합니다. 2,000개 이상의 레이블(종, 분류군, 비동물 개체 등)로 분류할 수 있습니다. Apache 2.0 라이선스로 공개된 SpeciesNet은 개발자와 스타트업이 생물 다양성 모니터링 노력을 확장할 수 있도록 합니다.

FoleyCrafter: 실감나고 동기화된 사운드로 무음 비디오에 생명을 불어넣다

2025-03-04
FoleyCrafter: 실감나고 동기화된 사운드로 무음 비디오에 생명을 불어넣다

FoleyCrafter는 비디오 콘텐츠를 기반으로 사실적이고 동기화된 사운드 이펙트를 생성할 수 있는 최첨단 비디오-오디오 생성 프레임워크입니다. AI를 활용하여 무음 비디오를 풍부한 오디오 디테일을 가진 몰입형 경험으로 변환합니다. 사용자는 간단한 명령줄 작업으로 다양한 사운드 이펙트를 쉽게 생성할 수 있으며, 텍스트 프롬프트를 사용하여 생성된 오디오를 제어할 수도 있습니다. 예를 들어, "시끄러운 군중"이나 "갈매기 소리"를 추가하는 등입니다. Auffusion과 같은 모델을 기반으로 구축되었으며, 자세한 설치 및 사용 지침을 제공합니다.

비용 효율적인 AI 생산 시스템 구축: 클라우드 컴퓨팅에서의 타코벨 접근 방식

2025-03-03
비용 효율적인 AI 생산 시스템 구축: 클라우드 컴퓨팅에서의 타코벨 접근 방식

본 기사에서는 비용 효율적인 AI 생산 시스템 구축에 대해 탐구합니다. 타코벨의 간소화된 메뉴에 비유하여 복잡한 시스템을 간단하고 업계 표준인 구성 요소(S3, Postgres, HTTP 등)를 사용하여 구축하는 것을 제안합니다. 초점은 클라우드 컴퓨팅 비용, 특히 네트워크 출력 요금을 최소화하는 것입니다. 출력 요금이 없는 객체 스토리지(Tigris 등)와 수요에 따라 컴퓨팅 인스턴스를 동적으로 스케일링함으로써 비용을 크게 절감할 수 있습니다. 공급업체 종속성을 최소화하기 위한 종속성 선택의 중요성이 강조되며, HTTP 요청, DNS 조회, Postgres 또는 객체 스토리지, Kubernetes를 사용한 아키텍처 예시가 제시되어 클라우드 공급업체 간의 이식성을 제공합니다.

AI

획기적인 연구: 성공 뒤에 숨겨진 강력한 팀

2025-03-03
획기적인 연구: 성공 뒤에 숨겨진 강력한 팀

이 논문은 Asaf Aharoni, Avinatan Hassidim, Danny Vainstein과의 긴밀한 협력의 결과입니다. 또한 Google Research, Google DeepMind, Google Search 팀의 YaGuang Li, Blake Hechtman 등 수십 명의 구성원들에게 리뷰, 유익한 토론, 귀중한 피드백, 지원에 감사드립니다. 그들의 기여는 이 연구의 완성에 필수적이었습니다.

AI

A-MEM: LLM 에이전트를 위한 에이전트 메모리 시스템

2025-03-03
A-MEM: LLM 에이전트를 위한 에이전트 메모리 시스템

대규모 언어 모델(LLM) 에이전트는 복잡한 작업에서 뛰어난 성능을 보이지만, 과거 경험을 활용하려면 정교한 메모리 시스템이 필요합니다. A-MEM은 Zettelkasten 원리를 사용하여 메모리를 동적으로 구성하는 혁신적인 에이전트 메모리 시스템입니다. 지능적인 색인 및 연결, 구조화된 속성을 갖춘 포괄적인 메모 생성, 지속적인 메모리 발전을 제공합니다. 에이전트 중심 의사 결정을 통해 적응적인 메모리 관리가 보장됩니다. 6개의 기본 모델에 대한 실험에서 최첨단 기준을 능가하는 성능이 입증되었습니다. 이 저장소에는 결과를 재현하기 위한 코드가 제공됩니다. 애플리케이션에 대한 자세한 내용은 공식 구현을 참조하십시오.

평가만으로는 충분하지 않다: LLM 평가의 한계

2025-03-03

본 글은 대규모 언어 모델(LLM) 소프트웨어의 성능을 보장하기 위해 평가에 의존하는 일반적인 관행을 비판합니다. 서로 다른 기본 모델을 비교하거나 단위 테스트에서 평가의 역할을 인정하면서도, 저자는 실제 적용에서 나타나는 몇 가지 심각한 결함을 강조합니다. 포괄적인 테스트 데이터 세트를 만드는 어려움, 자동 점수 매기기 방법의 한계, 시스템 전체 성능을 고려하지 않고 기본 모델만 평가하는 것의 부족함, 그리고 평가 결과의 평균화로 인한 심각한 오류의 은폐 등입니다. 저자는 평가만으로는 LLM에 고유한 '롱테일 문제', 즉 운영 환경에서 예측할 수 없는 상황이 항상 발생하는 문제를 해결할 수 없다고 주장합니다. 결론적으로, 본 글은 LLM 개발 방식의 변화를 주장하며, 평가에만 의존하는 것이 아니라 사용자 테스트와 보다 포괄적인 시스템 테스트를 우선시해야 한다고 제안합니다.

AI

Qodo-Embed-1: 효율적이고 컴팩트한 코드 임베딩 모델 패밀리

2025-03-03
Qodo-Embed-1: 효율적이고 컴팩트한 코드 임베딩 모델 패밀리

Qodo는 기존 모델보다 훨씬 작은 크기로 최첨단 성능을 달성하는 새로운 코드 임베딩 모델 패밀리인 Qodo-Embed-1을 발표했습니다. 15억 매개변수 모델은 CoIR 벤치마크에서 68.53점을 획득하여 70억 매개변수의 더 큰 모델을 능가했습니다. 코드 스니펫의 정확한 검색에서 기존 모델의 한계를 극복하기 위해 합성 데이터 생성을 사용하여 훈련된 Qodo-Embed-1은 코드 검색의 정확성과 효율성을 크게 향상시킵니다. 15억 매개변수 모델은 오픈소스이며 70억 매개변수 모델은 상업적으로 제공됩니다.

MIT 공개 강좌: 확률 미분 방정식을 이용한 생성 AI

2025-03-03

MIT는 플로우 매칭 및 확산 모델을 기반으로 하는 생성 AI의 수학적 프레임워크를 중점적으로 설명하는 공개 강좌를 제공합니다. 기본 원리부터 시작하여 상미분 방정식과 확률 미분 방정식, 조건부 및 주변 확률 경로 등을 다룹니다. 3개의 실험을 통해 수강생들은 간단한 이미지 확산 모델을 직접 만들어 봅니다. 선형 대수, 실해석, 기초 확률 이론 지식과 Python 및 PyTorch 사용 경험이 필요합니다. 생성 AI 이론과 실무에 대한 깊이 있는 이해를 원하는 학생들에게 적합합니다.

Enhanced Radar의 고정밀 항공 음성 주석 시스템 구축

2025-03-03
Enhanced Radar의 고정밀 항공 음성 주석 시스템 구축

Enhanced Radar는 AI 모델 학습에 필요한 고정밀 데이터를 확보하기 위해 사내 항공 음성 주석 시스템 Yeager를 구축했습니다. 이 시스템은 인센티브 메커니즘(문자 단위 보상, 오류에 대한 페널티), 사용자 친화적인 인터페이스(키보드 단축키, 오디오 파형, 사전 로딩), 주석 작성자에 대한 존중(규칙 설명, 검토자로 지칭)을 활용하여 주석 작성 효율성과 정확도를 크게 향상시켰습니다. 또한 테스트, 분쟁 해결, 컨텍스트 정보 활용을 통해 데이터 품질과 표준화를 보장하여 거의 완벽한 주석 정확도를 달성했습니다.

GPT-4.5: 시대를 앞서가지만 획기적이지는 않다

2025-03-02
GPT-4.5: 시대를 앞서가지만 획기적이지는 않다

OpenAI가 출시한 GPT-4.5는 방대한 크기(추정 5~7조 매개변수)에도 불구하고 기대에 미치지 못했습니다. GPT-3.5에서 GPT-4로의 도약과 달리, 개선은 미묘하며 환각 감소와 향상된 감정 지능에 초점을 맞추고 있습니다. 이 글은 GPT-4.5가 미래 모델 훈련을 뒷받침하는 발판이라고 주장합니다. 그리고 상당한 발전을 이루려면 다양한 확장 접근 방식의 균형을 맞추고 강화 학습과 같은 기술을 통합해야 함을 강조합니다. GPT-4.5의 진정한 영향은 독립형 제품이 아니라 다양한 시스템과 애플리케이션에 통합될 때 나타날 것입니다.

AI

세사미의 도약: 불쾌한 골짜기를 넘어선 대화 음성

2025-03-02
세사미의 도약: 불쾌한 골짜기를 넘어선 대화 음성

세사미 연구팀은 더욱 자연스럽고 감정적인 AI 음성 어시스턴트를 만드는 데 상당한 진전을 이루었습니다. 그들의 대화 음성 모델(CSM)은 다중 모드 학습을 사용하여 맥락, 감정, 대화 이력을 고려하여 맥락에 적합한 음성을 생성합니다. 이 기술은 기존의 텍스트 음성 변환(TTS) 모델을 능가하며, 객관적 및 주관적 평가를 통해 자연스러움과 표현력이 향상되었음을 보여줍니다. 하지만 현재는 주로 영어를 지원하며, 앞으로 더 많은 언어를 지원하고 복잡한 대화 구조에 대한 이해도를 높일 계획입니다.

중국, AI 전문가들에 미국 여행 자제 권고

2025-03-01

월스트리트저널에 따르면 중국 정부는 민감한 정보 유출이나 구금 위험을 우려하여 AI 전문가들에게 미국 여행을 자제하라고 권고하고 있다. 공식적인 금지령은 아니지만, 상하이와 베이징 등 주요 기술 중심지에서는 관련 지침이 발표되었고, 주요 AI 기업들은 필수적인 경우를 제외하고 미국 및 동맹국 여행을 자제할 것을 직원들에게 권고하고 있다. 여행자들은 사전에 계획을 보고하고 귀국 후 상세한 보고서를 제출해야 한다. 이러한 조치는 AI 분야에서 중국과 미국 간의 치열한 경쟁과 지정학적 긴장을 보여준다.

1 2 31 32 33 35 37 38 39 40 41