Category: AI

르쿤: 대규모 언어 모델은 5년 안에 구식이 될 것이다

2025-04-05
르쿤: 대규모 언어 모델은 5년 안에 구식이 될 것이다

Meta의 수석 AI 과학자인 얀 르쿤은 대규모 언어 모델(LLM)이 5년 이내에 대부분 구식이 될 것이라고 예측합니다. 그는 현재의 LLM은 물리적 세계에 대한 이해가 부족하며 단순하고 이산적인 공간(언어)에서 작동하는 특수 도구일 뿐이라고 주장합니다. 르쿤과 그의 팀은 시각적 입력으로부터 물리적 세계의 표현을 만드는 것을 목표로 하는 JEPA라는 대안적 접근 방식을 개발하고 있으며, 이를 통해 LLM을 능가하는 진정한 추론 및 계획 능력이 가능해집니다. 그는 AI가 인간을 대체하는 것이 아니라 인간의 지능을 증강함으로써 사회를 변혁할 것이라고 예상하며, AI가 실존적 위험을 초래한다는 주장을 반박합니다.

AI

혁신적인 OCR 시스템: AI 교육 데이터셋 강화

2025-04-05
혁신적인 OCR 시스템: AI 교육 데이터셋 강화

기계 학습에 최적화된 혁신적인 OCR 시스템이 시험 문제와 같은 복잡한 교육 자료에서 구조화된 데이터를 추출합니다. 다국어 텍스트, 수식, 표, 다이어그램 및 차트를 지원하며, 고품질 교육 데이터셋을 만드는 데 이상적입니다. 이 시스템은 추출된 요소에 의미론적 주석을 달고, 다이어그램에 대한 설명 텍스트 등 자연어 설명을 자동으로 생성합니다. 한국어, 일본어, 영어를 지원하며, 다른 언어로도 쉽게 사용자 지정할 수 있습니다. 출력은 수식에 대한 이해하기 쉬운 설명, 표 요약, 다이어그램 캡션 등을 포함하는 AI 지원 JSON 또는 Markdown 형식입니다. 실제 학술 데이터셋에서 90~95% 이상의 정확도를 달성하며, 과학적 내용이 집중된 복잡한 레이아웃과 풍부한 시각적 요소를 처리합니다.

AI

OpenAI의 o3 모델, ARC-AGI 테스트에서 돌파구를 마련했지만 AGI 정의는 여전히 논쟁 중

2025-04-04
OpenAI의 o3 모델, ARC-AGI 테스트에서 돌파구를 마련했지만 AGI 정의는 여전히 논쟁 중

OpenAI의 최신 모델 o3이 François Chollet이 개발한 ARC-AGI 테스트에서 놀라운 87% 점수를 기록하며 인간 수준의 성능에 처음으로 도달함에 따라 AGI(범용 인공지능) 달성 여부를 둘러싼 격렬한 논쟁이 촉발되었다. 그러나 Chollet은 곧 더욱 어려운 ARC-AGI-2 테스트를 발표했고, o3의 점수는 크게 하락하여 AGI에 대한 업계의 정의와 측정 기준에 대한 재검토를 요구하게 되었다. 이 글에서는 다양한 견해와 AGI 정의와 상업적 이익 간의 복잡한 관계를 살펴보며 범용 인공지능의 본질에 대해 심도 있게 논의한다.

AI

LLM이 비잔틴 음악 표기법 암호 해독

2025-04-04

연구자들은 Claude와 GPT-4와 같은 대규모 언어 모델이 비잔틴 음악 표기법 유니코드 블록을 기반으로 하는 특수 암호를 해독할 수 있다는 것을 발견했습니다. 이 암호는 시저 암호와 유사하지만, 오프셋이 118784입니다. 모델은 사고 연쇄 없이 이 암호를 직접 해독할 수 있으며, 일반적인 시저 암호보다 더 높은 성공률을 달성합니다. 연구자들은 특정 유니코드 범위에서의 덧셈과 토큰 공간에서의 덧셈 사이에 선형 관계가 있기 때문에 모델이 이 관계를 기반으로 한 시프트 암호를 학습할 수 있다고 가정합니다. 이 현상은 LLM 내부에 아직 완전히 이해되지 않은 메커니즘이 존재함을 시사합니다.

AI

구글, Sec-Gemini v1 공개: AI 기반 사이버 보안의 새로운 시대

2025-04-04
구글, Sec-Gemini v1 공개: AI 기반 사이버 보안의 새로운 시대

구글은 사이버 보안 AI의 한계를 넓히기 위한 실험적인 AI 모델인 Sec-Gemini v1을 발표했습니다. Gemini의 고급 기능과 거의 실시간 사이버 보안 지식 및 도구를 결합하여 Sec-Gemini v1은 인시던트 근본 원인 분석, 위협 분석, 취약점 영향 이해와 같은 주요 워크플로에서 뛰어난 성능을 발휘합니다. 주요 벤치마크에서 다른 모델들을 능가하며, CTI-MCQ에서는 최소 11%, CTI-Root Cause Mapping에서는 최소 10.5% 향상을 보였습니다. 구글은 협력을 증진하고 사이버 보안 분야에서 AI의 발전을 촉진하기 위해 Sec-Gemini v1을 선별된 조직, 기관, 전문가, NGO에 연구 목적으로 무료로 제공합니다.

AI

DeepMind의 안전한 AGI 개발 청사진: 2030년 위험 대처

2025-04-04
DeepMind의 안전한 AGI 개발 청사진: 2030년 위험 대처

AI 열풍이 절정에 달하면서 초점이 인공 일반 지능(AGI)으로 이동하고 있습니다. DeepMind의 새로운 108페이지 논문은 안전한 AGI 개발이라는 중요한 문제를 다루고 있으며, 2030년까지 AGI가 등장할 가능성을 예측하고 있습니다. 이 논문에서는 오용, 불일치, 실수, 구조적 위험이라는 4가지 주요 위험 범주를 설명합니다. 이러한 위험을 완화하기 위해 DeepMind는 엄격한 테스트, 훈련 후 강력한 안전 프로토콜, 심지어 위험한 기능을 '잊게 만드는' 가능성까지 제안하고 있습니다. 이것은 큰 과제입니다. 이 선견지명 있는 접근 방식은 인간 수준의 AI가 초래할 수 있는 심각한 피해를 방지하는 것을 목표로 합니다.

AI

보노보의 복잡한 언어: 부분의 합을 넘어서

2025-04-03
보노보의 복잡한 언어: 부분의 합을 넘어서

스위스 과학자들은 보노보가 단순한 소리 신호들을 결합하여 복잡한 의미 구조를 만들어낼 수 있다는 것을 발견했습니다. 이는 그들의 의사소통이 개별 소리의 단순한 합계가 아니며, 비자명적인 구성성을 가지고 있다는 것을 의미합니다—한때 인간 고유의 특징으로 여겨졌던 것입니다. 연구자들은 보노보 울음소리의 대규모 데이터베이스를 구축하고, 분포 의미론을 사용하여 그 의미를 해독했습니다. 이를 통해 야생에서의 보노보 의사소통에 대한 귀중한 통찰력을 얻었습니다. 이 연구는 상당한 노력을 필요로 했으며, 연구자들은 새벽에 보노보 둥지까지 가서 하루 종일 울음소리와 문맥 정보를 기록해야 했습니다.

AI 언어

AI 이미지 생성: 지브리 스타일 모방이 저작권 문제를 제기하다

2025-04-03
AI 이미지 생성: 지브리 스타일 모방이 저작권 문제를 제기하다

GPT 이미지 생성의 최근 업데이트를 통해 사용자는 어떤 이미지든 지브리 스타일로 변환할 수 있게 되었습니다. 이는 AI의 스타일 모방 능력이 뛰어남을 보여주지만, 심각한 저작권 문제를 야기하기도 합니다. 저자는 실험을 통해 GPT가 IP를 명시적으로 언급하지 않더라도 유명 IP 캐릭터와 놀라울 정도로 유사한 이미지를 쉽게 생성할 수 있음을 보였습니다. 이는 놀랍지만 동시에 우려되는 부분이며, AI가 지적 재산권 침해를 조장할 가능성을 보여줍니다. 법적으로 시각적 스타일 모방은 허용되지만, 그 정확성은 저작권법의 경계를 모호하게 만들며, AI 개발과 저작권 보호의 균형에 대한 재고를 요구하고 있습니다.

AI

2027년 AI: 초지능 경쟁과 위험

2025-04-03
2027년 AI: 초지능 경쟁과 위험

이 보고서는 향후 10년 동안 초인적 AI의 영향이 엄청나며 산업혁명을 능가할 것이라고 예측합니다. OpenAI 등 기관은 두 가지 가능한 미래 시나리오, 즉 속도 조절 시나리오와 경쟁 시나리오를 모델링했습니다. 이 보고서는 2025년 초의 서투른 에이전트부터 코딩과 연구에서 인간을 능가하는 능력을 갖춘 2027년의 초지능에 이르기까지 AI 시스템의 급속한 발전을 자세히 설명합니다. 그러나 이러한 급속한 발전은 모델 안전성과 중국과의 AI 군비 경쟁을 포함한 막대한 위험을 수반합니다. 이 보고서는 AI가 고용 시장과 지정학에 미치는 심대한 영향을 강조하고 잠재적인 완화 전략을 모색합니다.

AI

Onyx: 오픈소스 GenAI 플랫폼, 시드 투자 1000만 달러 유치

2025-04-03
Onyx: 오픈소스 GenAI 플랫폼, 시드 투자 1000만 달러 유치

Onyx는 회사의 문서, 앱, 직원을 연결하는 오픈소스 생성형 AI 플랫폼입니다. Google Drive, Slack, GitHub, Confluence, Salesforce 등 다양한 정보 출처에서 정보를 수집하고 동기화하여 질문을 위한 중앙 허브를 만듭니다. 가장 지식이 풍부한 동료들이 24시간 연중무휴로 한 곳에 모여 있다고 상상해 보세요! Onyx는 향후 5년 이내에 모든 현대적인 팀이 지식 강화된 생성형 AI를 채택할 것이라고 믿고 있으며, 이 기술을 전 세계 모든 팀에 제공하는 것을 목표로 합니다. Khosla Ventures와 First Round Capital이 주도하는 1000만 달러 규모의 시드 투자 라운드를 마무리했으며, Netflix, Ramp, Applied Intuition 등의 고객뿐 아니라 Roku, Zendesk, L3Harris 등의 오픈소스 사용자도 확보하고 있습니다.

MIT 교수, 뇌의 언어 처리 메커니즘 규명

2025-04-03
MIT 교수, 뇌의 언어 처리 메커니즘 규명

구소련에서 여러 언어를 습득한 경험을 바탕으로 MIT 뇌인지과학 부교수가 된 Evelina Fedorenko 박사는 뇌의 언어 처리 영역 연구에 매진하고 있습니다. 그녀의 연구는 fMRI를 이용하여 이 영역들을 정확하게 파악하고, 이 영역들이 언어 처리에 매우 선택적이며 음악 감상이나 코드 해독과 같은 다른 인지 기능과 중복되지 않음을 밝혔습니다. 또한, 서로 다른 뇌 영역의 처리 시간 차이, 유아기 언어 처리 영역의 발달, 그리고 대규모 언어 모델을 이용한 연구를 통해 뇌의 언어 능력의 가소성과 중복성을 탐구하고 있습니다.

AI의 맹점: 이미지 및 비디오 생성 모델의 거울 반사

2025-04-03
AI의 맹점: 이미지 및 비디오 생성 모델의 거울 반사

최근 AI 기반 이미지 및 비디오 생성 모델은 놀라울 정도로 사실적인 이미지를 생성할 수 있게 되었지만, 여전히 큰 과제가 남아 있습니다. 바로 거울 반사를 정확하게 렌더링하는 것입니다. 연구자들은 여러 주요 모델을 테스트한 결과, 정확한 반사를 생성하는 데 지속적으로 어려움을 겪고 있음을 발견했습니다. 모델은 왜곡되거나, 모순되거나, 또는 완전히 잘못된 이미지를 생성하는 경우가 많았습니다. 예를 들어, Gemini는 고양이와 의자의 반사를 제대로 생성하지 못했고, Ideogram은 단체 사진 속 사람들의 반사를 제대로 생성하지 못했습니다. 이는 중요한 제약을 보여줍니다. AI 기반 이미지 생성은 빠르게 발전하고 있지만, 물리적 정확도, 예를 들어 사실적인 거울 반사를 달성하는 것은 여전히 큰 과제입니다.

AI

Anthropic, ChatGPT에 맞서 교육용 Claude 출시

2025-04-03
Anthropic, ChatGPT에 맞서 교육용 Claude 출시

Anthropic이 OpenAI의 ChatGPT Edu와 직접 경쟁하는 고등 교육용 새로운 AI 챗봇 서비스인 Claude for Education을 출시했습니다. 이 서비스는 학생과 교수진에게 Claude에 대한 접근 권한을 제공하며, 비판적 사고를 증진하기 위한 새로운 '학습 모드'를 갖추고 있습니다. 엔터프라이즈급 보안 및 개인 정보 보호 기능을 포함하며, 이미 노스이스턴 대학교와 런던 정치경제대학교 등 여러 대학교와 계약을 체결했습니다. Anthropic은 이 서비스를 통해 수익 증대와 학생 사용자 확대를 목표로 하고 있습니다.

AI

Apple, 실내 3D 객체 탐지 위한 CA-1M 데이터셋 및 Cubify Transformer 모델 공개

2025-04-02
Apple, 실내 3D 객체 탐지 위한 CA-1M 데이터셋 및 Cubify Transformer 모델 공개

Apple이 실내 3D 객체 탐지를 위한 대규모 데이터셋 CA-1M과 Cubify Transformer(CuTR) 모델을 공개했습니다. CA-1M에는 철저하게 주석이 달린 3D 바운딩 박스와 포즈가 포함되어 있습니다. CuTR 모델은 RGB-D 이미지와 RGB 이미지만 사용하는 두 가지 변형이 제공됩니다. 이 데이터셋은 NeRF Capture 앱을 사용한 실시간 탐지를 지원하며, 포괄적인 지침과 코드 예제가 포함되어 있습니다. 연구자들은 이 데이터셋과 모델을 활용하여 실내 3D 객체 탐지 연구를 발전시킬 수 있습니다.

AI 에이전트: 정체성이 결정적 요소

2025-04-02
AI 에이전트: 정체성이 결정적 요소

이 글은 종종 혼란을 야기하는 AI 에이전트의 정의를 다룹니다. 저자는 AI 에이전트와 AI 어시스턴트를 구분하는 핵심은 '정체성'에 있다고 주장합니다. 진정한 AI 에이전트는 자체 정체성으로 행동하며, 감사 로그에 반영됩니다. 반면 AI 어시스턴트는 사람 사용자의 정체성으로 작동합니다. 이 정체성 기반 정의는 자율성, 능력, 추론 능력을 의미합니다. 저자는 법적 대리인과 비교하고, 자사 제품을 예로 들어 이 정의의 실용적인 적용을 보여줍니다.

AI

실시간 자기반성 압축: 트랜스포머에 양심을 부여하다

2025-04-02
실시간 자기반성 압축: 트랜스포머에 양심을 부여하다

대규모 언어 모델(LLM)은 자기반성 기능 부족과 일시적인 인지라는 두 가지 주요 제약 조건을 가지고 있습니다. 본 논문에서는 이 두 가지 문제를 모두 해결하는 새로운 실시간 자기반성 압축 방법을 제안합니다. 경량의 "사이드카" 모델을 훈련하여 트랜스포머의 내부 상태를 압축함으로써 모델의 내부 작동에 대한 효율적인 접근 및 재생을 가능하게 합니다. 이 방법은 게임 상태를 저장하는 것과 유사하게 트랜스포머의 상태를 저차원 잠재 공간으로 압축하여 전체 상태를 저장하는 계산적 어려움을 극복합니다. 이를 통해 추론 되돌리기, 사고 과정에 기반한 강화 학습, 메모리 효율적인 체크포인트 저장 등 새로운 기능이 가능해지며, 궁극적으로 더욱 강력하고 해석 가능한 AI 시스템으로 이어집니다.

Ace: 초인적인 속도의 컴퓨터 오토파일럿

2025-04-02
Ace: 초인적인 속도의 컴퓨터 오토파일럿

Ace는 마우스와 키보드를 사용하여 데스크톱에서 작업을 수행하는 컴퓨터 오토파일럿입니다. 다양한 컴퓨터 사용 작업에서 다른 모델을 능가하는 성능과 초인적인 속도를 자랑합니다. 소프트웨어 전문가와 도메인 전문가가 100만 개가 넘는 작업으로 훈련시킨 Ace는 화면과 프롬프트에 따라 마우스 클릭과 키 입력을 수행합니다. 개발 중이며 가끔 오류가 발생하지만, 훈련 리소스가 증가함에 따라 정확도가 크게 향상됩니다. 초기 연구 프리뷰 버전을 이용할 수 있습니다.

AI

MathArena: 수학 경진대회에서 LLM을 엄격하게 평가하는 플랫폼

2025-04-02

MathArena는 최신 수학 경진대회와 올림피아드에서 대규모 언어 모델(LLM)의 성능을 평가하는 플랫폼입니다. 출시 후 경진대회에서만 모델을 테스트하여 공정하고 편향되지 않은 평가를 보장하고, 잠재적으로 유출된 데이터에 대한 사후 평가를 방지합니다. 각 경진대회의 순위표를 공개하고, 서로 다른 모델의 개별 문제 점수와 모든 경진대회의 성능을 요약한 메인 테이블을 제공합니다. 각 문제는 각 모델에서 4번 실행되며, 평균 점수와 모델 비용(USD)이 계산됩니다. 평가 코드는 오픈 소스입니다: https://github.com/eth-sri/matharena.

보르헤스와 사이먼: 1970년 부에노스아이레스의 융합적 대화

2025-04-02
보르헤스와 사이먼: 1970년 부에노스아이레스의 융합적 대화

1970년 부에노스아이레스에서 아르헨티나 작가 호르헤 루이스 보르헤스와 AI 개척자 허버트 A. 사이먼은 매혹적인 융합적 대화를 나누었습니다. 자유 의지 대 결정론을 주제로 인간 행동과 컴퓨터 프로그램의 유사성을 탐구했습니다. 보르헤스의 날카로운 질문은 인간 행동의 결정론적 성격과 개인 정체성 유지의 조화를 사이먼에게 요구했습니다. 이 교류는 융합적 사고의 가치를 보여주고 오늘날 학계가 직면한 과제에 대한 시의적절한 성찰을 제공하며 인문학과 STEM 분야의 협력 필요성을 강조합니다. 또한 AI를 이용한 역사적 인물의 시뮬레이션에 대해서도 생각하게 합니다.

Google Gemini Robotics: 첫 시도 만에 덩크슛 성공

2025-04-02
Google Gemini Robotics: 첫 시도 만에 덩크슛 성공

Google은 새로운 Gemini Robotics 모델을 공개했습니다. 이 모델을 통해 로봇은 특정 물체나 동작에 대한 사전 훈련 없이도, 첫 시도만에 농구공 덩크슛을 성공하는 등 복잡한 작업을 수행할 수 있게 되었습니다. Gemini 2.0을 기반으로 로봇 전용 데이터로 미세 조정된 이 모델은 멀티모달 출력(텍스트, 비디오, 오디오)을 물리적 동작으로 변환합니다. 높은 숙련도, 상호 작용성, 범용성을 갖추고 있어 추가 훈련 없이도 새로운 물체, 환경, 지시에 적응합니다. Google의 목표는 일상적인 작업을 지원하는 로봇을 작동시키는 구현화된 AI를 구축하는 것으로, 궁극적으로는 휴대전화나 컴퓨터만큼 일반적인 AI 인터페이스가 되는 것입니다.

Pulse: 복잡한 문서 데이터 추출에 도전하는 AI 스타트업

2025-04-02
Pulse: 복잡한 문서 데이터 추출에 도전하는 AI 스타트업

Pulse는 데이터 인프라에서 오랫동안 지속되어 온 과제, 즉 복잡한 문서에서 정확하고 구조화된 정보를 대규모로 추출하는 문제에 도전하고 있습니다. 혁신적인 접근 방식은 지능적인 스키마 매핑과 미세 조정된 추출 모델을 결합하여 기존 OCR 및 기타 구문 분석 도구를 능가합니다. 샌프란시스코에 본사를 둔 이 빠르게 성장하는 팀은 포춘 100대 기업, Y Combinator 스타트업 등을 고객으로 확보하고 있으며 일류 투자자들의 지원을 받고 있습니다. 다단계 아키텍처에는 레이아웃 이해, 저지연 OCR, 고급 읽기 순서 알고리즘, 독점적인 표 구조 인식 및 차트와 표를 위한 비전 언어 모델이 포함됩니다. 컴퓨터 비전, NLP, 데이터 인프라에 열정을 가진 사람이라면 Pulse는 고객에게 직접적인 영향을 미치고 문서 인텔리전스의 미래를 형성할 기회를 제공합니다.

OpenAI, GPT-4o 훈련에 무단으로 유료 도서 사용했다는 비난

2025-04-02
OpenAI, GPT-4o 훈련에 무단으로 유료 도서 사용했다는 비난

AI 공개 프로젝트의 새로운 논문에서 OpenAI가 주로 O'Reilly Media의 라이선스 없는 유료 도서를 GPT-4o 모델 훈련에 사용했다는 비난을 받고 있습니다. 이 논문은 DE-COP 방법을 사용하여 GPT-4o가 O'Reilly의 유료 콘텐츠를 GPT-3.5 Turbo보다 훨씬 더 정확하게 인식한다는 것을 보여주는데, 이는 훈련 데이터에 많은 무단 데이터가 포함되어 있음을 시사합니다. OpenAI는 일부 데이터 라이선스를 보유하고 있으며 옵트아웃 메커니즘도 제공하지만, 이는 저작권과 관련된 기존의 법적 문제를 더욱 악화시키는 것입니다. 논문 저자들은 자신의 방법론의 한계를 인정하지만, 이러한 결과는 OpenAI의 데이터 확보 방법에 대한 심각한 우려를 불러일으키고 있습니다.

AI

회로 추적: 거대 언어 모델의 계산 그래프 밝히기

2025-04-02
회로 추적: 거대 언어 모델의 계산 그래프 밝히기

연구원들은 크로스 레이어 트랜스코더(CLT)를 사용하여 심층 학습 모델의 내부 작동 방식을 해석하는 새로운 방법을 제시했습니다. CLT는 모델의 활성화를 드물고 해석 가능한 특징으로 분해하고, 특징 간의 상호 작용의 인과 그래프를 구성하여 모델이 어떻게 출력을 생성하는지 보여줍니다. 이 방법은 다양한 프롬프트(예: 약어 생성, 사실 회상, 간단한 덧셈 등)에 대한 모델의 응답을 성공적으로 설명하며, 섭동 실험을 통해 검증되었습니다. 주의 메커니즘을 완전히 설명할 수 없다는 등의 한계는 있지만, 거대 언어 모델의 내부 작동 방식을 이해하는 데 귀중한 도구를 제공합니다.

단순한 에이전트 상호 작용에서 나오는 경제: 시뮬레이션된 시장

2025-04-02
단순한 에이전트 상호 작용에서 나오는 경제: 시뮬레이션된 시장

본 논문은 개별 에이전트의 행동을 기반으로 구축된 시뮬레이션된 시장 경제 모델을 제시합니다. 간단한 매수/매도 결정 규칙을 사용하여 복잡한 시장 역학을 생성합니다. 각 에이전트는 상품에 대한 개인적인 평가와 예상되는 시장 가격을 기반으로 의사 결정을 하고 거래 후 기대치를 조정합니다. 시뮬레이션은 평균적인 개인 가치로의 수렴을 보여주며 환경 변화에 적응합니다. 이는 오픈월드 RPG에서 동적인 경제 시스템에 대한 새로운 접근 방식을 제공하지만, 거래 시점과 희소성 문제를 해결해야 합니다.

AI의 컨텍스트 윈도우: 보편적인 표준이 필요한 이유

2025-04-01
AI의 컨텍스트 윈도우: 보편적인 표준이 필요한 이유

현재 AI 모델의 지식은 사전 훈련 단계에서 고정되며, 비용이 많이 드는 미세 조정을 통해 제한적인 업데이트만 가능합니다. 따라서, 차단 날짜 이후의 정보에 대해서는 눈이 멀게 됩니다. 이 기사에서는 AI에서의 "컨텍스트"를 살펴봅니다. 사용자 입력, 대화 기록, 외부 정보 소스 등 모두 "컨텍스트 윈도우"에 의해 제한됩니다. 이러한 제한을 극복하기 위해 외부 데이터 소스에 대한 보편적인 표준이 필수적이며, AI가 실시간 정보에 액세스하여 더욱 고도화된 지능과 기능을 달성할 수 있도록 합니다.

DeepMind의 논문 발표 규제가 내부 혼란을 야기하다

2025-04-01
DeepMind의 논문 발표 규제가 내부 혼란을 야기하다

DeepMind의 논문 심사 과정 강화로 인해 직원들의 불만이 커지고 있다. OpenAI의 ChatGPT 취약점을 드러낸 논문이 차단되었다는 보도가 나오면서 학문의 자유보다 상업적 이익이 우선시되는 것 아니냐는 우려가 제기되고 있다. 더욱 엄격해진 심사 과정은 직원들의 퇴사로 이어지고 있으며, 연구자의 경력에 논문 발표는 필수적이다. 게다가 내부 자원은 DeepMind의 Gemini AI 제품군 개선에 점점 더 집중되고 있다. Google의 AI 제품은 시장에서 성공을 거두고 주가도 상승하고 있지만, 내부 긴장은 학문적 연구와 상업화의 갈등을 보여준다.

선충 뇌 시뮬레이션: 전체 뇌 에뮬레이션으로 가는 디딤돌?

2025-04-01

인간의 뇌를 시뮬레이션하는 것은 과학계의 오랜 숙원이었지만, 그 복잡성 때문에 어려움을 겪어왔습니다. 과학자들은 겨우 302개의 뉴런만 가지고 있는 선충 C. elegans에 주목했습니다. 25년 동안 수많은 시도가 실패한 끝에, 라이트 시트 현미경, 초고해상도 현미경, 기계 학습의 발전 덕분에 선충의 뇌 시뮬레이션이 마침내 가능해지고 있습니다. 이러한 기술을 통해 살아있는 선충의 뇌에서 뉴런 활동을 실시간으로 관찰하고 기계 학습을 이용하여 뉴런의 생물 물리적 매개변수를 추론할 수 있게 되었습니다. C. elegans의 뇌 시뮬레이션에 성공하면 놀라운 과학적 성과가 될 뿐만 아니라, 더 복잡한 뇌, 궁극적으로는 인간의 뇌 시뮬레이션을 위한 귀중한 경험과 방법을 제공하여 미래의 AI와 신경 과학 연구의 길을 열어줄 것입니다.

의미의 종말: AI 아트와 경이로움의 상실

2025-04-01
의미의 종말: AI 아트와 경이로움의 상실

이 글은 AI 생성 아트가 예술의 의미에 미치는 영향을 탐구하며, 한때 믿을 수 없을 정도로 어렵고 비쌌던 안료인 울트라마린을 예로 듭니다. 저자는 AI 아트 제작의 용이성이 전통 예술과 관련된 경외감과 독창성을 감소시켜 쾌락적 적응으로 이어진다고 주장합니다. 이것은 AI 고유의 문제가 아니라, 기술 발전으로 인해 과거에는 드물었던 경험이 보편화되는 역사적 반복 패턴입니다. 제시된 해결책은 기술적인 것이 아니라 개인적인 것입니다. 즉, 아이 같은 경이로움을 키우고 세상과 적극적으로 소통함으로써 쉽게 얻을 수 있는 풍요로 인해 발생하는 감각의 무뎌짐을 극복하는 것입니다.

Jargonic: 혁신적인 업계 특화 음성 인식 모델

2025-04-01
Jargonic: 혁신적인 업계 특화 음성 인식 모델

aiOla는 업계 전문 용어, 소음 환경, 실시간 적응성 측면에서 기존 ASR 모델의 한계를 해결하는 획기적인 자동 음성 인식(ASR) 모델 Jargonic을 출시했습니다. Jargonic은 고급 도메인 적응, 실시간 컨텍스트 키워드 감지, 제로샷 학습을 사용하여 추가 훈련 없이도 업계 특정 언어를 처리합니다. 독자적인 키워드 감지 메커니즘과 ASR 엔진을 결합하여 특히 전문 용어가 포함된 음성의 전사 정확도가 크게 향상됩니다. 또한 Jargonic은 강력한 노이즈 처리 기능을 갖추고 여러 언어와 시끄러운 산업 환경에서도 높은 성능을 유지합니다. 벤치마크 테스트에서 OpenAI Whisper 등 경쟁사를 능가합니다.

AI

생성형 AI 시장 대변혁: Gartner, 시장 통합 및 도태 예측

2025-04-01
생성형 AI 시장 대변혁: Gartner, 시장 통합 및 도태 예측

Gartner는 생성형 AI(GenAI) 시장에서 대규모 통합이 일어나고, 최종적으로는 소수의 주요 업체만 남을 것이라고 예측합니다. 현재 많은 대규모 언어 모델(LLM) 제공업체는 치열한 경쟁 시장에서 높은 개발 및 운영 비용으로 어려움을 겪고 있습니다. 분석가 John-David Lovelock은 AWS, Azure, Google Cloud와 같은 상황을 반영하여 시장이 소수의 거대 기업에 의해 지배될 것이라고 예측합니다. 기업들은 자체 AI 소프트웨어를 개발하는 대신 상용 솔루션을 채택하는 경향이 높아지고 있습니다. GenAI 시장은 2025년까지 6,440억 달러에 이를 것으로 예상되지만, LLM 개발자들은 수익보다 시장 점유율 확보를 우선시하고 있으며, 경쟁력이 약한 업체들이 점차 도태될 것으로 예상됩니다. 이는 닷컴 버블 붕괴와 같은 급격한 붕괴가 아니라 점진적인 통합이 될 것입니다.

1 2 25 26 27 29 31 32 33 40 41