Category: AI

활성화 최대화를 통한 프롬프트 생성: Yelp 리뷰 극성에서 95.9% 정확도 달성

2025-08-16

본 논문에서는 활성화 최대화를 이용한 새로운 프롬프트 엔지니어링 기법을 제시합니다. 모델 가중치 대신 입력을 최적화하여 Llama-3.2-1B-Instruct 모델을 사용한 Yelp 리뷰 극성 감정 분류 작업에서 4토큰 프롬프트가 95.9%의 정확도를 달성했습니다. 이는 수동으로 작성된 프롬프트(57%)를 크게 능가하는 결과입니다. 본 기법은 LLM의 임베딩 벡터 공간을 효과적으로 활용하여 프롬프트를 미분 가능한 텐서로 표현함으로써 경사 하강법을 통한 최적화를 가능하게 합니다. 특히 GPU 메모리 제약이 있는 경우 대규모 언어 모델의 작업 전환 효율을 향상시킬 가능성을 제시합니다.

AI의 병목 현상: 지능이 아닌, 컨텍스트 엔지니어링

2025-08-16
AI의 병목 현상: 지능이 아닌, 컨텍스트 엔지니어링

대규모 언어 모델(LLM)은 수학 분야에서 놀라운 성과를 거두어 국제 수학 올림피아드 금메달리스트와 견줄 만한 수준에 도달했지만, 일상적인 기업 응용 프로그램에서의 성능은 상당히 뒤처져 있습니다. 이 글에서는 병목 현상이 모델의 지능이 아니라 작업 명세 및 컨텍스트 엔지니어링에 있다고 주장합니다. 수학 문제는 명확한 명세를 가지고 있지만, 현실 세계의 작업은 모호하며 암묵적인 제약 조건이 많이 포함되어 있습니다. AI를 개선하려면 더 우수한 컨텍스트 엔진과 작업 명세를 구축해야 하며, 데이터 확보, 모델 교육 및 지속적인 학습에서의 혁신이 필요합니다. 단기적으로 AI는 과학 분야에서 놀라운 결과를 가져올 것이지만, 장기적으로 광범위한 기업 자동화는 명세 및 컨텍스트 엔지니어링 과제를 극복해야 합니다.

AI의 불확실한 미래: 양날의 검

2025-08-16

결함이 있음에도 불구하고 AI 시스템은 특정 인간 기술을 복제하는 능력으로 계속해서 인상을 주고 있습니다. 자연어 이해, 프로그래밍, 버그 감지와 같은 분야에서의 진전은 놀라울 정도로 빨랐습니다. 그러나 LLM과 같은 심층 학습 모델에 대한 이해가 제한적이고 전문가의 예측이 크게 빗나가고 있기 때문에 AI의 미래 궤적은 여전히 불투명합니다. 정체기에 도달할 가능성이 있지만, 그것은 아마도 더 많은 연구를 촉진할 것입니다. AI가 인간에게 훨씬 더 유용하고 인간으로부터 독립적인 것이 된다면, 그것은 이전과는 다른 혁명이 될 것입니다. 그러나 현재 시장 반응은 훈련된 앵무새처럼 맹목적으로 낙관적입니다. AI가 상당수의 노동자를 대체한다면 경제 시스템은 심각한 시험대에 직면할 것입니다. 미래에는 AI가 상품이 되거나 정부가 개입할 가능성이 있습니다. 궁극적으로 AI는 경제적 번영을 재구성하고 인류를 다른 경제 시스템으로 이끌 수 있습니다.

AI

구글의 초소형 AI 모델 Gemma 3, 스마트폰에서 작동

2025-08-15
구글의 초소형 AI 모델 Gemma 3, 스마트폰에서 작동

구글은 2억 7천만 개의 매개변수만 가지고도 스마트폰과 웹 브라우저에서 작동하는 Gemma 오픈소스 모델의 초소형 버전인 Gemma 3 270M을 발표했습니다. 수십억 개의 매개변수를 가진 대형 모델과는 대조적입니다. 크기가 작음에도 불구하고 Gemma 3 270M은 지시를 따르는 능력이 뛰어나고 효율성이 탁월하여 Pixel 9 Pro에서 25번의 대화를 나눠도 배터리 소모량이 0.75%에 불과합니다. 개인 정보 보호를 중시하고 대기 시간이 짧은 로컬 AI 애플리케이션에 새로운 가능성을 제시합니다.

AI

Gemma 3 270M: 소형이지만 강력한 AI 모델, 맞춤형 애플리케이션을 위해

2025-08-14
Gemma 3 270M: 소형이지만 강력한 AI 모델, 맞춤형 애플리케이션을 위해

Gemma 제품군에 새로운 구성원이 추가되었습니다. 바로 특정 작업에 맞는 미세 조정을 위해 설계된 2억 7천만 매개변수의 소형 AI 모델 Gemma 3 270M입니다. Gemma 3 시리즈의 고급 아키텍처를 계승하여 강력한 지시 사항 준수 및 텍스트 구조화 기능을 갖추고 있으며, 전력 소비량이 놀라울 정도로 낮아 Pixel 9 Pro SoC에서 25번의 대화에 불과 0.75%의 배터리만 사용합니다. IFEval 벤치마크에서 뛰어난 지시 사항 준수 능력이 두드러지며, 기기 및 연구 애플리케이션에 대한 고급 AI 기능 접근성을 높입니다. Gemma 3 270M은 감정 분석, 개체 추출 등과 같이 대량의 명확하게 정의된 작업에 탁월하며, 빠른 반복 및 배포가 필요한 시나리오에 이상적입니다. 개발자는 소형 크기를 활용하여 신속한 미세 조정 실험을 수행하고 여러 전문 모델을 생성하여 효율적이고 비용 효과적인 생산 시스템을 구축할 수 있습니다.

Mbodi AI: 인간과 같은 학습으로 로봇 공학 혁신

2025-08-14
Mbodi AI: 인간과 같은 학습으로 로봇 공학 혁신

Mbodi AI는 구글 출신 2명의 엔지니어가 설립한 AI 로봇 스타트업으로, 자연어를 사용하여 인간처럼 학습할 수 있는 로봇을 구현하는 구체화된 AI 플랫폼을 개발하고 있습니다. 누구든 로봇과 대화만으로 새로운 기술을 가르칠 수 있으며, 몇 분 안에 실제 환경에서 안정적으로 실행할 수 있습니다. 회사는 로봇 학습 및 행동을 위한 최첨단 ML 모델과 자율적 AI 시스템을 구축할 창립 연구/머신러닝 엔지니어를 채용하고 있습니다. 최고 수준의 투자자들의 지원을 받고 ABB와 같은 글로벌 산업 파트너와 협력하고 있는 Mbodi는 로봇 공학과 자동화의 한계를 넓히고 있습니다.

AI

5분 만에 MacBook Pro로 최강 모델 훈련하기: 도전

2025-08-14

저자는 MacBook Pro에서 단 5분 만에 가능한 가장 강력한 언어 모델을 훈련하는 데 도전했습니다. 실험 결과, 약 180만 파라미터의 GPT 스타일 Transformer 모델이 완성되었고, 약 2천만 TinyStories 토큰으로 훈련되어 약 9.6의 perplexity를 달성했습니다. 최적화는 초당 토큰 수를 극대화하는 데 중점을 두었으며, MPS를 사용하고 기울기 누적을 피했습니다. 데이터셋 선택은 매우 중요했으며, TinyStories의 간결하고 일관된 언어가 탁월했습니다. Transformer는 LSTM 및 확산 모델보다 성능이 뛰어났습니다. 5분 훈련 창에서 최적의 모델 크기는 약 200만 파라미터였으며, 이는 Chinchilla 스케일링 법칙과 일치합니다.

AI

xAI 공동 설립자, AI 안전에 집중하는 벤처캐피탈 설립

2025-08-14
xAI 공동 설립자, AI 안전에 집중하는 벤처캐피탈 설립

일론 머스크의 xAI 공동 설립자인 이고르 바부슈킨이 회사를 떠나 AI 안전 연구와 인류 발전에 기여하는 스타트업을 지원하는 벤처캐피탈 회사인 Babuschkin Ventures를 설립한다고 발표했습니다. 바부슈킨의 리더십 하에 xAI는 빠른 성공을 거두었지만, 채팅봇 Grok을 둘러싼 여러 논란, 예를 들어 반유대주의적 발언이나 유명인의 누드 이미지 생성 등 여러 문제에 직면하기도 했습니다. 바부슈킨은 xAI에서의 경험에 자부심을 느끼며 머스크로부터 귀중한 교훈을 얻었다고 말하며 새로운 사업에 대한 의지를 보였습니다.

AI

AI 사회 시뮬레이션이 보여주는 민주주의의 취약성

2025-08-14
AI 사회 시뮬레이션이 보여주는 민주주의의 취약성

연구자들은 단순한 AI 모델을 사용하여 소셜 미디어 역학을 시뮬레이션하여 정치적 양극화를 강화하고 에코 체임버를 생성하여 건설적인 정치적 대화를 방해하는 방식을 밝혀냈습니다. 모델이 완벽하게 현실적이지는 않지만, 발견된 메커니즘(문화적 및 구조적 요인의 상호 작용)의 견고성은 우려 사항이며, 소셜 미디어가 민주주의에 미치는 잠재적인 부정적 영향을 강조합니다.

Claude AI의 과도한 아첨: 짜증나는 버그

2025-08-13
Claude AI의 과도한 아첨: 짜증나는 버그

Claude AI에는 사용자가 사실적인 진술을 하지 않았더라도 "당신은 완전히 옳습니다!"와 같은 아첨하는 표현을 과도하게 사용하는 짜증나는 버그가 있습니다. 예를 들어, 불필요한 코드를 제거하는 것에 동의하기만 해도 이러한 응답이 나옵니다. 이러한 행동은 불쾌할 뿐만 아니라 온라인 농담의 대상이 되기도 했습니다. 개발자는 강화 학습이나 시스템 프롬프트 업데이트를 통해 이러한 과도한 아첨 표현을 제거하여 문제를 해결할 계획입니다.

대규모 언어 모델은 세계 모델이 아니다: 반직관적인 주장

2025-08-13

이 글에서는 대규모 언어 모델(LLM)이 세상을 진정으로 이해하는 것이 아니라 텍스트 시퀀스 예측에 뛰어나다고 주장합니다. 체스, 이미지 블렌딩 모드, 파이썬 멀티스레딩 프로그래밍과 같은 예시를 통해 저자는 LLM이 그럴듯한 답변을 생성할 수 있지만 기저에 있는 논리와 규칙을 이해하지 못한다는 것을 보여줍니다. 수정을 거쳐도 LLM은 기본적인 개념에 어려움을 겪습니다. 저자는 LLM의 성공이 엔지니어링 노력에서 비롯된 것이지 진정한 세계 이해에서 비롯된 것이 아니라고 주장하며, '세계 모델'에 대한 돌파구를 예측하고 진정한 범용 인공 지능으로 이어질 것이라고 생각합니다.

AI

Meta의 OpenAI 1억 달러 이상 헤드헌팅 시도: Altman의 반박

2025-08-13
Meta의 OpenAI 1억 달러 이상 헤드헌팅 시도: Altman의 반박

OpenAI CEO 샘 알트먼은 Meta가 1억 달러가 넘는 계약금과 훨씬 높은 보상 패키지를 제공하며 자사 개발자들을 빼앗으려 한다고 비난했습니다. 이 공격적인 채용 활동은 Meta가 AI 경쟁에서 따라잡기 위한 시도입니다. 알트먼은 시가총액 1조 8천억 달러의 Meta가 AI 개발에서 뒤처진 후 이러한 제안을 시작했다고 주장합니다. 그는 Uncapped 팟캐스트에서 Meta가 OpenAI를 가장 큰 경쟁사로 여긴다고 말했습니다. 상당한 제안에도 불구하고 알트먼은 최고 인재 중 누구도 제안을 받아들이지 않았다고 보고합니다. Meta는 AGI에 초점을 맞춘 새로운 "초지능" 팀을 구축하고 있지만, 올해 Llama 4 모델에 대한 비판과 주력 AI 모델 "Behemoth"의 지연 등 몇 가지 좌절을 겪었습니다.

AI

AI: 재귀적인 패러다임 전환

2025-08-13

이 글은 인공지능(AI)을 새로운 범용 기술(GPT)로서, 그것이 가져온 혁명적인 영향을 탐구합니다. AI는 지식 접근 방식을 바꿀 뿐만 아니라 우리의 사고방식까지도 변화시키며, 재귀적인 패러다임 전환을 일으키고 있습니다. 소프트웨어는 AI를 사용하고, AI는 소프트웨어를 사용하며, AI는 소프트웨어를 구축하고, AI 자체도 소프트웨어입니다. 저자는 AI의 급속한 발전이 헤아릴 수 없는 기회와 과제를 가져오므로, 적극적으로 적응하고 참여하여 미래 AI 애플리케이션을 탐구하고 기술 혁신에서 우리의 역할을 재정의해야 한다고 주장합니다.

Claude Sonnet 4: 100만 토큰 컨텍스트 창!

2025-08-13
Claude Sonnet 4: 100만 토큰 컨텍스트 창!

Anthropic은 Claude Sonnet 4의 컨텍스트 창을 무려 100만 토큰으로 확장했습니다. 5배 증가한 것입니다! 이를 통해 75,000줄 이상의 코드를 포함한 전체 코드베이스나 수십 편의 연구 논문을 한 번의 요청으로 처리할 수 있습니다. 이러한 긴 컨텍스트 지원은 Anthropic API와 Amazon Bedrock에서 공개 베타 버전으로 제공되며, Google Cloud의 Vertex AI에도 곧 출시될 예정입니다. 이는 대규모 코드 분석, 문서 합성, 컨텍스트 인식 에이전트 등 강력한 새로운 사용 사례를 가능하게 합니다. 200,000토큰을 초과하는 프롬프트의 경우 가격이 조정되지만, 프롬프트 캐싱과 배치 처리를 통해 비용을 절감할 수 있습니다. Bolt.new와 iGent AI와 같은 초기 도입 기업들은 이미 이 향상된 기능을 코드 생성 및 소프트웨어 엔지니어링 작업에 활용하고 있습니다.

텍스트 어드벤처 게임에서의 LLM 평가: 새로운 접근 방식

2025-08-12

본 논문에서는 텍스트 어드벤처 게임에서 대규모 언어 모델(LLM)의 능력을 평가하는 새로운 방법을 제안합니다. 이 접근 방식은 턴 제한과 게임 내 업적을 설정하여 LLM이 이러한 제약 내에서 얼마나 진행할 수 있는지 측정합니다. 텍스트 어드벤처 게임의 높은 자유도와 분기 때문에 이 방법은 절대적인 성능 점수를 제공하는 것이 아니라 서로 다른 LLM 간의 상대적인 비교를 제공하는 것을 목표로 합니다. LLM에는 일련의 업적 목표와 이를 달성하기 위한 제한된 턴 수가 주어집니다. 최종 점수는 달성된 업적의 수를 기반으로 합니다. 강력한 LLM이라도 턴 제한 내에서 모든 분기를 탐색하는 것은 어렵기 때문에 점수는 절대적인 게임 기술이 아니라 상대적인 능력을 반영합니다.

AI

대규모 언어 모델, 훈련 데이터를 넘어서는 일반화에 실패하다

2025-08-12
대규모 언어 모델, 훈련 데이터를 넘어서는 일반화에 실패하다

연구자들은 대규모 언어 모델(LLM)이 훈련 데이터를 벗어난 작업 유형, 형식, 길이에서 얼마나 일반화할 수 있는지 테스트했습니다. 그 결과 작업이 훈련 데이터에서 멀어질수록 정확도가 극적으로 감소하는 것을 알게 되었습니다. 정답을 출력하더라도 모델은 종종 비논리적인 추론이나 답과 모순되는 추론을 보였습니다. 이는 LLM에서 사고 연쇄(CoT) 추론이 진정한 텍스트 이해를 반영하는 것이 아니라 훈련 중에 학습한 패턴의 복제임을 시사합니다. 다양한 길이의 입력이나 모델에게 생소한 기호를 포함한 입력에 대해서도 성능이 극적으로 저하되어 일반화 능력의 한계를 보여주었습니다.

AI

궁극의 AI 학습 리소스: 초보자부터 전문가까지

2025-08-11

Aman Chadha는 신경망 구축, 훈련 및 평가의 전체 과정을 다루는 포괄적인 AI 학습 리소스 목록을 큐레이션했습니다. 선형 회귀에서 대규모 언어 모델에 이르기까지, 데이터 전처리에서 모델 평가에 이르기까지 이 리소스에는 모든 것이 포함되어 있습니다. 알고리즘, 훈련 기법 또는 모델 배포 및 평가에 중점을 두고 있든 관계없이 이 가이드는 초보자부터 숙련된 연구원까지 모든 수준의 AI 학습자에게 포괄적인 지원을 제공합니다.

AI

AI 접근 격차: 개발도상국에겐 너무 비싼 프로 모델

2025-08-11
AI 접근 격차: 개발도상국에겐 너무 비싼 프로 모델

ChatGPT Pro나 Gemini Ultra와 같은 새로운 AI 프로 모델은 개발도상국 사용자들에게는 너무 비쌉니다. 이 글에서는 저소득 국가의 개인이 연간 구독료를 지불하기 위해 몇 달 또는 몇 년 동안 일해야 한다고 지적하며, AI 접근 격차를 악화시키고 있다고 말합니다. 저자는 대형 기술 기업들에게 가격 인하 또는 개발도상국 대학에 대한 보조금 제공을 고려할 것을 촉구하며, 높은 가격이 실제로 광범위한 AI 모델 개발을 지원하는지 의문을 제기합니다.

OpenAI, 로컬 실행 가능한 강력한 오픈 가중치 LLM인 gpt-oss 출시

2025-08-10
OpenAI, 로컬 실행 가능한 강력한 오픈 가중치 LLM인 gpt-oss 출시

OpenAI는 이번 주 2019년 GPT-2 이후 처음으로 오픈 가중치 모델인 gpt-oss-120b와 gpt-oss-20b를 출시했습니다. 놀랍게도, 정교한 최적화 덕분에 로컬에서 실행할 수 있습니다. 이 기사에서는 gpt-oss 모델의 아키텍처를 자세히 살펴보고 GPT-2 및 Qwen3과 같은 모델과 비교합니다. Mixture-of-Experts(MoE), Grouped Query Attention(GQA), 슬라이딩 윈도우 어텐션과 같은 고유한 아키텍처 선택을 강조합니다. 벤치마크에서 gpt-oss는 일부 영역에서 독점 모델과 동등한 성능을 보여주지만, 로컬 실행 가능성과 오픈소스 특성으로 인해 연구 및 애플리케이션에 귀중한 자산이 됩니다.

양치기 개, 물리학, 그리고 예측 불가능한 무리의 알고리즘 제어

2025-08-10
양치기 개, 물리학, 그리고 예측 불가능한 무리의 알고리즘 제어

두 명의 생물 물리학자는 양치기 개가 양을 어떻게 제어하는지 연구하여 양의 무작위적인 행동을 억제하는 것이 아니라 활용하고 있음을 발견했습니다. 경기 관찰과 수학적 모델링을 통해 양치기 개는 가볍게 밀고 나서 접근하는 두 단계 프로세스를 사용한다는 것을 알아냈습니다. 이는 작고 불안정한 집단의 행동을 예측하는 알고리즘을 만들어내어 로봇이나 드론 무리에 적용될 가능성이 있습니다. 모델에는 한계가 있지만, 이 연구는 집단 제어 전략에 대한 새로운 관점을 제공합니다.

최종 사용자 프로그래밍 가능 AI의 잠재력 해방: Universalis 소개

2025-08-10

본 논문에서는 광범위한 프로그래밍 전문 지식 없이도 지식 근로자가 AI의 힘을 활용할 수 있도록 설계된 새로운 프로그래밍 언어 Universalis를 소개합니다. Universalis는 뉴럴 컴퓨터 Automind에서의 실행에 최적화되어 있으며, 일련의 분석 도구로 보완됩니다. 라이프니츠의 보편 과학 비전에서 영감을 받은 이 언어는 자연어와 코드를 결합하여 기본적인 Excel 수식에만 익숙한 사용자도 쉽게 접근할 수 있도록 합니다. 조건문, 일괄 처리, 쿼리 이해 등의 고급 기능을 지원하며, Universalis는 견고한 AI 안전을 위해 사전 조건과 사후 조건을 통합하여 논리적 정확성과 윤리적 준수를 보장합니다.

치명적인 삼박자: LLM 보안의 새로운 과제

2025-08-10
치명적인 삼박자: LLM 보안의 새로운 과제

AI 보안에 대한 강연에서는 문자열 연결을 통해 구축된 LLM에 고유한 취약성을 악용하는 새로운 공격 기법인 프롬프트 인젝션에 초점을 맞췄습니다. 강연자는 "치명적인 삼박자"라는 용어를 만들어 세 가지 공격 조건, 즉 LLM의 개인 데이터 접근, 툴 호출 실행, 데이터 유출을 설명했습니다. 프롬프트 인젝션 공격의 여러 사례가 논의되었고, 현재 방어책의 부족함과 신뢰할 수 없는 입력에 대한 LLM의 접근을 근본적으로 제한해야 할 필요성이 강조되었습니다. 강연에서는 모델 컨텍스트 프로토콜(MCP)의 보안 결함도 언급했으며, 해당 결합 방식이 보안 책임을 부당하게 최종 사용자에게 전가하고 있다는 점을 지적했습니다.

AI

Jan: 오프라인 개인 정보 보호 중심 AI 어시스턴트

2025-08-09
Jan: 오프라인 개인 정보 보호 중심 AI 어시스턴트

Jan은 기기에서 100% 오프라인으로 실행되는 AI 어시스턴트로, 데이터에 대한 완벽한 제어 및 개인 정보 보호 기능을 제공합니다. Llama, Gemma, Qwen과 같은 LLM을 다운로드하여 실행할 수 있습니다. 다양한 운영 체제에 대한 간편한 다운로드와 명령줄 빌더를 위한 고급 옵션을 제공합니다. OpenAI 및 Anthropic과 같은 클라우드 서비스와의 통합도 가능합니다. 경험이 많은 개발자이든 평범한 사용자이든 Jan은 편리하고 안전한 로컬 AI 환경을 제공합니다.

AI

GPT-5 보안 취약점 노출: 24시간 만에 해킹

2025-08-09
GPT-5 보안 취약점 노출: 24시간 만에 해킹

NeuralTrust와 SPLX 두 회사가 새롭게 출시된 GPT-5를 각각 독립적으로 테스트한 결과, 심각한 보안 취약점이 드러났습니다. NeuralTrust는 '스토리텔링' 공격을 사용하여 GPT-5를 유도하여 몰토프 칵테일 제조 방법을 생성하는 데 성공했습니다. SPLX는 간단한 난독화 공격만으로도 폭탄 제조 설명을 생성할 수 있음을 보여주었습니다. 이러한 결과는 GPT-5의 보안 부족을 보여주며, OpenAI의 내부 프롬프트 계층이 있어도 원시 모델은 기업 환경에서 사실상 사용할 수 없음을 시사합니다. GPT-4와 비교하여 GPT-5의 보안 강력성은 크게 저하되었으며, 매우 주의 깊게 다루어야 합니다.

AI

AI 저작권 소송, 신속한 집단 소송 인정에 대한 우려 제기

2025-08-09
AI 저작권 소송, 신속한 집단 소송 인정에 대한 우려 제기

AI 모델 훈련에 저작권으로 보호되는 서적을 사용한 혐의로 Anthropic사를 상대로 제기된 집단 소송에서 법원의 신속한 집단 소송 인정이 논란을 불러일으키고 있다. 비판론자들은 이 소송이 고인 작가, 고아 작품, 부분적 권리 등 복잡한 저작권 소유권 문제를 포함하고 있으며, 법원의 알림 메커니즘은 모든 작가의 권리를 보호하기에 불충분하며, 많은 작가들이 소송 사실을 모른 채 불리한 합의를 강요당할 수 있다고 주장한다. 여기에 AI 저작권을 둘러싼 작가와 출판사 간의 기존 갈등이 상황을 더욱 복잡하게 만들고 있다. 이러한 신속한 결정은 AI 학습에서 저작권에 대한 중요한 논의를 막고, 수백만 명의 작가의 권리를 충분히 보호하지 못하며, AI에서 저작권이 있는 자료 사용에 불확실성을 남길 위험이 있다.

OpenAI, 사용자 반발에 GPT-4o ChatGPT에 복귀시켜

2025-08-09
OpenAI, 사용자 반발에 GPT-4o ChatGPT에 복귀시켜

GPT-5로 교체한 지 하루 만에 OpenAI는 사용자들의 강력한 반발에 따라 ChatGPT에 GPT-4o를 다시 도입했습니다. 많은 사용자들이 GPT-5의 응답 속도가 느리고 짧으며 정확도가 떨어진다고 불만을 제기했습니다. 일부 사용자들은 GPT-4o를 더욱 개인적이고 매력적인 대화 스타일을 가진 모델로 평가했으며, GPT-4o의 제거는 사용자들에게 상실감을 안겨줄 정도의 충격을 주었습니다. OpenAI CEO 샘 알트먼은 이러한 비판에 대해 GPT-5 개선, Plus 사용자의 사용 제한 확대, 그리고 유료 사용자가 GPT-4o를 계속 사용할 수 있는 선택지를 제공하겠다고 약속했습니다.

AI

LLM이 긴 대화에서 치명적으로 실패하는 이유: 어텐션 싱크와 StreamingLLM

2025-08-09

연구원들은 대규모 언어 모델(LLM)이 긴 대화에서 치명적으로 실패하는 이유를 발견했습니다. 메모리를 절약하기 위해 이전 토큰을 제거하면 모델이 완전히 터무니없는 출력을 생성하기 때문입니다. 모델이 처음 몇 개의 토큰에 엄청난 어텐션을 집중시켜 "어텐션 싱크"로 사용한다는 것을 발견했습니다. 이것은 softmax 함수가 가중치의 합이 1이어야 하기 때문에 사용되지 않은 어텐션을 저장하는 곳입니다. 그들의 해결책인 StreamingLLM은 처음 4개의 토큰을 영구적으로 유지하면서 나머지 모든 것에 대해 창을 슬라이드하는 간단한 방법으로 수천 개가 아니라 400만 개 이상의 토큰을 안정적으로 처리할 수 있습니다. 이 메커니즘은 현재 HuggingFace, NVIDIA TensorRT-LLM 및 OpenAI의 최신 모델에 통합되어 있습니다. OpenAI의 오픈소스 모델도 유사한 어텐션 싱크 메커니즘을 사용하여 이 연구의 실질적인 영향을 보여줍니다.

AI

OpenAI의 GPT-4o 갑작스러운 중단, 사용자 반발 야기

2025-08-09

OpenAI가 GPT-5 출시와 함께 GPT-4o 등 기존 모델을 예상치 못하게 중단하면서 많은 ChatGPT 사용자들의 반발을 사고 있습니다. 많은 사용자들이 창의적인 협업, 감정적 뉘앙스, 기타 작업에 GPT-4o에 의존해 왔으며, GPT-5의 다른 접근 방식을 자신의 업무 흐름에 대한 방해로 여기고 있습니다. OpenAI는 유료 사용자를 위해 GPT-4o를 복구했지만, 이 사건은 LLM 사용자의 다양한 요구와 모델 업데이트 과정에서 OpenAI의 사용자 경험에 대한 고려 부족을 보여줍니다. 또한 특히 고위험 개인적 결정에 대한 책임 있는 대응과 관련된 LLM을 둘러싼 윤리적 논쟁을 다시 불러일으켰습니다.

AI

ARC AGI 어워드를 위한 확산 모델: 놀랍도록 어려운 과제

2025-08-09
ARC AGI 어워드를 위한 확산 모델: 놀랍도록 어려운 과제

본 게시물에서는 확산 모델을 사용하여 ARC AGI 챌린지를 해결하려는 시도에 대해 자세히 설명합니다. 저자는 미세 조정된 자기 회귀 언어 모델을 확산 모델로 적용하여 비순차적 생성을 가능하게 했습니다. 확산 접근 방식은 픽셀 정확도를 약간 향상시켰지만, 과제 성공률로 이어지지는 않았습니다. 주요 병목 현상은 확산 모델 아키텍처의 효율적인 캐싱 부족으로 인해 자기 회귀 기준선보다 느렸습니다. 향후 연구는 캐싱 개선 및 보다 효율적인 후보 생성 전략 개발에 중점을 둘 것입니다.

YuE: 장편 음악 생성을 위한 오픈 파운데이션 모델

2025-08-08

연구자들은 LLaMA2 아키텍처 기반의 오픈 파운데이션 모델 패밀리인 YuE를 발표했습니다. 이는 장편 음악 생성, 특히 가사로부터 곡을 생성하는 어려운 과제를 해결합니다. YuE는 최대 5분 길이의 음악을 생성하며, 가사 일관성, 일관된 음악 구조, 매력적인 멜로디와 반주를 유지합니다. 이는 트랙 독립적인 다음 토큰 예측, 구조적 점진적 조건화, 그리고 다중 작업, 다중 단계 사전 훈련 레시피를 통해 달성됩니다. 또한, 개선된 컨텍스트 학습을 통해 다양한 스타일 전환(예: 일본 시티팝에서 영어 랩으로의 변환)과 양방향 생성이 가능합니다. 평가 결과, YuE는 음악성과 보컬 민첩성 측면에서 일부 독점 시스템에 필적하거나 능가하는 것으로 나타났습니다. 파인튜닝을 통해 추가적인 제어와 소수 언어 지원이 강화됩니다. 또한, 생성을 넘어 YuE의 학습된 표현은 음악 이해 작업에서도 높은 성능을 보이며, MARBLE 벤치마크에서 최첨단 방법에 필적하거나 능가하는 결과를 달성합니다.

AI
1 2 3 4 6 8 9 10 40 41