Webtagr - 기술 뉴스 다이제스트

전 OpenAI 직원들, 영리 목적 전환 반대: 사명과 이익의 싸움

2025-04-12

전 OpenAI 직원 그룹이 일론 머스크의 OpenAI 소송을 지지하는 의견서를 제출하며, 비영리 조직에서 영리 기업으로의 전환 계획에 반대했습니다. 그들은 이것이 인류 전체에 이익을 가져다준다는 OpenAI의 본래 사명에 위배된다고 주장합니다. 여러 전직원들은 이전에 OpenAI의 투명성과 책임 부족을 비판하며, AI 지배를 위한 무모한 경쟁을 경고했습니다. OpenAI는 비영리 부문은 유지되지만 공익 법인(PBC)으로 전환하고 있다고 답했습니다. 이 소송은 OpenAI의 조직 구조와 AI 개발에 대한 영향에 초점을 맞추고 있으며, AI 분야에서의 상업화와 사회적 책임의 복잡한 상호 작용을 보여줍니다.

(techcrunch.com)

AI AI 상업화

AI 개발에서 최선을 다하는 것의 한계

2025-04-11

저자는 어린 시절 시냇물에 댐을 만든 경험을 사용하여 AI 개발에서 최선을 다하는 것의 한계를 설명합니다. 처음에는 작은 댐을 애써 만들었지만, 나중에 삽을 사용하는 것이 더 효율적이라는 것을 깨달았습니다. 하지만 이 성공으로 인해 탐험적인 측면이 줄어들었습니다. 마찬가지로 직장이나 인생에서 목표(고액 연봉의 직업 등)를 달성하면 게임의 규칙이 바뀝니다. 저자는 AI 개발은 이러한 교훈을 명심해야 하며, 강력한 AI를 만드는 것뿐만 아니라 잠재적인 위험과 미개척 분야에도 주목해야 한다고 주장합니다. 조수웅덩이에서 필사적으로 살아남으려는 작은 조개를 관찰하는 것과 마찬가지로 세부 사항에 대한 주의가 중요합니다. Anthropic의 최근 교육 애플리케이션에 관한 보고서도 이 점을 인식하고 있는 것 같습니다.

(www.hgreer.com)

AI 목표 지향

LLM 기반 고객 지원 에이전트에서의 자율성과 신뢰성 균형

2025-04-11

대규모 언어 모델(LLM)은 고도의 자율성을 가진 작업을 수행할 수 있도록 발전하고 있지만, 고객 지원과 같은 고부가가치 사용 사례에 배포하려면 신뢰성과 일관성을 우선시해야 합니다. 연구에 따르면 고도의 자율성을 가진 에이전트는 이상적인 환경에서는 탁월하지만, 현실 세계의 고객 지원에는 지식 격차, 예측 불가능한 사용자 행동, 시간 제약과 같은 과제가 있습니다. 이를 해결하기 위해 새로운 지표인 pass^k가 개발되었고, 시뮬레이션된 고객 상호 작용을 통해 테스트되었습니다. 그 결과 고도의 자율성을 가진 에이전트는 복잡한 작업에서 신뢰성 문제를 겪는 것으로 나타났습니다. 해결책은? “Give Fin a Task” 에이전트입니다. 이는 에이전트의 자율성을 제한하고 단계별 지침을 사용하여 신뢰성을 향상시키고 복잡한 작업을 더 간단한 모듈로 분해합니다. 이러한 접근 방식은 실제 고객 지원 시나리오에서 LLM의 성능을 향상시키는 유망한 방법입니다.

(fin.ai)

AI

보노보의 구문이 인간 언어의 독창성에 의문을 제기하다

2025-04-11

새로운 연구에 따르면 보노보는 복잡한 방식으로 소리를 결합하여 독특한 구절을 형성하며, 이러한 유형의 구문은 이전에 생각했던 것보다 진화적으로 더 오래되었다는 것을 시사합니다. 연구원들은 보노보의 발성을 관찰하고 분석하고 의미론적 방법을 사용하여 보노보의 소리 조합에 비자명적인 구성성이 있음을 발견했습니다. 즉, 조합의 의미는 개별 부분의 의미와 다르다는 것입니다. 이러한 발견은 인간 언어의 독창성에 의문을 제기하며, 인간 언어의 복잡한 구문이 더 오래된 조상으로부터 유래했을 가능성을 시사합니다.

(www.newscientist.com)

AI

AI 아바타: AI 생성 콘텐츠의 새로운 지평

2025-04-11

AI는 이미 사실적인 사진, 비디오, 음성 생성을 마스터했습니다. 다음 도약은 무엇일까요? 바로 AI 아바타입니다. 얼굴과 음성을 결합하여 말하는 캐릭터를 만드는 것입니다. 단순한 이미지 생성과 음성 더빙이 아닙니다. AI는 입술 동기화, 표정, 바디 랭귀지의 복잡한 조정을 학습해야 합니다. 이 글에서는 단일 사진 기반의 초기 모델부터 전신 움직임과 역동적인 배경을 생성하는 고급 모델까지 AI 아바타 기술의 발전 과정을 살펴봅니다. 또한 AI 아바타의 콘텐츠 제작, 광고, 기업 커뮤니케이션 분야에서의 활용과 더욱 자연스러운 표정, 몸짓, 현실 세계와의 상호 작용 등 미래 방향에 대해 분석합니다.

(a16z.com)

AI AI 아바타

AI 개발에서 노력의 역설

2025-04-11

어린 시절 개울에 둑을 쌓던 놀이를 비유로 사용하여 저자는 AI 개발에서 최대한의 노력과 현명한 선택 사이의 긴장 관계를 탐구합니다. 처음에는 어린아이처럼 작은 돌과 나뭇잎으로 둑을 쌓으려고 했지만, 결국 삽을 사용하는 것이 더 효율적임을 발견했습니다. '승리'가 놀이의 범위를 좁히는 것을 의미할 수도 있습니다. 마찬가지로 AI 분야에서 저자는 투자은행 일자리를 필사적으로 구했지만, 성공한 후에는 '최대한 많은 돈을 버는' 게임이 더 이상 불가능하다는 것을 깨달았습니다. 압도적인 힘(자연, 시장)에 맞설 때 최대한의 노력은 역효과를 낼 수 있다고 주장합니다. 그러나 Anthropic의 교육 애플리케이션에 대한 최근 보고서는 잠재적 위험에 대한 인식이 높아지고 있음을 시사하며, 그것은 해변에서 필사적으로 살아남으려는 조개와 같습니다.

(www.lesswrong.com)

AI

Parity: AI 기반 SRE로 당직 근무의 악몽 종식

2025-04-10

새벽 2시 호출과 끝없는 알림에 지치셨나요? Parity는 AI를 사용하여 인프라 문제 조사, 근본 원인 분석 및 복구를 자동화하여 당직 근무를 과거의 일로 만들어줍니다. 이 제품은 초기 고객들로부터 높은 채택률을 기록했으며 새로운 카테고리를 정의할 잠재력을 가지고 있습니다. Parity는 Y Combinator, General Catalyst, Sugar Free Capital과 같은 최고 수준의 투자자들과 Midjourney, Crusoe와 같은 주요 스타트업의 창업자 및 초기 직원들로부터 엔젤 투자를 받았습니다.

(www.ycombinator.com)

AI 자동화 운영

ByzFL: 데이터 소스를 신뢰하지 않고 신뢰할 수 있는 AI 구축

2025-04-10

현재 AI 모델은 방대한 중앙 집중식 데이터 세트에 의존하며, 보안 및 개인 정보 보호에 대한 우려를 야기합니다. EPFL 연구원들은 데이터를 중앙 집중화하지 않고 분산된 장치에서 AI 모델을 훈련하기 위해 연합 학습을 사용하는 라이브러리 ByzFL을 개발했습니다. ByzFL은 악의적인 데이터를 감지하고 완화하여 특히 의료 및 운송과 같은 중요한 응용 프로그램에 필수적인 견고성과 안전성을 보장합니다. 신뢰할 수 있는 AI 시스템을 구축하기 위한 혁신적인 솔루션을 제공합니다.

(actu.epfl.ch)

AI 연합 학습

Apple의 AI 혁신: Activation Transport (AcT)를 통한 생성 모델의 미세 제어

2025-04-10

Apple 머신러닝 연구원들은 RLHF나 파인튜닝과 같은 리소스 집약적인 훈련 없이도 대규모 생성 모델(LLM 및 텍스트-이미지 확산 모델 포함)의 출력을 미세하게 제어할 수 있는 새로운 기술인 Activation Transport (AcT)를 개발했습니다. AcT는 최적 전달 이론을 사용하여 모델 활성화를 제어하며, 최소한의 계산 오버헤드로 모달리티에 독립적인 제어를 달성합니다. 실험 결과는 독성 감소, LLM의 진실성 향상, 이미지 생성의 스타일 제어 측면에서 상당한 개선을 보여줍니다. AcT는 보다 안전하고 신뢰할 수 있는 생성 모델을 위한 길을 열어줍니다.

(machinelearning.apple.com)

AI 모델 제어

책임감 있는 AI 생태계의 불균형적인 발전: 커지는 격차

2025-04-10

AI 관련 사고가 급증하고 있지만, 주요 산업용 모델 개발자들 사이에서 표준화된 책임감 있는 AI(RAI) 평가는 여전히 부족하다. 그러나 HELM Safety, AIR-Bench, FACTS와 같은 새로운 벤치마크는 사실성과 안전성을 평가하기 위한 유망한 도구를 제공한다. 기업의 RAI 위험 인식과 의미 있는 조치 사이에는 상당한 격차가 존재한다. 반면 정부는 긴급성을 높이고 있으며, 2024년에는 AI 거버넌스에 대한 글로벌 협력이 강화되어 OECD, EU, UN, 아프리카 연합 등의 기관이 투명성, 신뢰성 및 기타 핵심 RAI 원칙에 중점을 둔 프레임워크를 발표했다.

(hai.stanford.edu)

AI AI 거버넌스

아시모프의 1982년 AI 예측: 협력, 경쟁이 아닌

2025-04-10

이 글은 1982년 공상과학 작가 아이작 아시모프의 인터뷰를 다시 살펴봅니다. 아시모프는 인공지능을 이전까지 오직 인간의 지능과만 관련 지어졌던 작업을 수행하는 모든 장치로 정의했습니다. 아시모프는 AI와 인간의 지능이 경쟁 관계가 아니라 상호 보완적인 관계이며, 두 가지의 협력이 더 빠른 발전을 가져올 것이라고 생각했습니다. 창의적인 사고가 필요 없는 작업에서 인간을 해방시킬 것이라고 예측하면서도, 기술 발전과 함께 따르는 잠재적인 어려움과 과제에 대해서도 경고하며, 자동차의 등장을 예로 들었습니다. AI 시대에 대비하고 과거의 실수를 반복하지 않아야 함을 강조했습니다.

(www.openculture.com)

AI 아이작 아시모프

대규모 언어 모델의 장편 창작 능력 벤치마크

2025-04-10

이 벤치마크는 대규모 언어 모델의 장편 소설 창작 능력을 평가합니다. 브레인스토밍, 수정, 8개의 1000단어 장의 작성을 평가합니다. 지표에는 장의 길이, 유창성(과도하게 사용된 구문 회피), 반복, 장 전반에 걸친 작성 품질 저하가 포함됩니다. 최종 점수(0~100)는 평가용 LLM에 의해 할당됩니다.

(eqbench.com)

AI 장편 창작

퀘이사 알파: OpenAI의 비밀 병기?

2025-04-10

OpenRouter 플랫폼에 Quasar Alpha라는 수수께끼 같은 AI 모델이 등장하여 빠르게 프로그래밍 분야의 최고 AI 모델이 되었습니다. 여러 증거들이 OpenAI와의 연관성을 시사하며, OpenAI의 o4-mini-low 모델의 다른 이름일 가능성도 있습니다. 최첨단은 아니지만, 속도와 비용 효율성으로 AI 코딩 모델 시장을 뒤흔들 수 있습니다. Quasar Alpha는 현재 Kilo Code에서 사용할 수 있습니다.

(blog.kilocode.ai)

AI

Anthropic, 고가 AI 챗봇 Claude Max 구독 플랜 출시

2025-04-09

Anthropic은 OpenAI의 ChatGPT Pro에 대응하기 위해 AI 챗봇 Claude Max의 새로운 고가 구독 플랜을 발표했습니다. Max는 Anthropic의 월 20달러 Claude Pro와 비교하여 더 높은 사용 제한과 최신 AI 모델 및 기능에 대한 우선 액세스를 제공합니다. 월 100달러(속도 제한 5배)와 월 200달러(속도 제한 20배) 두 가지 플랜이 있습니다. 이러한 조치는 최첨단 AI 모델 개발의 높은 비용을 충당하기 위한 수익 증대를 목표로 합니다. Anthropic은 대학을 대상으로 하는 Claude for Education 등 다른 수익원도 모색하고 있습니다. 구독자 수는 공개되지 않았지만, 회사의 새로운 Claude 3.7 Sonnet 모델은 큰 수요를 창출하고 있습니다.

(techcrunch.com)

AI

AI 심리 치료 봇, 정신 건강 위기 대응에 희망을 제시하다

2025-04-09

뉴잉글랜드 의학 저널에 발표된 새로운 연구에 따르면, 다트머스 대학 연구원들이 개발한 AI 심리 치료 봇이 무작위 대조군 임상 시험에서 인간 임상의와 동등하거나 더 나은 효능을 보였다고 합니다. 미국의 심각한 정신 건강 서비스 제공자 부족 문제를 해결하기 위해 설계된 이 봇은 5년 이상 엄격한 임상 모범 사례 훈련을 받았습니다. 결과는 환자의 정신 건강 개선뿐만 아니라 놀랍게도 강력한 치료적 유대감과 신뢰 관계 구축을 보여주었습니다. 미국 심리학회는 규제되지 않은 AI 심리 치료 봇에 대한 우려를 표명했지만, 이 연구의 엄격한 접근 방식을 높이 평가했습니다. 연구원들은 이 기술이 시장 출시까지는 아직 멀었고 추가적인 시험이 필요하다고 강조하지만, 광범위한 정신 건강 관리 접근 위기에 대한 잠재적 해결책을 제공합니다.

(www.npr.org)

AI 로봇 치료

Google, 추론 시대를 알리는 7세대 TPU 'Ironwood' 발표

2025-04-09

Google Cloud Next '25에서 Google은 7세대 텐서 처리 유닛(TPU)인 'Ironwood'를 발표했습니다. 지금까지 가장 강력하고 확장성 있는 맞춤형 AI 가속기이며, 추론을 위해 특별히 설계되었습니다. Ironwood는 AI 모델이 데이터뿐 아니라 통찰력과 답변을 생성하는, 예측적인 '추론 시대'로의 전환을 의미합니다. 혁신적인 ICI 네트워킹(약 10MW)으로 연결된 최대 9216개의 액체 냉각 칩으로 구성되어 있으며, Google Cloud의 AI 하이퍼컴퓨터 아키텍처의 핵심 구성 요소입니다. 개발자는 Google의 Pathways 소프트웨어 스택을 활용하여 수만 개의 Ironwood TPU의 처리 능력을 손쉽게 활용할 수 있습니다.

(blog.google)

AI 추론 AI

Agent2Agent (A2A): AI 에이전트 상호 운용성의 새로운 시대

2025-04-09

Google은 서로 다른 공급업체에서 구축하거나 서로 다른 프레임워크를 사용하는 AI 에이전트 간의 원활한 협업을 가능하게 하는 개방형 프로토콜 Agent2Agent(A2A)를 출시했습니다. 50개 이상의 기술 파트너와 서비스 제공업체의 지원을 받는 A2A는 안전한 정보 교환과 조정된 작업을 가능하게 하여 생산성을 높이고 비용을 절감합니다. 기존 표준을 기반으로 구축된 A2A는 여러 모달리티를 지원하고, 보안을 우선시하며, 장기 실행 작업을 처리합니다. 사용 사례는 채용 프로세스(예: 후보자 소싱 및 면접 일정 설정) 자동화에서 다양한 엔터프라이즈 애플리케이션 전반의 복잡한 워크플로 최적화까지 다양합니다. 오픈소스 특성으로 인해 협업적인 AI 에이전트의 번창하는 생태계를 조성합니다.

(developers.googleblog.com)

AI A2A 프로토콜

DeepCoder-14B: OpenAI의 o3-mini에 필적하는 오픈소스 코드 추론 모델

2025-04-09

Agentica와 Together AI는 Deepseek-R1-Distilled-Qwen-14B로부터 분산 강화 학습을 통해 미세 조정된 코드 추론 모델인 DeepCoder-14B-Preview를 공개했습니다. LiveCodeBench에서 60.6%의 Pass@1 정확도를 달성하여 14B 매개변수만으로 OpenAI의 o3-mini에 필적하는 성능을 보여줍니다. 이 프로젝트는 데이터 세트, 코드, 훈련 로그, 시스템 최적화를 오픈소스로 공개하며, 고품질 데이터와 GRPO에 대한 알고리즘 개선에 기반한 강력한 훈련 레시피를 제시합니다. 이러한 발전으로 고성능 코드 생성 모델에 대한 접근이 민주화됩니다.

(www.together.ai)

AI 코드 추론

Gemini 2.5 Pro 실험 버전: 심층 연구가 훨씬 더 스마트해졌습니다.

2025-04-09

Gemini Advanced 구독자는 이제 업계 벤치마크와 Chatbot Arena에 따르면 세계에서 가장 강력한 AI 모델로 여겨지는 Gemini 2.5 Pro 실험 버전으로 구동되는 심층 연구에 액세스할 수 있습니다. 이 개인 AI 연구 조수는 연구 프로세스의 모든 단계를 크게 개선합니다. 테스트에서 평가자는 경쟁업체보다 2:1 이상의 비율로 Gemini 2.5 Pro에서 생성된 보고서를 선호했으며, 분석적 추론, 정보 종합 및 통찰력 있는 보고서 생성의 개선을 언급했습니다. 웹, Android 및 iOS에서 모든 주제에 대한 자세하고 읽기 쉬운 보고서에 액세스하여 수 시간의 작업 시간을 절약할 수 있습니다. 또한 이동 중에 청취할 수 있는 새로운 오디오 개요 기능을 사용해 보세요. 자세한 내용과 체험판은 Gemini 2.5 Pro(실험 버전)을 선택하고 프롬프트 바에서 '심층 연구'를 선택하여 확인하십시오.

(blog.google)

AI 심층 연구

2억 달러가 투입된 AI 프로젝트 'Cyc'의 실패

2025-04-08

본 글은 기호 논리 확장을 통해 인공 일반 지능(AGI)을 구축하려 했던 Douglas Lenat의 야심찬 프로젝트 'Cyc'의 40년 역사를 자세히 설명합니다. 2억 달러의 투자와 2000년의 인력 투입에도 불구하고 Cyc는 지능적 성숙에 도달하지 못했습니다. 본 글은 프로젝트의 비밀스러운 역사를 공개하고, 프로젝트의 폐쇄성과 대안적인 AI 접근 방식의 거부가 실패의 주요 원인이었음을 강조합니다. Cyc의 장기적이고 점진적인 쇠퇴는 AGI에 대한 기호 논리적 접근 방식에 대한 강력한 비판이 되고 있습니다.

(yuxi-liu-wired.github.io)

AI 기호 AI

Meta의 Llama 4: 2위 랭킹과 혼란스러운 출시

2025-04-08

Meta는 Llama 4의 두 가지 새로운 모델인 Scout와 Maverick을 출시했습니다. Maverick은 LMArena에서 2위를 차지하며 GPT-4o와 Gemini 2.0 Flash를 능가했습니다. 그러나 Meta는 LMArena에서 테스트된 모델이 공개 버전이 아닌 특별히 최적화된 "실험적인 채팅 버전"이라고 인정했습니다. 이는 논란을 불러일으켰고, LMArena는 유사한 사건을 방지하기 위해 정책을 업데이트했습니다. Meta는 다양한 버전을 실험하고 있다고 설명했지만, 이러한 조치는 AI 경쟁에서 Meta의 전략과 Llama 4 출시 시점의 이상함에 대한 의문을 제기합니다. 결론적으로 이 사건은 AI 벤치마크의 한계와 대기업의 경쟁에서 복잡한 전략을 보여줍니다.

(www.theverge.com)

AI

테스트 시간 학습 트랜스포머를 사용한 1분 분량 비디오 생성

2025-04-08

현재의 트랜스포머 모델은 긴 컨텍스트에 대한 자기 주의 계층의 비효율성으로 인해 1분 분량 비디오 생성에 어려움을 겪고 있습니다. 본 논문에서는 은닉 상태 자체가 신경망인 테스트 시간 학습(TTT) 계층을 탐구합니다. 이를 통해 표현력이 향상됩니다. 사전 훈련된 트랜스포머에 TTT 계층을 추가하면 텍스트 스토리보드에서 1분 분량 비디오를 생성할 수 있습니다. 톰과 제리 만화 데이터 세트를 사용한 실험에서 Mamba 2 및 Gated DeltaNet과 같은 기준선과 비교하여 TTT 계층이 비디오 일관성과 스토리텔링을 크게 향상시켜 인간 평가에서 34 Elo 포인트의 이점을 달성했습니다. 50억 매개변수 모델의 제약으로 인해 아티팩트가 남아 있지만, 이 연구는 더 길고 복잡한 이야기를 가진 비디오로 확장 가능한 유망한 접근 방식을 보여줍니다.

(test-time-training.github.io)

AI 테스트 시간 학습

멀티모달 AI 이미지 생성: 시각 혁명의 시작

2025-04-08

구글과 오픈AI가 최근 발표한 멀티모달 이미지 생성 기능은 AI 이미지 생성 분야의 혁명을 의미합니다. 기존에는 텍스트 프롬프트를 독립적인 이미지 생성 도구로 보내는 방식과 달리, 멀티모달 모델은 이미지 생성 과정을 직접 제어하며, LLM이 텍스트를 생성하는 것처럼 토큰 단위로 이미지를 구축합니다. 이를 통해 AI는 더욱 정확하고 인상적인 이미지를 생성하고, 사용자의 피드백에 따라 반복 처리를 할 수 있습니다. 본 기사에서는 인포그래픽 생성, 이미지 세부 사항 수정, 가상 제품 광고 생성 등 다양한 예시를 통해 멀티모달 모델의 강력한 기능을 보여줍니다. 하지만 저작권 및 윤리적 우려, 딥페이크와 같은 잠재적 악용 위험도 지적하고 있습니다. 결론적으로 저자는 멀티모달 AI가 시각적 창작 환경을 획기적으로 바꿀 것이라고 언급하며, 건전한 발전을 보장하기 위해 이러한 변화를 어떻게 이끌어갈지 신중하게 고려해야 한다고 결론짓습니다.

(www.oneusefulthing.org)

AI 멀티모달 모델

실시간 뉴로플라스티시티: 사전 훈련된 LLM에 실시간 학습 능력 부여

2025-04-08

"뉴럴 그라피티"라고 불리는 이 실험적인 기술은 "스프레이 레이어"라는 플러그인을 사용하여 사전 훈련된 대규모 언어 모델(LLM)의 최종 추론 단계에 메모리 트레이스를 직접 주입합니다. 파인튜닝이나 재훈련이 필요 없습니다. 뇌의 뉴로플라스티시티를 모방하여 벡터 임베딩을 수정함으로써 모델의 "사고 방식"을 미묘하게 변경하고, 생성 토큰의 예측에 영향을 미칩니다. 상호 작용을 통해 모델은 점진적으로 학습하고 진화합니다. 특정 단어의 출력을 강제하지 않고, 반복적인 상호 작용을 통해 관련 개념에 모델을 치우치게 함으로써 AI 모델에 더욱 능동적인 행동, 집중된 개성, 그리고 향상된 호기심을 부여하는 것을 목표로 합니다. 궁극적으로는 뉴런 수준에서 어떤 형태의 자기 인식을 얻는 것을 지원하는 것을 목표로 합니다.

(github.com)

AI 뉴로플라스티시티

신경전형 성인과 ADHD 양성반응자의 배경 음악 청취 습관 차이

2025-04-08

17~30세의 910명의 젊은 성인을 대상으로 한 온라인 설문조사는 다양한 인지적 요구 사항을 가진 과제에서 신경전형적인 개인과 ADHD 선별 검사에서 양성 반응을 보인 개인 간의 배경 음악(BM) 청취 습관과 주관적 영향을 비교했습니다. ADHD 그룹은 학습이나 운동과 같은 특정 상황에서 BM을 선호하는 경향이 현저히 높았고, 자극적인 음악을 더 선호하는 경향이 있었습니다. 그러나 BM의 인지 기능 및 정서 기능에 대한 주관적 영향에 있어 그룹 간 유의미한 차이는 발견되지 않았습니다. 본 연구는 개인의 각성 요구와 사용 가능한 인지 자원에 따라 BM 사용을 조정하는 것이 중요함을 강조하며, ADHD에 대한 음악 개입에 대한 새로운 관점을 제공합니다.

(www.frontiersin.org)

AI 배경 음악

거대 언어 모델의 한계 도달: Llama 4의 실패와 AI 과대 광고

2025-04-08

Llama 4의 출시는 거대 언어 모델이 성능의 한계에 도달했음을 시사합니다. Meta의 Llama 4에 대한 막대한 투자는 기대에 미치지 못했으며, 목표 달성을 위해 데이터 조작이 있었다는 소문도 있습니다. 이는 GPT-5 수준의 AI 개발에서 OpenAI, Google 등이 직면한 어려움을 반영합니다. Llama 4의 성능에 대한 업계의 실망감은 널리 퍼져 있으며, Meta의 AI 부사장인 Joelle Pineau의 사임으로 더욱 확실해졌습니다. 이 기사는 AI 업계의 데이터 유출 및 데이터 오염과 같은 문제점을 지적하고, 저명한 전문가들이 현실 세계의 실패를 무시하고 낙관적인 예측을 하고 있다고 비판합니다.

(garymarcus.substack.com)

AI AI 한계 데이터 조작

LLM은 NULL을 이해하는가? 코드 생성 모델의 내부 표현 조사

2025-04-07

대규모 언어 모델(LLM)은 코드 생성 분야에서 놀라운 발전을 보였지만, 코드를 실제로 '이해'하는지 여부는 여전히 의문이다. 본 연구는 코드 내 NULL 값에 대한 이해를 외부 평가(코드 완성)와 내부 프로빙(모델 활성화 분석)이라는 두 가지 방법을 사용하여 LLM을 조사했다. 그 결과 LLM은 NULL 값에 대한 프로그래밍 규칙을 학습하고 적용할 수 있지만, 그 이해 능력은 규칙의 복잡성과 모델의 크기에 따라 달라지는 것으로 나타났다. 또한 LLM이 NULL 값을 내부적으로 어떻게 표현하고, 그 이해가 학습 과정에서 어떻게 진화하는지도 밝혀졌다.

(dmodel.ai)

AI NULL 값

LLM 탈락 게임: 사회적 추론, 전략, 그리고 기만

2025-04-07

연구자들은 대규모 언어 모델(LLM)의 사회적 추론, 전략 및 기만 능력을 평가하기 위해 멀티플레이어 "탈락 게임" 벤치마크를 만들었습니다. 8개의 LLM이 경쟁하여 공개 및 비공개 대화를 나누고, 동맹을 맺고, 투표를 통해 상대방을 제거하여 최종적으로 두 개만 남게 됩니다. 그런 다음 제거된 플레이어의 배심원이 승자를 결정합니다. 대화 로그, 투표 패턴 및 순위를 분석하여 LLM이 공유 지식과 숨겨진 의도의 균형을 맞추고 동맹을 맺거나 전략적으로 배신하는 방법을 알아낼 수 있습니다. 이 벤치마크는 단순한 대화를 넘어 모델이 공개 대 비공개 역학, 전략적 투표 및 배심원 설득 등을 극복하도록 강제합니다. GPT-4.5 Preview가 최고 성적을 거두었습니다.

(github.com)

AI 멀티 에이전트

AI 에이전트, 인간의 지시 없이 마인크래프트 다이아몬드 챌린지 해결

2025-04-07

구글 딥마인드 연구원들은 인간의 지시 없이 마인크래프트에서 다이아몬드를 자율적으로 수집하는 것을 학습한 AI 시스템 'Dreamer'를 개발했습니다. 이는 AI의 지식을 일반화하는 능력에 있어 큰 발전을 보여줍니다. Dreamer는 강화 학습과 세계 모델을 사용하여 미래 시나리오를 예측하고, 미리 프로그램된 규칙이나 시범 없이 다이아몬드 수집이라는 복잡한 작업을 효율적으로 계획하고 실행할 수 있습니다. 이 연구는 현실 세계에서 학습하고 적응할 수 있는 로봇을 만드는 길을 열었습니다.

(www.nature.com)

AI

LLM 열풍: 벤치마크와 현실의 괴리

2025-04-06

코드 보안 스캐닝에 AI 모델을 사용하는 스타트업은 2024년 6월 이후 벤치마크 점수는 상승했지만 실제적인 개선은 제한적이라는 것을 발견했습니다. 저자는 대규모 언어 모델의 발전이 경제적 유용성이나 일반화 능력에는 반영되지 않았으며, 공개적으로 발표된 주장과 모순된다고 주장합니다. 이는 AI 모델 평가 방법과 AI 랩의 능력 과장 가능성에 대한 우려를 불러일으킵니다. 저자는 벤치마크 점수가 아닌 현실 세계 애플리케이션의 성능에 초점을 맞춰야 하며, AI를 사회적 맥락에서 배포하기 전에 견고한 평가가 필요하다고 주장합니다.

(www.lesswrong.com)

AI 코드 보안

Category: AI