Webtagr - 기술 뉴스 다이제스트

모델 합금: AI 성능 향상을 위한 비밀 병기

2025-07-21

XBOW 팀은 '모델 합금'이라는 영리한 기법을 사용하여 취약점 탐지 에이전트의 성능을 극적으로 향상시켰습니다. 이 기법은 Google Gemini와 Anthropic Sonnet과 같은 서로 다른 LLM의 강점을 결합하여 단일 채팅 스레드 내에서 번갈아 사용함으로써 단일 모델의 한계를 극복합니다. 실험 결과, 이 '합금' 전략은 성공률을 55% 이상으로 높여 단일 모델을 크게 능가하는 것으로 나타났습니다. 이 기술은 사이버 보안 분야에 국한되지 않고 방대한 탐색 공간에서 해결책을 찾아야 하는 모든 AI 에이전트 작업과 관련이 있습니다.

(xbow.com)

AI 모델 융합 취약점 탐지

AI 에이전트: 2025년의 과장과 현실

2025-07-20

2025년이 AI 에이전트의 해라고 불리지만, 실제 운영 환경에서 AI 시스템을 구축해 온 베테랑 개발자는 이에 대해 반박한다. 1년 넘게 12개 이상의 AI 에이전트 시스템을 구축한 경험을 바탕으로, 세 가지 중요한 현실을 지적한다. 다단계 워크플로우에서 기하급수적으로 증가하는 오류율, 컨텍스트 윈도우로 인한 이차적 비용 증가, 그리고 에이전트가 효과적으로 사용할 수 있는 도구와 피드백 시스템을 설계하는 진정한 과제다. 성공적인 AI 에이전트 시스템은 완전히 자율적인 것이 아니라, AI와 인간의 관리, 전통적인 소프트웨어 엔지니어링을 결합하여 명확한 경계 내에서 작동하며, 검증 가능한 작업과 롤백 메커니즘을 갖는다고 주장한다. 미래에는 복잡한 작업에 AI를 활용하면서 인간의 제어를 유지하는, 제약이 있는 도메인 특정 도구를 구축하는 팀이 성공할 것이라고 예측한다. "완전 자율"이 아닌 "명확한 경계를 가진, 매우 유능한 어시스턴트"로 초점이 이동할 것이다.

(utkarshkanwat.com)

AI 프로덕션 시스템

2025년 대규모 언어 모델 아키텍처의 발전: DeepSeek, OLMo, Gemma, Mistral, Qwen 심층 분석

2025-07-20

본 논문은 2025년 대규모 언어 모델(LLM)의 아키텍처 발전을 검토하고, DeepSeek, OLMo, Gemma, Mistral, Qwen 등 오픈소스 모델에 중점을 둡니다. DeepSeek V3/R1은 다중 헤드 잠재적 어텐션(MLA)과 전문가 혼합(MoE)을 사용하여 계산 효율성을 향상시킵니다. OLMo 2는 RMSNorm 배치에 중점을 두고 Post-Norm과 QK-Norm을 사용합니다. Gemma 3은 슬라이딩 윈도우 어텐션을 사용하여 메모리 요구 사항을 줄입니다. Mistral Small 3.1은 성능과 속도의 균형을 이룹니다. Qwen 3은 유연성을 위해 밀집 모델과 MoE의 두 가지 변형을 제공합니다. SmolLM3는 30억 매개변수 크기와 NoPE(위치 임베딩 없음)로 두드러집니다. 마지막으로, Kimi 2는 1조 매개변수 규모와 Muon 최적화기를 사용하여 인상적입니다. 이러한 모델들은 어텐션 메커니즘, 정규화, MoE, 최적화기에서 혁신을 보여주며, LLM 아키텍처의 다양성과 지속적인 발전을 보여줍니다.

(magazine.sebastianraschka.com)

AI 아키텍처 혁신

CLJ-AGI: 새로운 AGI 벤치마크

2025-07-20

CLJ-AGI는 인공 일반 지능(AGI)을 위한 새로운 벤치마크를 제안합니다. 이 벤치마크는 AI가 Clojure 프로그래밍 언어를 트랜스듀서 우선 설계, 선택적 지연 평가, 유비쿼터스 프로토콜, 일급 CRDT 데이터 구조 등의 기능으로 향상시키는 과제를 제시합니다. 기존 Clojure 코드와의 하위 호환성을 유지하면서 이러한 향상을 달성하는 것이 성공이며, 상당한 보상이 주어지고 진정한 AGI로 향하는 중요한 단계가 됩니다.

(raspasov.posthaven.com)

AI

로컬 LLM 대 오프라인 위키피디아: 크기 비교

2025-07-20

MIT Technology Review의 기사가 종말 시나리오에서 오프라인 LLM 사용에 대한 논쟁을 불러일으켰습니다. 이로 인해 저자는 로컬 LLM과 오프라인 위키피디아 다운로드의 크기를 비교했습니다. 결과적으로 소형 로컬 LLM(Llama 3.2 3B 등)의 크기는 엄선된 5만 개의 위키피디아 문서와 거의 동일한 것으로 나타났습니다. 반면, 완전한 위키피디아는 가장 큰 LLM보다 훨씬 큽니다. 목적은 다르지만, 이 비교는 로컬 LLM과 오프라인 지식 기반 간의 저장 용량에서 흥미로운 대조를 보여줍니다.

(evanhahn.com)

AI

1억 달러 제안에도 OpenAI 직원 영입 실패한 즈커버그

2025-07-20

Meta CEO 마크 저커버그는 OpenAI CEO 샘 알트먼에 따르면, 최대 1억 달러의 제안으로 ChatGPT 직원들을 자사 AI 팀으로 영입하려 했지만 실패했다. 막대한 제안에도 불구하고 채용 활동은 거의 성공하지 못했다. 알트먼은 팟캐스트에서 OpenAI 직원들은 초지능 개발에서 회사의 리더십을 우선시했다고 밝혔다. 이 사건은 AI 인재 확보 경쟁의 치열함과 초지능 분야의 매력을 보여준다.

(www.the-independent.com)

AI AI 인재 경쟁

대규모 언어 모델, IMO 2025에서 기대치 미달: 메달 수준 성능 여전히 어려워

2025-07-19

연구원들은 MathArena 플랫폼을 사용하여 5가지 최첨단 대규모 언어 모델(LLM)을 2025년 국제 수학 올림피아드(IMO) 문제에 대해 평가했습니다. Gemini 2.5 Pro가 가장 좋은 성능을 보였지만, 점수는 겨우 31%(13점)에 그쳐 동메달에 필요한 19점에는 훨씬 못 미쳤습니다. 다른 모델들은 더욱 크게 뒤처졌습니다. 최고 32개 중 하나를 선택하는 전략을 통해 문제당 여러 답변을 생성하고 평가하여 계산 비용이 크게 증가했습니다. 그럼에도 불구하고 결과는 현재 LLM과 IMO와 같은 매우 어려운 수학 문제에서의 메달 수준 성능 사이에 큰 격차가 있음을 보여주며, 상당한 계산 자원을 투입해도 메달 수준에 도달하지 못했습니다. 질적인 분석에서는 존재하지 않는 정리를 인용하거나 매우 간결한 답변을 하는 등의 문제가 드러났습니다.

(matharena.ai)

AI 국제 수학 올림피아드

HALO 거래: AI 분야의 새로운 인수 모델

2025-07-19

AI 업계에서 새로운 거래 구조인 HALO 거래가 등장했습니다. 기존의 인수합병이나 단순 채용과 달리, HALO 거래는 기업이 스타트업의 핵심 팀을 고용하고 동시에 지적 재산을 라이선스하는 것을 포함합니다. 스타트업은 투자자와 직원들에게 배분되는 상당한 라이선스 수수료를 받고 새로운 리더십 하에 운영을 계속합니다. 이러한 거래는 빠르고 비용이 많이 들며 (현재) AI 분야에 국한됩니다. 논쟁을 불러일으키고 있지만, HALO 거래는 창업자, 투자자, 직원 간의 사회적 계약을 유지하려는 시도이며, 점점 더 면밀히 조사되는 M&A 환경에서 AI 인재를 신속하고 확실하게 확보하는 방법을 제공합니다.

(kwokchain.com)

AI

암 환자의 우울증과 불안 치료에 대한 실로시빈의 가능성

2025-07-18

이중맹검 교차시험에서 생명을 위협하는 진단과 우울증 및/또는 불안 증상을 경험하고 있는 51명의 암 환자에게 고전적인 환각제인 실로시빈이 미치는 영향을 조사했습니다. 고용량 실로시빈은 임상의와 환자 자신의 자가 평가 모두에서 우울증과 불안을 유의미하게 감소시키고 삶의 질, 삶의 의미, 낙관주의를 높이며 사망에 대한 불안을 감소시켰습니다. 이러한 긍정적인 효과는 6개월 추적 관찰에서도 지속되었으며, 약 80%의 참가자가 임상적으로 유의미한 개선을 보였습니다. 이 연구는 치료 결과를 얻는 데 있어 실로시빈에 의한 신비한 경험이 매개 역할을 한다는 점을 강조합니다.

(pmc.ncbi.nlm.nih.gov)

AI

Meta, Apple에서 AI 인재 추가 영입…Apple 기반 모델팀 혼란

2025-07-18

Meta는 거액의 보상 패키지로 최고 AI 임원을 영입한 데 이어 Apple에서 주요 인공지능 임원 2명을 추가로 영입했습니다. 최근 채용은 이메일 요약 및 우선순위 알림과 같은 기능을 담당하는 Apple의 기반 모델 팀에서 이루어졌습니다. 이번 인재 유출은 Apple AI 부서 내 심각한 내부 문제를 시사하며, Siri 등의 기능에 OpenAI와 같은 외부 모델을 사용하는 방향으로 전환될 가능성을 보여줍니다.

(www.macrumors.com)

AI AI 인재 확보

애플, 차세대 다국어 멀티모달 기반 언어 모델 공개

2025-07-18

애플이 기기 및 서버의 인텔리전스 기능을 향상시키는 두 가지 새로운 다국어 멀티모달 기반 언어 모델을 발표했습니다. 약 30억 개의 매개변수를 가진 Apple 실리콘에 최적화된 기기용 모델과 새로운 Parallel-Track Mixture-of-Experts(PT-MoE) 트랜스포머 기반의 확장 가능한 서버용 모델입니다. 두 모델 모두 대규모 다국어 멀티모달 데이터 세트로 학습되었으며, 지도 학습 미세 조정 및 강화 학습을 통해 개선되었습니다. 더 많은 언어, 이미지 이해 및 도구 호출을 지원하며, 동급의 오픈소스 기준과 동등하거나 능가합니다. 새로운 Swift 중심 프레임워크를 통해 개발자는 쉽게 통합할 수 있습니다.

(machinelearning.apple.com)

AI

플라톤적 표상 가설: 보편적 임베딩 역전과 고래와의 소통을 향하여

2025-07-18

연구자들은 대규모 언어 모델이 커짐에 따라 공유된 기저 표상 공간으로 수렴하는 것을 발견했습니다. 이는 '플라톤적 표상 가설'이라고 불립니다. 이는 아키텍처에 관계없이 서로 다른 모델이 동일한 특징을 학습한다는 것을 시사합니다. 본 논문에서는 '무솔리니 또는 빵' 게임을 비유로 사용하여 이 공유 표상을 설명하고, 압축 이론과 모델의 일반화 능력으로 더욱 뒷받침합니다. 중요하게도, 이 가설을 바탕으로 연구자들은 vec2vec을 개발했습니다. 이는 서로 다른 모델의 임베딩 공간 사이에서 비지도 학습 방식으로 변환하는 방법이며, 고정밀도 텍스트 임베딩 역전을 달성합니다. 미래 응용 분야로는 선형 A와 같은 고대 문자 해독이나 고래 언어 번역 등이 있으며, 언어 간 상호 이해와 AI 발전에 새로운 가능성을 엽니다.

(blog.jxmo.io)

AI 임베딩 공간 변환 플라톤적 표상 가설

Le Chat 대폭 업데이트: 심층 연구 모드, 음성 모드 등 강력한 기능 추가

2025-07-17

Mistral AI의 AI 어시스턴트 Le Chat이 강력한 새로운 기능을 탑재한 주요 업데이트를 실시했습니다. 심층 연구 모드를 통해 구조화되고 상세한 조사가 가능하며, 음성 모드를 통해 음성 상호 작용이 가능합니다. 또한, 기본적으로 다국어 추론 기능을 지원하여 언어 간의 원활한 전환과 추론이 가능합니다. 고급 이미지 편집 기능과 프로젝트 관리 기능도 추가되어 사용자 경험이 더욱 향상되었습니다. 이러한 업데이트를 통해 Le Chat은 더욱 강력하고 사용자 친화적이 되어 보다 효율적인 AI 지원 경험을 제공합니다.

(mistral.ai)

AI

Claude 해킹: LLM의 합성적 위험 악용

2025-07-17

보안 연구원 Golan Yosef는 교묘하게 작성된 Gmail 이메일을 사용하여 Anthropic의 Claude 데스크톱 앱에서 코드 실행에 성공했습니다. 이는 앱 자체의 취약성을 이용한 것이 아니라 Claude의 기능과 신뢰 메커니즘을 활용한 것입니다. Claude와의 반복적인 상호 작용을 통해 연구원은 LLM을 유도하여 공격 전략을 개선하고 최종적으로 내장된 보안을 우회했습니다. 이는 GenAI의 중요한 "합성적 위험"을 강조합니다. 개별 구성 요소는 안전할 수 있지만 결합하면 불안정한 시스템이 될 수 있습니다. 이 연구는 이 새로운 공격 벡터에 대처하기 위해 LLM 기반 애플리케이션의 포괄적인 보안 평가가 필요함을 강조합니다.

(www.pynt.io)

AI 합성적 위험

Anthropic의 Claude: 생성형 AI 시대의 Dropbox?

2025-07-16

이 글에서는 Anthropic의 Claude 플랫폼과 그 Artifacts 기능을 살펴봅니다. Artifacts는 코딩 없이 AI 기반 웹 앱을 만들 수 있는 기능입니다. 저자는 Claude를 생성형 AI 시대의 Dropbox에 비유합니다. 왜냐하면 AI 앱 생성 및 공유 과정에서 API 키, 배포, 인증 등의 문제를 해결하고, 사용자의 Claude 계정 구독을 통해 영리하게 수익을 창출하기 때문입니다. 앱 개발자는 비용을 부담할 필요가 없습니다. 저자는 이 모델이 매우 가치 있다고 주장하며, 간단한 결제 방식을 통한 미래의 수익화 가능성을 전망합니다.

(ben-mini.com)

AI

H-Nets: Transformer를 능가하는 계층적 네트워크 아키텍처

2025-07-16

현재 AI 아키텍처는 모든 입력을 동등하게 처리하며, 정보의 고유한 계층적 구조를 활용하지 않습니다. 이는 고해상도 원시 데이터로부터 학습하는 능력을 제한합니다. 연구자들은 원시 데이터로부터 계층 구조를 자연스럽게 모델링하는 새로운 아키텍처인 H-Nets를 발표했습니다. H-Nets의 핵심은 원시 데이터를 의미 있는 개념으로 분할하고 압축하는 동적 청크화 메커니즘입니다. 실험 결과, H-Nets는 최첨단 Transformer를 능가하며, 확장성과 강건성이 향상되어 다중 모드 이해, 장문맥 추론, 효율적인 학습 및 추론을 위한 유망한 방향을 제시합니다.

(cartesia.ai)

AI 계층적 네트워크

Voxtral: 오픈소스 음성 이해 모델이 인간-컴퓨터 상호 작용에 혁신을 가져오다

2025-07-16

Voxtral은 프로덕션을 위한 240억 매개변수 변형과 에지 배포를 위한 30억 매개변수 변형의 두 가지 최첨단 음성 이해 모델을 출시했습니다. 두 모델 모두 Apache 2.0 라이선스로 제공됩니다. 이러한 모델은 뛰어난 전사 정확도, 장시간 오디오(최대 40분) 처리, 내장된 질문과 답변 및 요약 기능, 기본적인 다국어 지원 기능을 갖추고 있습니다. 특히 중요한 점은 Voxtral이 유사한 API보다 비용이 저렴하여 고품질 음성 인텔리전스를 대규모로 이용하고 제어할 수 있다는 것입니다. 높은 오류율의 오픈소스 시스템과 값비싼 독점 API 간의 차이를 해소하고, 음성 명령을 시스템 작업으로 직접 변환하는 기능 호출 기능을 제공합니다. Voxtral은 인간-컴퓨터 상호 작용에 혁신을 일으킬 준비가 되어 있습니다.

(mistral.ai)

AI

전 OpenAI 직원의 회고록: 급성장 속 문화와 도전 과제

2025-07-16

OpenAI에서 1년 동안 근무했던 전 직원이 자신의 경험과 생각을 공유합니다. 1000명에서 3000명으로 급격하게 확장되면서 발생한 문화적 충격, 커뮤니케이션, 조직 구조, 제품 출시 과정에서의 어려움 등을 설명합니다. 내부 커뮤니케이션은 Slack에 전적으로 의존하며, 수평적인 관리 체계에서 행동과 결과를 중시하는 문화입니다. Codex 출시에 참여했던 경험을 통해 7주라는 짧은 기간 동안 제품을 개발하는 과정의 흥분과 급속한 성장으로 인해 발생하는 코드 및 인프라 문제를 보여줍니다. 마지막으로 OpenAI에서 얻은 교훈을 요약하고, AGI 경쟁이 치열해짐에 따라 대규모 AI 연구소에 합류하는 것이 창업자가 고려해야 할 선택지임을 결론짓습니다. OpenAI, Anthropic, Google이 톱3 자리를 다투고 있습니다.

(calv.info)

AI

LLM의 백일몽 루프: 획기적인 혁신의 대가?

2025-07-16

인상적인 기능에도 불구하고 대규모 언어 모델(LLM)은 진정한 돌파구를 만들어내지 못했습니다. 저자는 이것이 인간 두뇌의 디폴트 모드 네트워크와 유사한 백그라운드 처리 메커니즘이 부족하기 때문이라고 제안합니다. 이를 해결하기 위해 '백일몽 루프'(DDL)라는 백그라운드 프로세스를 제안합니다. 이 프로세스는 메모리에서 지속적으로 개념 쌍을 샘플링하고, 명확하지 않은 링크를 탐색하고, 가치 있는 아이디어를 필터링하여 복합적인 피드백 루프를 만듭니다. 계산 비용이 많이 들지만, 이 '백일몽 세금'은 혁신에 필요한 비용이며 경쟁 우위가 될 수 있습니다. 궁극적으로 비용이 많이 드는 '백일몽 AI'는 주로 차세대 효율적인 모델의 교육 데이터를 생성하는 데 사용되어 다가오는 데이터 벽을 우회할 수 있습니다.

(gwern.net)

AI 디폴트 모드 네트워크

Cogency: 단 3줄의 코드로 작동하는 AI 에이전트

2025-07-15

Cogency는 AI 에이전트 생성을 간소화하는 다단계 추론 프레임워크입니다. OpenAI, Anthropic, Google 등의 제공업체를 자동으로 감지하고, 도구를 지능적으로 라우팅하며, 투명한 추론을 스트리밍합니다. 단 3줄의 코드로 기능하는 에이전트를 만들 수 있습니다. Cogency에는 계산기, 날씨 확인, 시간대 도구, 웹 검색 등의 내장 도구와 디버깅을 위한 자세한 실행 추적이 포함되어 있습니다. 사용자 지정 도구 및 LLM으로 확장 가능합니다.

(github.com)

AI

Meta의 슈퍼인텔리전스 연구소, 오픈소스 AI 모델 폐기 검토

2025-07-15

Meta가 새롭게 설립한 슈퍼인텔리전스 연구소는 AI 전략의 대대적인 재검토를 고려하고 있으며, 강력한 오픈소스 모델인 Behemoth의 폐기 가능성도 검토하고 있다. 뉴욕 타임스에 따르면 내부 논의에서 클로즈드소스 모델로의 전환이 시사되고 있으며, 이는 Meta의 기존 오픈소스 접근 방식에서 큰 변화를 의미한다. Behemoth는 '프론티어' 모델로 완성되었지만 성능 문제로 인해 출시가 연기되었고, 테스트는 중단되었다. 어떤 결정이라도 CEO 마크 저커버그의 승인이 필요하다.

(finance.yahoo.com)

AI

Cognition, Windsurf 인수: AI 기반 코드 편집의 새로운 장

2025-07-15

Cognition은 에이전트 기반 IDE를 개발하는 Windsurf를 인수한다고 발표했습니다. 인수에는 Windsurf의 지적 재산, 제품, 상표, 브랜드, 탄탄한 사업, 그리고 무엇보다도 세계적인 수준의 팀이 포함됩니다. Windsurf는 계속 운영될 것이며, Cognition은 Windsurf의 기능을 자사 제품에 통합하기 위한 투자를 할 것입니다. 이번 인수는 소프트웨어 엔지니어링의 미래를 가속화하는 것을 목표로 하며, Cognition의 Devin(완전 자율 에이전트)과 Windsurf의 IDE 제품, 강력한 시장 진출 전략을 결합하여 막대한 시너지 효과를 창출할 것입니다. Windsurf의 모든 직원은 재정적 참여, 권리 행사 조건 면제, 완전 가속화된 권리 행사 등의 우대 조건을 받게 됩니다.

(cognition.ai)

AI

LLM의 우아한 실패: 긴 컨텍스트에서의 성능은 간단한 작업에서도 저하됨

2025-07-15

본 연구는 대규모 언어 모델(LLM)이 긴 컨텍스트 작업에서 균일하게 우수한 성능을 발휘한다는 일반적인 가정에 도전합니다. '건초더미 속 바늘 찾기' 벤치마크를 확장하고 의미적 매칭과 방해 요소와 같은 변수를 도입하여 연구원들은 단순화된 조건에서도 입력 길이가 증가함에 따라 모델 성능이 저하됨을 발견했습니다. 이는 대화형 질의응답과 반복되는 단어 복제 작업에서 확인되었으며, LLM의 긴 컨텍스트 기능의 한계를 보여주고 실제 응용 프로그램에서의 잠재적 과제를 시사합니다.

(research.trychroma.com)

AI 긴 컨텍스트

Martin: Siri와 Alexa를 뛰어넘는 AI 어시스턴트

2025-07-15

Martin은 문자, 전화 또는 이메일을 통해 이용할 수 있는 혁신적인 AI 개인 비서입니다. 이메일, 캘린더, 할 일 목록, 메모, 통화, 미리 알림 등을 관리합니다. 단 5개월 만에 3만 명의 사용자를 위해 50만 건 이상의 작업을 완료했으며, 매주 10%의 성장률을 기록하고 있습니다. Y Combinator 및 Pioneer Fund와 같은 최고 투자자와 DoorDash 공동 설립자 및 Uber 전 최고 제품 책임자와 같은 저명한 엔젤 투자자의 지원을 받고 있습니다. 정예이지만 효율적인 팀은 iPhone 이후 가장 영향력 있는 소비자 제품을 만들기 위해 야심 찬 AI 엔지니어와 제품 엔지니어를 모집하고 있습니다.

(www.ycombinator.com)

AI

기술의 불가피론에 맞서다: 우리에게는 여전히 선택지가 있다

2025-07-15

이 글에서는 기술 리더들이 '불가피론'—AI가 지배하는 미래는 불가피하다는 주장—을 이용하여 여론을 형성하는 방식을 분석합니다. 숙련된 상대와의 논쟁을 예로 들어, 이러한 전략이 어떻게 대화의 틀을 미리 정해진 결론으로 이끌고 반대 의견을 잠재우는지 보여줍니다. 저커버그, 앤드류 응, 로메티 등의 인물들의 발언을 비판하며, AI의 미래는 이미 정해진 것이 아니며, 수동적으로 '불가피한' 결과를 받아들이는 것이 아니라 적극적으로 만들어가야 한다고 주장합니다.

(tomrenner.com)

AI AI의 미래 불가피론

AI 인재 버블: 수십억 달러 규모의 인수가 열풍을 가속화

2025-07-14

Meta와 Google의 수십억 달러 규모 AI 인재 인수는 AI 업계의 거대한 인재 버블을 시사합니다. 최고 AI 인재의 가치는 급등하고 있으며, 창업자와 주요 직원 모두에게 영향을 미치고 있습니다. 이러한 불평등은 AI 투자의 급증과 숙련된 인력에 대한 절실한 필요성에서 비롯됩니다. 기존의 신뢰 메커니즘은 붕괴되고 있으며, 기업과 인재 간의 사회적 계약을 다시 작성해야 합니다. 강력한 미션과 막대한 자금을 보유한 기업만이 이 인재 확보 경쟁에서 성공하여 실리콘밸리의 풍경을 바꿀 것입니다.

(blog.johnluttig.com)

AI

강화 학습 확장: 웹 상에서 다음 토큰 예측

2025-07-13

저자는 강화 학습(RL)이 AI 모델 학습의 다음 단계라고 주장합니다. 여러 환경을 동시에 확장하는 현재 접근 방식은 혼란스럽습니다. 대신 저자는 웹 규모의 데이터 세트에서 RL을 사용하여 다음 토큰을 예측하여 모델이 추론을 학습하도록 제안합니다. 이는 수학 및 코드 문제에 초점을 맞춘 현재 RL 학습 데이터 세트의 한계를 넘어 쉽게 이용할 수 있는 방대한 웹 데이터를 활용합니다. RL과 다음 토큰 예측을 통합함으로써 이 접근 방식은 훨씬 더 강력한 추론 모델을 만드는 것을 약속합니다.

(blog.jxmo.io)

AI

게임으로 암 정복하기: 시민 과학 게임이 질병 치료에 도움이 될까요?

2025-07-13

실제 과학 문제 해결에 참여하도록 플레이어를 유도함으로써 게임은 의학에서 가장 어려운 과제를 해결하는 데 기여할 수 있습니다. 『Gaming Cancer』는 암 연구를 시민 과학 게임으로 전환하는 개념을 탐구하여 플레이어들이 치료법 발견에 기여할 수 있도록 합니다. Foldit 및 EteRNA와 같은 게임은 이미 초저온 저장이 필요 없는 COVID-19 백신 설계 등 과학적 발견으로 이어졌습니다. 전문 과학자들이 해결할 수 없는 문제를 해결할 수 있다고 보장할 수는 없지만, 이러한 게임은 새로운 관점, 생물학 교육, 암 연구에 대한 광범위한 참여를 촉진합니다.

(thereader.mitpress.mit.edu)

AI

강화학습의 GPT-3 모멘트: 복제 학습의 부상

2025-07-13

이 기사는 강화학습(RL)이 곧 고유한 'GPT-3 모멘트'를 맞이할 것이라고 예측합니다. 수천 개의 다양한 환경에 걸쳐 대규모로 학습하여 강력한 샷 수가 적고 작업과 무관한 기능을 달성하는 것입니다. 이를 위해서는 전례 없는 규모와 다양성의 학습 환경이 필요하며, 수만 년에 해당하는 '모델 지향 작업 시간'이 필요할 수 있습니다. 저자들은 AI가 기존 소프트웨어 제품 또는 기능을 복제하여 대규모이고 자동으로 채점 가능한 학습 작업을 생성하는 '복제 학습'이라는 새로운 패러다임을 제안합니다. 과제는 있지만, 이 접근 방식은 RL을 확장하기 위한 명확한 경로를 제공하며, AI가 완전한 소프트웨어 프로젝트를 자율적으로 완료할 수 있도록 할 수 있습니다.

(www.mechanize.work)

AI 복제 학습

Moonshot AI, 강력한 에이전트 기능을 갖춘 320억 매개변수 MoE 언어 모델 'Kimi K2' 공개

2025-07-13

Moonshot AI는 최첨단 320억 매개변수 혼합 전문가(MoE) 언어 모델인 'Kimi K2'를 공개했습니다. 총 매개변수는 1조 개에 달합니다. Muon 최적화기를 사용하여 훈련된 Kimi K2는 최첨단 지식, 추론, 코딩 작업에서 뛰어난 성능을 보이며, 에이전트 기능을 위해 세심하게 최적화되었습니다. 연구자를 위한 기반 모델인 Kimi-K2-Base와 바로 사용 가능한 지시 사항 따르기 모델로, 강력한 도구 호출 기능을 갖추고 도구를 언제 어떻게 호출할지 자율적으로 결정하는 Kimi-K2-Instruct의 두 가지 버전이 있습니다. 모델과 가중치는 오픈소스로 공개되며, API도 제공됩니다.

(github.com)

AI 도구 호출

Category: AI