Webtagr - 기술 뉴스 다이제스트

ViT 대 CNN: 속도 벤치마크가 해상도 신화에 종지부를 찍다

2025-05-04

이 글은 비전 트랜스포머(ViT)가 고해상도 이미지 처리에서 비효율적이라는 일반적인 인식에 이의를 제기합니다. 다양한 GPU에서의 엄격한 벤치마크 테스트를 통해 ViT와 합성곱 신경망(CNN)의 추론 속도, FLOPs, 메모리 사용량을 비교합니다. 그 결과 ViT는 1024x1024픽셀 이하의 해상도에서 매우 뛰어난 성능을 보이며, 최신 GPU에서는 CNN보다 속도와 메모리 효율성이 높은 것으로 나타났습니다. 또한 저자는 고해상도에 대한 과도한 집중을 비판하며, 많은 경우 낮은 해상도로도 충분하다고 주장합니다. 마지막으로 이 글에서는 고해상도에서 ViT의 효율성을 더욱 높이는 지역적 어텐션 메커니즘을 소개합니다.

(lucasb.eyer.be)

AI

코드의 셀 오토마타: 단순화된 자기 복제 기계

2025-05-04

1968년, 영국의 컴퓨터 과학자 에드가 F. 코드는 폰 노이만의 29상태 자기 복제 기계를 단순화한, 단 8개의 상태만을 가진 셀 오토마타(CA)를 고안했습니다. 코드는 자신의 CA 내에서 자기 복제 기계의 가능성을 증명했지만, 완전한 구현은 2009년 팀 허튼에 의해 이루어질 때까지였습니다. 코드의 연구는 오토마타에서의 자기 복제에 필요한 논리적 구조에 대한 추가 연구를 촉진했고, 데보어와 랭턴 같은 연구자들의 후속 개선에 영감을 주어 더욱 단순화된 자기 복제 설계로 이어졌습니다.

(en.wikipedia.org)

AI 폰 노이만

TScale: 소비자 하드웨어에서의 LLM 학습

2025-05-04

TScale은 C++ 및 CUDA로 작성된 트랜스포머 모델 학습 및 추론 프레임워크로, 소비자급 하드웨어에서 실행되도록 설계되었습니다. 최적화된 아키텍처, 저정밀도 계산(fp8 및 int8), CPU 오프로딩, 동기 및 비동기 분산 학습을 통해 학습 비용과 시간을 크게 줄입니다. 정교한 색인 기술을 통해 1T 매개변수 규모의 모델도 일반 가정용 컴퓨터에서 학습할 수 있으며, LLM 학습 진입 장벽을 낮추는 큰 잠재력을 보여줍니다.

(github.com)

AI 분산 학습 저정밀도 계산

AI 예측 차트의 오류: 바이럴 확산의 위험성

2025-05-04

비영리 연구 기관 METR이 대규모 언어 모델의 소프트웨어 작업에서의 급속한 발전을 보여주는 보고서를 발표하여 바이럴 논쟁을 불러일으켰습니다. 그러나 해당 차트의 전제는 잘못되었습니다. 인간의 해결 시간을 문제의 난이도 측정에, AI의 50% 성공률 시간을 능력 측정에 사용하고 있기 때문입니다. 이는 문제의 복잡성 다양성을 무시하여 예측에 적합하지 않은 임의적인 결과를 초래합니다. METR의 데이터 세트와 현재 AI의 한계에 대한 논의는 귀중하지만, 이 차트를 미래 AI 능력 예측에 사용하는 것은 오해의 소지가 있습니다. 바이럴 확산은 타당성보다 자신이 믿고 싶은 것을 믿으려는 경향을 보여줍니다.

(garymarcus.substack.com)

AI

AI 커뮤니케이션 시대의 10가지 신조어

2025-05-03

AI의 등장은 우리의 커뮤니케이션 방식을 근본적으로 바꿔놓았습니다. 이 글은 이러한 변화를 설명하기 위해 유머러스하게 10가지 신조어를 소개합니다. 'chatjacked'(AI가 대화를 장악하는 것), 'prasted'(AI 출력을 편집 없이 그대로 붙여넣는 것), 'prompt ponged'(AI 주도의 왔다 갔다 하는 상호작용), 'AI'm a Writer Now'(AI에 의해 작가가 탄생하는 것) 등이 있습니다. AI가 커뮤니케이션에 미치는 영향을 생생하게 보여주며, 저작권, 진실성, 진정한 소통의 의미에 대해 생각하게 만듭니다. AI 시대에 진정성 있는 소통을 유지하는 방법을 고민하게 만드는, 재미있으면서도 생각할 거리를 던져주는 글입니다.

(davidduncan.substack.com)

AI

AI 생성 문학: 편견과 유창성

2025-05-03

이 에세이는 대규모 언어 모델(LLM)이 생성한 문학 작품에 대한 편견을 조사하며, 이는 역사적으로 여성 작가에 대한 편견과 유사합니다. 저자는 단순히 인간이 아니라는 이유만으로 AI 작성을 본질적으로 결함이 있다고 배척하는 것은 부당하다고 주장합니다. 이 글은 언어의 유창성과 사고의 관계를 심층적으로 파고들어 인간 언어의 상당 부분이 습관적이고 비반성적이며, AI 생성 텍스트와 근본적으로 다르지 않다는 점을 보여줍니다. 궁극적으로 저자는 AI 생성 작품을 읽을 때 편견 없이 접근할 것을 제안하는데, 이는 예상치 못한 혁신적인 언어 표현의 형태를 보여줄 수 있기 때문입니다.

(thelampmagazine.com)

AI 창작 활동 편견

AI가 과학과 수학에 미치는 영향: 전문가들이 향후 10년을 예측하다

2025-05-03

퀀타 매거진은 인공지능이 각 분야에 미치는 영향에 대해 약 100명의 과학자와 수학자를 인터뷰했습니다. 거의 모든 사람들이 AI의 파괴적인 영향을 느꼈다고 보고했으며, AI 개발에 직접 참여했든 간접적으로 잠재력에 영향을 받았든 관계없이 많은 사람들이 실험 접근 방식을 조정하거나, 새로운 협력을 모색하거나, 완전히 새로운 연구 질문을 제기하고 있습니다. 기사는 향후 5~10년 동안 무슨 일이 일어날 것인가라는 어려운 질문으로 끝맺습니다. 전문가들은 AI의 급속한 발전으로 정확한 예측이 어렵고, 그 영향은 앞으로 수년 동안 지속될 것이라는 데 동의합니다.

(www.quantamagazine.org)

AI

Google 패밀리 링크, 자녀의 Gemini AI 접근 허용

2025-05-03

Google은 Family Link 자녀 보호 기능을 통해 Android 기기에서 자녀가 Gemini AI 앱에 액세스할 수 있도록 합니다. Gemini는 숙제나 이야기 읽어주기에 도움이 되지만, Google은 AI가 실수를 하거나 자녀가 부적절한 콘텐츠를 접할 수 있다고 경고합니다. Google은 자녀의 데이터가 AI 훈련에 사용되지 않음을 보장합니다. 부모는 Gemini가 사람이 아니며 챗봇과 민감한 정보를 공유하지 않도록 자녀와 이야기하는 것이 좋습니다. 부모는 Family Link를 통해 제어를 유지하고, 자녀가 Gemini에 처음 액세스할 때 알림을 받을 수 있으며, 액세스를 완전히 비활성화할 수도 있습니다.

(www.theverge.com)

AI 패밀리 링크 아동 개인 정보

DeepMind 로봇, 인간 수준의 경쟁력 있는 탁구 실력 달성

2025-05-02

Google DeepMind 팀은 인간 전문가 수준으로 탁구 경기를 할 수 있는 로봇을 개발했습니다. 발표된 논문과 비디오는 복잡하고 역동적인 환경에서 로봇의 뛰어난 성능을 보여주며, AI 기반 로봇 분야의 큰 발전을 의미합니다. 이 프로젝트에는 많은 DeepMind 연구원들이 참여하여 공동 연구의 힘을 보여주었습니다.

(sites.google.com)

AI 로봇공학 탁구

WebGL2을 사용한 브라우저 기반 GPT-2 추론 데모

2025-05-02

인상적인 이 프로젝트는 WebGL2를 사용하여 GPT-2 소형 모델(1억 1700만 매개변수)의 완전한 순방향 전달 과정을 브라우저로 가져옵니다. GPU 계산에 WebGL2 셰이더를 활용하고 BPE 토큰화에 js-tiktoken을 사용하여(WASM 불필요) 브라우저에서 직접 GPT-2를 실행합니다. Python 스크립트로 사전 훈련된 가중치를 다운로드하고, 프런트엔드는 Vite로 빌드되어 핫 모듈 교체를 지원합니다. 이는 첨단 AI 모델을 브라우저로 가져오는 훌륭한 사례이며, 웹 기술의 최첨단 기능을 보여줍니다.

(github.com)

AI

AI가 500개 이상의 기이한 음악 장르 매시업 생성

2025-05-02

정체불명의 AI 프로그램이 "고딕 아랍 레게"나 "색소폰 투아레그"와 같이 500개가 넘는 특이한 음악 장르 조합을 만들어냈습니다. 이러한 조합은 다양한 문화와 음악 스타일을 과감하게 융합하여 음악 창작 분야에서 AI의 무한한 가능성을 보여줍니다. 이는 음악 작곡의 미래에 대한 성찰을 불러일으키고 음악가들에게 새로운 창작 영감을 제공합니다.

(suno.com)

AI 장르

AI 작성 보조 도구, 글로벌 사우스의 글쓰기 스타일 동질화

2025-05-02

코넬 대학교 연구에 따르면, AI 작성 보조 도구는 특히 글로벌 사우스의 수십억 명 사용자에게 영향을 미쳐 서구 표준에 맞춘 글쓰기 스타일의 동질화를 초래할 수 있다는 사실이 밝혀졌습니다. 이 연구에서는 AI 보조 도구를 사용할 경우, 인도와 미국 사용자의 글쓰기가 더욱 유사해지고, 특히 인도의 글쓰기 스타일이 희생되는 것을 확인했습니다. 두 그룹 모두 작성 속도가 향상되었지만, 인도 사용자는 AI 제안을 자주 수정해야 했기 때문에 생산성 향상은 미국보다 적었습니다. AI는 종종 미국 음식과 축제를 제안했고, 인도 유명인을 서구 유명인으로 대체하기까지 했습니다. 연구자들은 이를 “AI 식민주의”라고 부르며, 더 포괄적인 AI 도구를 만들기 위해 기술 기업은 문화적 뉘앙스에 초점을 맞춰야 한다고 주장합니다.

(news.cornell.edu)

AI

도파민: 공포 소거에 대한 뇌의 '위험 해제' 신호

2025-05-01

MIT 신경과학자들은 특정 뇌 회로를 따라 도파민이 방출되는 것이 '위험 해제' 신호 역할을 하며, 뇌가 공포를 소거하도록 가르친다는 사실을 발견했습니다. 마우스 연구 결과, 도파민은 편도체 내의 서로 다른 뉴런 집단을 표적으로 하여 공포 소거 기억을 코드화하는 것으로 나타났습니다. 이 메커니즘은 정상적으로 기능하면 평정을 회복하지만, 기능 장애가 발생하면 불안이나 PTSD에 기여할 수 있습니다. 이 연구는 공포 관련 장애에 대한 잠재적인 치료 표적을 제시하며, 도파민 수용체나 특정 뉴런을 통해 개입함으로써 공포 기억의 형성과 소거에 영향을 미칠 수 있음을 시사합니다.

(picower.mit.edu)

AI 공포 소거 편도체

Google AI 모드 검색 엔진, 공개 베타 버전 출시

2025-05-01

Google은 미국 내 소수 사용자에게 AI 모드 검색 엔진을 출시하고 있습니다. 기존 검색 결과와 달리 이 AI 기반 검색은 Google 색인을 기반으로 AI가 생성한 응답으로 질문에 답변합니다. 검색 탭에 눈에 띄게 배치된 AI 모드는 Perplexity 및 OpenAI의 유사한 서비스와 경쟁합니다. Google은 대기 목록을 제거하고 저장된 검색, 제품 및 장소에 대한 클릭 가능한 카드와 같은 기능을 추가하여 사용자 경험을 개선했습니다.

(www.theverge.com)

AI

감정 오디오 데이터셋: 7가지 다른 감정

2025-05-01

이 데이터셋에는 중립, 행복, 평온, 슬픔, 분노, 공포, 혐오, 놀람 등 7가지 다른 감정을 나타내는 오디오 샘플이 포함되어 있습니다. 많은 수의 오디오 클립은 감정 인식 모델의 훈련과 테스트에 귀중한 리소스를 제공하며 AI의 감정 컴퓨팅 분야에 크게 기여합니다.

(llasatts.github.io)

AI 감정 인식 오디오 데이터셋

Waypoint: AI 기반 도시 계획 자동화 – 첫 엔지니어 채용

2025-05-01

Waypoint은 AI 기반 자동화를 통해 도시 계획에 혁명을 일으키고 있으며, 기존 컨설팅 회사의 비효율성과 높은 비용 문제를 해결합니다. Waypoint은 엔지니어링 시스템을 처음부터 구축할 첫 번째 엔지니어를 찾고 있습니다. 프로젝트에는 보도 분할을 위한 YOLO 모델 미세 조정, 도시 계획 문서 처리 시스템 개발, 교차로 안전 권장 사항 자동 생성 등이 포함됩니다. 이상적인 후보자는 뛰어난 프로그래머이며, 학습 속도가 빠르고, 문제 해결 능력이 있으며, 도시 계획 개선에 대한 열정을 가진 사람입니다.

(www.workatastartup.com)

AI

Claude 통합 및 고급 연구 기능: 강력한 업그레이드

2025-05-01

Anthropic은 Claude에 대한 주요 업데이트를 발표했습니다. 개발자가 다양한 앱과 도구를 연결할 수 있는 통합 기능이 도입되었으며, 연구 기능도 확장되었습니다. 고급 연구 모드에서는 웹, Google Workspace 및 이제 통합된 앱을 검색하여 최대 45분 동안 연구를 수행하고 인용이 포함된 종합적인 보고서를 제공합니다. 웹 검색은 현재 모든 유료 Claude 사용자에게 전 세계적으로 제공됩니다. 이러한 업데이트를 통해 Claude의 기능과 효율성이 크게 향상되어 더욱 강력한 협업 도구가 되었습니다.

(www.anthropic.com)

AI 통합

「이해 전쟁」: LLM 시대의 규모 대 의미 논쟁

2025-05-01

트랜스포머 모델이 NLP 벤치마크에서 인간의 수준을 넘어서면서, 그 능력에 대한 해석을 둘러싼 논쟁이 벌어졌고, 2020년부터 2022년까지 이른바 「이해 전쟁」이라는 상황으로 발전했습니다. Bender 등의 「문어 테스트」는 통계적으로 언어를 모방하는 모델은 의미를 이해할 수 없다고 주장했습니다. GPT-3의 등장으로 논쟁은 더욱 심화되었고, 그 강력한 능력은 연구자들을 놀라게 했지만 동시에 안전성과 윤리적 우려를 불러일으켰습니다. 이 논쟁은 모델의 이해 능력뿐만 아니라 학계와 산업계의 연구 방법과 방향의 차이를 드러냈고, 결국 NLP 분야 내부에서 「내전」을 야기했습니다.

(www.quantamagazine.org)

AI

우려되는 추세: 최근 졸업생들이 어려운 구직 시장에 직면

2025-05-01

미국 최근 대학 졸업생들의 취업 시장은 지난 수십 년 동안에 비해 현저히 악화되었습니다. 실업률은 우려스러운 5.8%에 달하며, 일류 MBA 졸업생조차도 일자리를 찾는 데 어려움을 겪고 있습니다. 세 가지 가능한 설명으로는 팬데믹과 대침체의 장기적인 영향, 대학 학위에 대한 투자 수익률 감소, 그리고 이전에는 초급 사무직 근로자들이 수행하던 업무를 자동화할 수 있는 AI의 파괴적인 잠재력이 있습니다. AI의 고용에 대한 영향은 아직 불확실한 부분이 많지만, 최근 졸업생들의 어려움은 단기적인 경제 문제, 고등 교육 가치의 변화 또는 AI의 고용 시장에 대한 장기적인 영향을 시사하는 경고입니다.

(www.theatlantic.com)

AI AI와 고용 대학 졸업생 취업

AI의 디지털 화석: 무의미한 용어가 지식 체계에 침투하는 방식

2025-05-01

과학자들은 AI 모델에서 널리 퍼져 있는 무의미한 용어인 "영양 전자 현미경"을 발견했습니다. 이는 1950년대 논문의 디지털화 과정에서 발생한 오류에서 시작되어 번역 오류로 인해 증폭되었고, 대규모 언어 모델에 통합되었습니다. 이는 방대한 훈련 데이터 세트, 투명성 부족, AI에서의 자기 증식적 오류라는 과제를 부각합니다. 이 사건은 학술 연구와 출판에 심각한 문제를 야기하며, 신뢰할 수 있는 지식 체계를 유지하는 방법에 대해 생각해 보게 합니다.

(www.sciencealert.com)

AI 지식의 신뢰성

오해받은 '분위기 코딩': 놓친 기회

2025-05-01

두 출판사와 세 명의 저자가 '분위기 코딩'(vibe coding)의 의미를 근본적으로 오해하여 AI 지원 프로그래밍과 혼동했습니다. 저자는 Andrej Karpathy의 정의에 따르면 진정한 분위기 코딩은 코드의 세부 사항에 매달리지 않고 AI를 사용하여 코드를 생성하는 것이며, 비프로그래머를 위한 로우 코드 접근 방식이라고 주장합니다. 저자는 출판사와 저자들이 Karpathy의 정의를 완전히 이해하지 못하고, 기존 코딩을 배우지 않고도 AI를 사용하여 맞춤형 소프트웨어를 만들 수 있도록 하는 귀중한 책을 만들 기회를 놓친 것에 실망감을 표명합니다.

(simonwillison.net)

AI

Hyperparam: AI 데이터를 위한 부족했던 UI, 이제 오픈소스로

2025-05-01

Hyperparam은 머신러닝 분야의 주요 과제인 대규모 데이터셋 탐색을 위한 사용자 친화적인 도구 부족 문제를 해결합니다. Hyparquet(브라우저 내 Parquet 리더), Hyparquet-Writer(Parquet 익스포터), HighTable(확장 가능한 React 테이블), Icebird(Iceberg 리더), Hyllama(LLaMA 모델 메타데이터 파서), Hyperparam CLI를 포함한 오픈소스 제품군을 통해 브라우저에서 직접 대화형 데이터 탐색 및 큐레이션이 가능합니다. 효율적인 데이터 형식과 고성능 JavaScript를 활용하여 Hyperparam은 데이터 과학자가 복잡한 서버 인프라 없이 로컬 및 개인적으로 테라바이트 규모의 데이터를 처리할 수 있도록 합니다. 이 로컬 우선 접근 방식은 데이터 보안 및 규정 준수를 우선시합니다.

(hyperparam.app)

AI

AI 벤치마킹 스캔들: 빅테크 기업들이 Chatbot Arena를 조작했나?

2025-05-01

Cohere, 스탠포드, MIT, Ai2의 새로운 논문에서 인기 AI 벤치마킹 플랫폼인 Chatbot Arena를 운영하는 LM Arena가 Meta, OpenAI, Google, Amazon과 같은 주요 AI 기업들을 불공정하게 우대했다고 비난하고 있습니다. 연구자들은 이 기업들이 여러 모델 변형을 비공개로 테스트하고 성능이 저조한 결과를 억압하여 순위를 높이는 것을 허용받았다고 주장합니다. 280만 건 이상의 대결을 분석한 결과, 이 기업들에게 불공정한 이점을 제공한 샘플링 비율 증가의 증거가 발견되었습니다. LM Arena는 부정확성을 이유로 이러한 연구 결과에 이의를 제기하고 샘플링 알고리즘을 개선할 계획이지만, 순위 조작을 부인하고 있습니다. 이 논쟁은 AI 벤치마킹의 공정성과 투명성에 대한 우려를 불러일으키고 AI 경쟁에서 주요 기술 기업들이 사용하는 경쟁 전략을 보여줍니다.

(techcrunch.com)

AI 순위 조작 AI 기업 경쟁

Mac에서 무료로 Qwen3 로컬 실행: Localforge를 사용한 에이전트 루프

2025-05-01

이 게시글에서는 강력한 대규모 언어 모델 Qwen3을 Mac에서 무료로 실행하고 Localforge를 사용하여 에이전트에 통합하는 방법을 자세히 설명합니다. 저자는 MLX 라이브러리 설치, 모델 서버 설정, Localforge 구성 절차를 자세히 안내하고 Qwen3을 실행하기 위한 Ollama 및 MLX 방식을 모두 소개합니다. 저자는 Qwen3 에이전트를 사용하여 파일 목록 표시 등의 작업을 성공적으로 수행했으며, 에이전트가 생성한 웹사이트 예시도 보여줍니다. 이 게시글은 강력한 LLM을 로컬에서 무료로 실행하고 에이전트를 구축하는 실현 가능성을 강조합니다.

(localforge.dev)

AI

Phi Silica: Windows 11 Copilot+ PC를 위한 고효율 소형 언어 모델

2025-05-01

마이크로소프트 응용 과학팀은 다학제적 접근 방식을 사용하여 Windows 11 Copilot+ PC(Snapdragon X 시리즈 프로세서 탑재)에서 AI 효율성의 획기적인 발전을 이루었습니다. 개발된 소형 언어 모델인 Phi Silica는 전력 효율성, 추론 속도, 메모리 효율성을 크게 향상시킵니다. Phi Silica는 Copilot+ PC의 여러 기능(클릭하여 수행, 기기에서 다시 작성 및 요약 기능(Word, Outlook), 개발자를 위한 사전 최적화된 SLM 등)을 지원합니다. 4비트 가중치 양자화, 메모리 매핑 임베딩 등의 기술을 통해 메모리 사용량이 크게 줄어들고 QuaRot 기술을 통해 고정밀 4비트 양자화 추론을 달성했습니다. 짧은 프롬프트에서 첫 번째 토큰 생성 시간은 230밀리초이며, 처리량은 최대 20토큰/초입니다.

(blogs.windows.com)

AI

Microsoft, 놀라운 추론 능력을 가진 Phi-4 추론 소형 언어 모델 공개

2025-05-01

Microsoft는 Phi-4-reasoning, Phi-4-reasoning-plus, Phi-4-mini-reasoning을 포함한 새로운 Phi-4 추론 계열의 소형 언어 모델(SLM)을 발표했습니다. 이 모델들은 특히 수학적 추론에서 인상적인 추론 능력을 보여주며, 일부 벤치마크에서는 더 큰 모델을 능가합니다. Phi-4-mini-reasoning은 모바일 기기 및 에지 컴퓨팅과 같은 리소스가 제한된 환경에 최적화되어 있습니다. Microsoft는 책임감 있는 AI에 대한 약속을 강조하며 잠재적 위험을 완화하기 위해 여러 가지 안전 조치를 취하고 있습니다. 이 모델들은 Azure AI Foundry와 Hugging Face에서 사용할 수 있으며 일부는 Windows 11의 Copilot+ PC에 통합되어 있습니다.

(azure.microsoft.com)

AI

DeepSeek-Prover-V2: 강화 학습을 통한 형식적 수학적 추론 발전

2025-04-30

DeepSeek-Prover-V2는 Lean 4에서 형식적 정리 증명을 위해 설계된 오픈소스 대규모 언어 모델입니다. DeepSeek-V3 기반의 재귀적 정리 증명 파이프라인과 강화 학습을 활용하여 비형식적 및 형식적 수학적 추론을 통합합니다. 이 모델은 DeepSeek-V3을 사용하여 복잡한 문제를 하위 목표로 분해하고, 이러한 하위 목표의 증명을 합성하여 강화 학습의 초기 데이터를 만드는 것으로 시작합니다. DeepSeek-Prover-V2-671B는 MiniF2F-test에서 88.9%의 통과율을 달성하고 PutnamBench에서 49개의 문제를 해결했습니다. 또한 고등학교 경시대회 및 교과서에서 325개의 형식화된 문제를 포함하는 새로운 벤치마크 데이터 세트인 ProverBench도 도입되었습니다.

(github.com)

AI 정리 증명

MiMo-7B: 70억 매개변수 추론 전문 LLM, 320억 매개변수 모델 능가

2025-04-30

샤오미는 추론 능력에 특화된 70억 매개변수의 거대 언어 모델 MiMo-7B를 발표했습니다. 최적화된 사전 학습 데이터와 전략, 그리고 혁신적인 강화 학습 훈련 기법을 통해 MiMo-7B는 수학 및 코드 추론 과제에서 뛰어난 성능을 보이며 320억 매개변수 모델을 능가합니다. 이 오픈소스 모델에는 기본 모델, SFT 모델, 강화 학습으로 훈련된 모델 등 여러 개의 체크포인트가 포함되어 있어 강력한 추론 능력을 갖춘 LLM 개발에 귀중한 자원을 제공합니다.

(github.com)

AI

AI 모델 폭발적 발전: 2024-2025년 최고 자리 경쟁

2025-04-30

2024년부터 2025년까지 AI 모델 개발은 전례 없는 붐을 맞았습니다. Stable Diffusion 3부터 GPT-4o, Gemini부터 Claude 3까지, 기술 대기업과 스타트업들이 잇따라 새로운 모델을 발표하며 이미지 생성, 비디오 생성, 텍스트 생성, 멀티모달 분야에서 치열한 경쟁이 펼쳐졌습니다. 오픈소스 모델의 부상 또한 AI 기술의 보급과 발전에 새로운 활력을 불어넣었습니다. 이러한 "모델 경쟁"은 계속해서 진화하며, 파라미터 수와 기능이 점점 증가하여 결국 AI의 미래를 만들어갈 것입니다.

(nhlocal.github.io)

AI

LLM의 무작위성 테스트가 예상치 못한 편향을 드러내다

2025-04-30

이 실험에서는 OpenAI와 Anthropic의 여러 대규모 언어 모델(LLM)의 무작위성을 테스트했습니다. 모델이 동전을 던지고 0에서 10 사이의 무작위 숫자를 예측하도록 함으로써 연구자들은 그 결과에 상당한 편향이 있음을 발견했는데, 이는 모델이 진정으로 무작위적이지 않음을 나타냅니다. 예를 들어, 동전 던지기 실험에서 모든 모델은 '앞면'을 선호하는 경향을 보였고, GPT-o1은 49%라는 가장 극단적인 편향을 보였습니다. 홀수/짝수 예측에서는 대부분의 모델이 홀수를 선호했고, Claude 3.7 Sonnet은 47%라는 가장 강한 편향을 보였습니다. 이러한 결과는 고급 LLM조차도 훈련 데이터 분포의 영향을 받아 예상치 못한 패턴을 보일 수 있음을 강조합니다.

(rnikhil.com)

AI 무작위성 편향

Category: AI