Category: AI

Google의 Gemma: 경량 멀티모달 모델 패밀리

2025-03-12
Google의 Gemma: 경량 멀티모달 모델 패밀리

Google은 Gemini 기술을 기반으로 한 경량 멀티모달 모델 패밀리인 Gemma를 공개했습니다. Gemma 3 모델은 텍스트와 이미지를 처리하며 128K 컨텍스트 윈도우와 140개 이상의 언어를 지원합니다. 1B, 4B, 12B, 27B 매개변수 크기로 제공되며 질문 응답, 요약, 추론 등의 작업에서 뛰어난 성능을 보입니다. 컴팩트한 설계 덕분에 리소스가 제한된 기기에서도 배포할 수 있습니다. 벤치마크 결과는 다양한 작업, 특히 다국어 및 멀티모달 기능에서 높은 성능을 보여줍니다.

알고리즘 한계 돌파: 유도적 모멘트 매칭(IMM)을 통한 효율적인 생성적 사전 훈련

2025-03-12
알고리즘 한계 돌파: 유도적 모멘트 매칭(IMM)을 통한 효율적인 생성적 사전 훈련

Luma Labs는 생성적 사전 훈련에서 알고리즘 혁신의 정체를 해결하는 새로운 사전 훈련 기술인 유도적 모멘트 매칭(IMM)을 발표했습니다. IMM은 샘플 품질과 샘플링 효율성 모두에서 확산 모델을 크게 능가하며, 후자에서는 10배 이상의 향상을 달성합니다. 목표 시간 단계를 통합함으로써 IMM은 각 추론 반복의 유연성을 높이고 확산 모델의 선형 보간 한계를 극복합니다. 실험 결과 ImageNet과 CIFAR-10 데이터 세트에서 최첨단 FID 점수와 우수한 훈련 안정성을 보여줍니다. 이 연구는 생성적 사전 훈련 알고리즘의 중요한 발전을 나타내며, 다중 모드 기반 모델의 미래 발전을 위한 길을 열어줍니다.

Mistral의 새로운 OCR 모델, 기대에 못 미침; Google Gemini 2.0이 선두

2025-03-11
Mistral의 새로운 OCR 모델, 기대에 못 미침; Google Gemini 2.0이 선두

최근 테스트 결과 Mistral이 새롭게 출시한 OCR 전용 모델이 홍보 내용과 달리 성능이 저조한 것으로 나타났습니다. 개발자 Willis와 Doria는 복잡한 레이아웃과 손글씨 처리에서 도시 이름 반복, 숫자 오류, 환각 등의 문제점을 지적했습니다. 반면 Google Gemini 2.0 Flash Pro Experimental은 뛰어난 성능을 보이며 Mistral이 처리하지 못하는 복잡한 PDF 파일, 손글씨가 포함된 파일도 처리할 수 있습니다. 넓은 컨텍스트 윈도우도 큰 강점입니다. LLM 기반 OCR은 유망하지만 정보 조작, 지시 사항 오해, 전반적인 데이터 오해석 등의 문제점을 가지고 있습니다.

AI

Legion Health: AI 기반 정신 건강 관리 – 채용 중!

2025-03-11
Legion Health: AI 기반 정신 건강 관리 – 채용 중!

YC의 지원을 받는 Legion Health는 AI 기반 정신 건강 관리 시스템 구축을 위해 최고 수준의 AI 엔지니어를 채용하고 있습니다. AI 진단보다는 AI 기반 운영 최적화를 통해 환자 치료를 더 빠르고 원활하며 접근성 있게 만드는 데 집중하고 있습니다. 엔지니어는 LLM 워크플로 최적화, 예약, 위험 평가, 매출 주기 자동화를 위한 AI 모델 개선, 피드백 루프 개선, 강화 학습 기반 AI 교육 등에 참여하게 됩니다. 이상적인 지원자는 AI/ML 엔지니어링 경력 3년 이상, Python 및 ML(LLM, NLP, PyTorch/TensorFlow)에 대한 깊이 있는 지식, 의료 AI에 대한 관심을 가져야 합니다.

AI

Firefly: AI 기반 실시간 피트니스 피드백 앱

2025-03-11

Firefly는 신뢰할 수 있는 자세 추적기와 트레이너 데이터를 사용하여 실시간 형태 피드백을 제공하는 독창적인 운동 앱입니다. 단순히 루틴만 제안하는 앱과 달리, Firefly는 사용자의 형태를 평가하고 매 반복마다 즉각적인 수정을 제공하여 올바른 기술과 부상 방지를 보장합니다. 속도와 정확성은 경쟁사를 능가하며, 신뢰할 수 없는 타사 데이터 대신 자체 트레이너 데이터를 활용합니다. Firefly는 지속적인 피드백을 제공하여 실수를 하더라도 개선을 지원합니다.

Whisper를 사용한 인간 뇌 언어 활동 해독

2025-03-11
Whisper를 사용한 인간 뇌 언어 활동 해독

연구원들은 Whisper 모델을 사용하여 자연스러운 대화 중인 4명의 간질 환자의 ECoG 신호와 음성 신호를 분석했습니다. 그 결과 Whisper의 음향, 음성 및 언어 임베딩이 특히 음성 생성 및 이해 중에 신경 활동을 정확하게 예측하는 것으로 나타났습니다. 음성 임베딩은 지각 운동 영역에서 뛰어났으며, 언어 임베딩은 고차원 언어 영역에서 더 나은 성능을 보였습니다. 이 연구는 음성과 언어 정보가 뇌의 여러 영역에서 어떻게 인코딩되고 음성 정보가 언어 처리에 어떻게 영향을 미치는지 밝힙니다. 또한 음성 생성 및 이해 중 정보 흐름의 서로 다른 시간적 역동성과 신경 활동을 예측하는 데 있어 심층 학습 모델과 기호 모델의 차이점도 발견되었습니다.

AI

팩토리오 학습 환경: LLM을 위한 새로운 벤치마크

2025-03-11

대규모 언어 모델(LLM)은 기존 벤치마크를 빠르게 능가하고 있으며, 새로운 오픈 엔드 평가가 필요합니다. 팩토리오 학습 환경(FLE)은 게임 '팩토리오'를 기반으로 하며, 장기 계획, 프로그램 합성, 자원 최적화에서 에이전트의 능력을 테스트합니다. FLE는 기본 자동화부터 초당 수백만 단위의 자원을 처리하는 복잡한 공장에 이르기까지, 오픈 엔드 방식으로 기하급수적으로 확장되는 과제를 제공합니다. 두 가지 설정이 있습니다. 고정된 자원을 가진 24개의 구조화된 작업으로 구성된 랩 플레이와, 절차적으로 생성된 맵에서 무에서 최대 규모의 공장을 건설하는 무제한 작업인 오픈 플레이입니다. 두 설정 모두에서 모델은 여전히 강력한 공간 추론 능력이 부족하다는 것을 보여주었습니다. 랩 플레이에서는 LLM이 단기적인 기술에서 유망한 결과를 보여주지만, 제약이 있는 환경에서는 효과적으로 작동하지 못하며, 오류 분석의 한계를 반영합니다. 오픈 플레이에서는 LLM이 성장을 개선하는 자동화 전략(예: 전기 드릴)을 발견하지만, 복잡한 자동화(예: 전자 회로 제조)를 달성하지 못합니다.

의미 이해의 잠금 해제: AI의 코사인 유사도

2025-03-10
의미 이해의 잠금 해제: AI의 코사인 유사도

이 글에서는 코사인 유사도와 AI, 특히 단어 간 의미 관계 이해에 대한 응용을 명확하게 설명합니다. 벡터 설명으로 시작하여 단계별 예시를 사용하여 코사인 유사도 계산을 자세히 설명합니다. 코사인 유사도 함수의 TypeScript 구현과 최적화된 버전이 제공됩니다. 그런 다음 제품 추천 및 의미 검색과 같은 실제 웹 애플리케이션의 사용 사례를 탐구하고 OpenAI의 임베딩 모델을 활용하여 정확도를 높이는 방법을 보여줍니다. 또한 Math.hypot()을 사용한 효율적인 구현과 프로덕션 환경에서 임베딩을 미리 계산하는 중요성을 강조합니다.

AI 벡터

AI가 '압축된 21세기'를 가져올까? 연구자의 의문

2025-03-10

저자는 AI가 곧 과학적 돌파구를 가져올 것이라는 생각에 이의를 제기합니다. 자신의 경험과 역사 속 천재 과학자들의 예를 들어 진정한 과학적 진보는 기존 지식을 습득하는 것이 아니라 기존 개념에 대한 도전과 파괴적인 질문 제기에서 비롯된다고 주장합니다. 현재의 AI 모델은 독창적인 아이디어를 내는 것이 아니라 '빈칸 채우기'에 능숙합니다. 저자는 기존 질문에 대한 정확한 답변에 초점을 맞추는 것이 아니라 AI가 도전적인 질문을 제기하고 패러다임 전환을 추진하는 능력을 측정하기 위한 새로운 평가 지표가 필요하다고 제안합니다.

LLM과 인간 모두 편향을 보임: TTS 음성 매력도 순위 실험

2025-03-10

작년에 저자는 LLM을 사용하여 Hacker News 사용자를 순위 매기고 모델이 프롬프트에서 처음 언급된 사용자를 항상 선호하는 편향을 발견했습니다. 올해, TTS 음성 매력도를 순위 매기는 새로운 실험에서 화면 오른쪽에 표시된 음성을 선호하는 유사한 편향이 인간 참가자에게서도 나타났습니다. 이는 저자의 이전 발견을 강화하고 AI와 인간의 판단을 모두 사용할 때 편향을 줄이기 위해 샘플 크기와 무작위화의 중요성을 강조합니다.

Kuzu-Wasm과 WebLLM을 사용한 브라우저 내 Graph RAG 챗봇

2025-03-10
Kuzu-Wasm과 WebLLM을 사용한 브라우저 내 Graph RAG 챗봇

이 블로그 게시물에서는 Kuzu-Wasm과 WebLLM을 사용하여 구축된 완전히 브라우저 내에서 작동하는 챗봇을 소개합니다. 이 챗봇은 Graph Retrieval-Augmented Generation(Graph RAG) 기술을 활용하여 LinkedIn 데이터에 대한 자연어 질의에 답변합니다. 이 애플리케이션은 WebAssembly의 장점을 활용하여 데이터의 로컬 처리를 통한 개인 정보 보호 향상 및 간소화된 배포를 제공합니다. 아키텍처, 구현, 데이터 수집, WebLLM 프롬프트, 성능 관찰 결과 등이 자세히 설명되어 있습니다. 모델 크기 및 속도와 같은 현재 제한 사항이 있지만, WebAssembly 기술의 발전과 더 작고 더 우수한 LLM의 출현으로 이러한 고급 파이프라인이 완전히 브라우저 내에서 작동하는 미래를 기대할 수 있습니다.

AI

RTX 5090 Llama.cpp AI 성능 초기 벤치마크

2025-03-10

RTX 5090의 CUDA, OpenCL, OptiX 벤치마크 테스트 이후, 사용자들의 관심으로 인해 AI 성능, 특히 Llama.cpp 성능에 대한 조사가 진행되었습니다. Llama.cpp(Llama 3.1 및 Mistral 7B 모델 사용)를 사용한 RTX 5090, RTX 40 시리즈, RTX 30 시리즈 카드 비교 벤치마크 결과, RTX 5090은 텍스트 생성 및 프롬프트 처리에서 상당한 성능 향상을 보였습니다. 사용자들의 관심에 따라 향후 더 자세한 벤치마크를 진행할 예정입니다.

LLM 과대 광고의 종말?

2025-03-10
LLM 과대 광고의 종말?

이 글은 현재 대규모 언어 모델(LLM)의 발전에 대해 신중하면서도 낙관적인 전망을 제시합니다. 저자는 LLM이 특정 작업에서 뛰어난 성능을 보이지만 현재 기술 경로가 인공 일반 지능(AGI)으로 이어질 가능성은 낮다고 주장합니다. 발전은 미묘한 개선과 벤치마크 향상과 같은 점진적인 것이 대부분이며 근본적인 능력의 도약은 없다고 지적합니다. 저자는 향후 몇 년 동안 LLM이 유용한 도구가 되겠지만 AGI나 광범위한 자동화를 가져오지는 않을 것이라고 예측하며, 미래의 돌파구는 완전히 새로운 접근 방식을 필요로 할 수 있다고 결론짓습니다.

AI

변분 손실 오토인코더: RNN이 잠재 변수를 무시하는 경우

2025-03-09
변분 손실 오토인코더: RNN이 잠재 변수를 무시하는 경우

이 논문은 순환 신경망(RNN)과 변분 오토인코더(VAE)를 결합하는 과제를 다룹니다. VAE는 잠재 변수를 사용하여 데이터 표현을 학습하지만, 디코더가 RNN인 경우 RNN은 이러한 잠재 변수를 무시하고 데이터 분포를 직접 학습하는 경우가 많습니다. 저자들은 변분 손실 오토인코더(VLAE)를 제안합니다. 이는 RNN의 정보 접근을 제한하여 전역 구조를 인코딩하기 위해 잠재 변수를 사용하도록 강제합니다. 실험에 따르면 VLAE는 압축되고 의미적으로 풍부한 잠재 표현을 학습하는 것으로 나타났습니다.

진화하는 에이전트 프레임워크: 협업적인 AI 에이전트 생태계

2025-03-09
진화하는 에이전트 프레임워크: 협업적인 AI 에이전트 생태계

진화하는 에이전트 프레임워크는 지능적인 통신 기능을 갖춘 AI 에이전트를 생성, 관리 및 진화시키기 위한 프로덕션급 시스템입니다. 이를 통해 요구 사항을 의미적으로 이해하고, 경험에서 배우며, 복잡한 작업을 해결하기 위해 효과적으로 통신하는 에이전트의 협업적인 생태계를 구축할 수 있습니다. 주요 기능으로는 에이전트 진화(재사용, 적응 또는 생성), YAML 워크플로 시스템을 통한 에이전트 간 통신, OpenAI 임베딩으로 강화된 의미 검색 기능을 갖춘 스마트 라이브러리, 지속적인 학습을 통한 자기 개선 및 다중 프레임워크 지원(BeeAI, OpenAI 등)이 있습니다. 이 프레임워크는 의미적 유사성을 기반으로 재사용, 진화 또는 새로운 에이전트 생성 여부를 결정하는 시스템 에이전트를 사용하며, 펌웨어를 통한 거버넌스 기능도 포함되어 있습니다. 포괄적인 예시는 청구서 분석과 같은 작업에 대한 에이전트의 협업 및 진화 과정을 보여줍니다.

AI

AI: 과장과 현실 - 기술적 변화, 스카이넷 시나리오가 아니다

2025-03-08
AI: 과장과 현실 - 기술적 변화, 스카이넷 시나리오가 아니다

AI의 급속한 발전은 일자리 감소 및 존재론적 위협에 대한 광범위한 우려를 불러일으켰습니다. 이 글은 AI의 본질이 패턴 인식 엔진이며, 데이터에서 확률 분포를 학습하여 예측을 수행하는 것이지 진정한 사고는 아니라고 주장합니다. AI는 이미지 생성 및 텍스트 생성에서 놀라운 결과를 달성했지만, 환각 및 진정한 논리적 추론 부족 등의 한계가 여전히 존재합니다. 저자는 과거 기술적 변화와의 유사점을 지적하며 인류의 적응력을 강조합니다. AI는 작업을 자동화하지만 새로운 기회도 창출하며, 변화를 적극적으로 수용하고 더 의미 있는 활동에 인간의 에너지를 집중하도록 촉구합니다.

AI, 3000년 된 설형문자 해독…고대 연구 혁명

2025-03-08
AI, 3000년 된 설형문자 해독…고대 연구 혁명

코넬대학교와 텔아비브대학교 연구진이 3000년 전 점토판에서 설형문자를 자동으로 식별하고 복제하는 AI 시스템 ‘ProtoSnap’을 개발했다. 확산 모델을 사용하여 문자 이미지와 원형 간 픽셀 유사성을 비교함으로써 서체나 시대의 차이에 관계없이 정확하게 문자를 복원한다. 이를 통해 설형문자 번역 및 연구가 크게 가속화되어 고대 사회 연구에 방대한 데이터를 제공하고, 종교, 경제, 사회 구조, 법 제도에 대한 새로운 통찰력을 제공한다.

Reflection AI, 초지능 개발 위한 1억 3천만 달러 투자 유치

2025-03-08
Reflection AI, 초지능 개발 위한 1억 3천만 달러 투자 유치

구글 딥마인드 출신 연구원들이 설립한 AI 스타트업 Reflection AI가 시드 및 시리즈 A 투자 라운드를 통해 1억 3천만 달러의 투자를 유치하며, 기업가치 5억 5천 5백만 달러를 기록했습니다. 그들의 야심찬 목표는 컴퓨터 관련 대부분의 작업을 처리할 수 있는 AI인 '초지능' 개발입니다. 초기 단계에서는 대규모 언어 모델(LLM)과 강화 학습을 활용하고, 효율성 향상을 위해 트랜스포머를 넘어서는 새로운 아키텍처를 탐색하는 자율적인 프로그래밍 툴에 집중합니다. 이 툴은 취약점 스캐닝, 메모리 최적화, 안정성 테스트 등의 작업을 자동화하여 궁극적으로 대규모 작업량을 자율적으로 처리하는 것을 목표로 합니다.

AI

러시아 허위 정보 네트워크, 서구 AI 챗봇 침투

2025-03-07
러시아 허위 정보 네트워크, 서구 AI 챗봇 침투

모스크바에 기반을 둔 "Pravda" (러시아어로 "진실"이라는 뜻)라는 허위 정보 네트워크가 AI 챗봇 데이터에 침투하여 허위 주장과 선전을 주입하여 뉴스에 대한 반응을 조작하고 있습니다. 친 크렘린 허위 정보로 검색 결과를 넘쳐나게 함으로써 대규모 언어 모델이 정보를 처리하는 방식을 왜곡하고 있습니다. 그 결과 수백만 개의 러시아 선전 기사가 서구 AI 시스템에 통합되어 출력물이 감염되었습니다. NewsGuard가 주요 10개 AI 챗봇을 감사한 결과, Pravda 네트워크의 허위 정보를 33%의 시간 동안 반복하는 것으로 나타났습니다. 이 네트워크는 독창적인 콘텐츠를 생성하는 대신 크렘린 선전의 자금 세탁기 역할을 하며, 외견상 독립적인 여러 웹사이트에서 정보를 취합합니다. 이 대규모 작전은 AI 모델이 허위 정보 캠페인에 취약하다는 것을 보여줍니다.

Reflection AI: 자율 코딩을 통한 초지능 구축

2025-03-07
Reflection AI: 자율 코딩을 통한 초지능 구축

Reflection AI는 초지능 자율 시스템을 구축하고 있습니다. 팀 구성원들은 AlphaGo와 같은 프로젝트에 참여했으며 강화 학습과 대규모 언어 모델 분야에서 큰 발전을 이끌었습니다. 자율 코딩이 더 광범위한 초지능 달성의 핵심이라고 믿고, 먼저 초지능 자율 코딩 시스템을 구축한 다음 해당 설계도를 다른 모든 컴퓨터 기반 작업으로 확장할 계획입니다. 실제 응용 프로그램을 중시하며 사용자 피드백과 반복 작업을 통해 시스템이 실제 세계의 요구 사항을 충족하고 AI의 미래를 책임감 있게 형성할 것이라고 확신합니다.

AI, 오젬픽에 필적하는 새로운 체중 감량 분자 발견, 부작용 없이

2025-03-07
AI, 오젬픽에 필적하는 새로운 체중 감량 분자 발견, 부작용 없이

스탠퍼드 대학교 연구진은 AI 알고리즘을 사용하여 식욕 억제 및 체중 감소에서 세마글루타이드(오젬픽)에 필적하는 천연 분자 BRP를 발견했습니다. 중요하게도, 동물 실험에서 BRP는 메스꺼움, 변비, 근육량 감소와 같은 부작용을 피하는 것으로 나타났습니다. BRP는 다르지만 유사한 대사 경로를 통해 작용하며, 식욕을 조절하기 위해 시상하부를 표적으로 합니다. 인간 임상 시험을 시작하기 위해 회사가 설립되었습니다. 이 획기적인 발견은 AI를 통한 수천 가지 단백질의 스크리닝에 의존하며, 비만 치료를 위한 유망한 새로운 길을 제시합니다.

자기회귀 모델을 넘어: AI의 다음 경계

2025-03-07

현재 대부분의 생성 AI 모델은 자기회귀적이며, 다음 토큰을 예측합니다. Transformer 아키텍처는 계산 효율성 때문에 널리 채택되었습니다. 그러나 자기회귀 모델은 계획 및 추론 능력 부족, 제한적인 장기 기억, 그리고 '환각'을 일으키기 쉬운 등 고유한 한계를 가지고 있습니다. 저자는 인간의 사고가 순수하게 자기회귀적이지 않고, 비순차적 사고와 계획이 포함된다고 주장합니다. 인간 인지에 더 가까운 AI를 달성하기 위해 연구자들은 JEPA 및 확산 모델과 같은 다른 패러다임을 탐구하고 있습니다. 이러한 모델은 반복적인 개선이나 노이즈 제거를 통해 콘텐츠를 생성하며, 인간의 사고 과정을 더욱 충실하게 반영합니다.

InstantStyle: 한 번의 클릭으로 스타일 전이, AI 이미지 생성 간편하게

2025-03-07
InstantStyle: 한 번의 클릭으로 스타일 전이, AI 이미지 생성 간편하게

InstantStyle은 이미지 스타일 전이를 위한 간단하면서도 강력한 프레임워크입니다. 이미지의 콘텐츠와 스타일 정보를 교묘하게 분리하여 정확한 스타일 제어를 구현합니다. CLIP의 글로벌 특징을 활용하고 특정 어텐션 레이어(up_blocks.0.attentions.1과 down_blocks.2.attentions.1)에 집중하여 스타일과 레이아웃을 조작합니다. InstantStyle은 diffusers 등 주요 도구에 통합되어 SDXL, SD1.5 등의 모델을 지원하며, 온라인 데모와 고해상도 생성 기능을 제공하여 워크플로우를 크게 간소화하고 사용자에게 스타일리시한 이미지 생성을 손쉽게 제공합니다.

미분 가능한 논리 셀룰러 오토마타: 생명 게임부터 학습된 순환 회로를 이용한 패턴 생성까지

2025-03-07

본 논문에서는 완전히 이산적인 셀 상태를 사용하고 학습된 순환 이진 회로를 통해 업데이트되는 새로운 뉴럴 셀룰러 오토마타(NCA) 아키텍처인 DiffLogic CA를 소개합니다. 뉴럴 네트워크 구성 요소를 Deep Differentiable Logic Networks로 대체하여 이산 논리 게이트의 미분 가능한 학습을 가능하게 합니다. 미분 가능한 논리 게이트를 셀룰러 오토마타에 적용한 성공은 Conway의 생명 게임 복제와 학습된 이산 동역학을 통한 패턴 생성을 통해 입증됩니다. 이는 NCA 내에 이산 논리를 통합할 가능성을 보여주고 미분 가능한 논리 게이트 네트워크가 순환 아키텍처에서 효과적으로 학습될 수 있음을 증명합니다. 유망하지만 복잡한 형태를 생성하기 위한 학습은 여전히 과제이며, 계층적 아키텍처와 상태 관리를 개선하기 위한 특수 게이트에 대한 향후 연구를 시사합니다.

확산 LLM: 언어 모델링의 패러다임 전환

2025-03-06

Inception Labs는 기존의 자기 회귀 방식에 도전하는 혁신적인 확산형 대규모 언어 모델(dLLM)을 공개했습니다. 토큰을 순차적으로 예측하는 자기 회귀 모델과 달리, dLLM은 텍스트 세그먼트를 동시에 생성하고 반복적으로 개선합니다. 이미지 및 비디오 모델에서 성공을 거둔 이 방법은 현재 코드 생성에서 동일한 규모의 기존 LLM을 능가하며 속도와 효율성이 5~10배 향상되었습니다. 가장 큰 장점은 환각 감소입니다. dLLM은 중요한 부분을 생성하고 검증한 후에 계속 진행하므로, 챗봇 및 지능형 에이전트와 같이 정확성이 요구되는 애플리케이션에 필수적입니다. 이 접근 방식은 다단계 에이전트 워크플로우 개선, 루프 방지, 계획, 추론 및 자기 수정 능력 향상을 약속합니다.

AI

오픈소스 음성 턴 감지 모델: Smart Turn

2025-03-06
오픈소스 음성 턴 감지 모델: Smart Turn

Pipecat팀은 음성 활동 감지(VAD) 기반 음성 AI 시스템을 개선하기 위해 설계된 오픈소스 음성 턴 감지 모델 Smart Turn을 출시했습니다. Meta AI의 Wav2Vec2-BERT를 백본으로 사용하고 간단한 2계층 분류 헤드를 추가했습니다. 현재는 영어만 지원하며 초기 개념 증명 단계에 있지만, 팀은 성능이 빠르게 향상될 것이라고 확신하고 있습니다. 그들은 모델 개선과 언어 지원 및 기능 확장에 기여하도록 커뮤니티를 초대하고 있습니다.

AI

Koko: AI 기반 정신 건강 비영리 단체에서 기술 리더 모집

2025-03-06
Koko: AI 기반 정신 건강 비영리 단체에서 기술 리더 모집

MIT와 Airbnb 출신 엔지니어들이 설립한 정신 건강 기술 비영리 단체 Koko에서 기술 리더를 모집하고 있습니다. TikTok 및 Discord와 같은 플랫폼에 개입을 통합하여 젊은이들에게 온라인으로 신속한 정신 건강 지원을 제공하는 확장 가능한 AI 시스템을 구축하고 있습니다. 199개국 이상의 400만 명이 넘는 젊은이들을 지원해 온 Koko는 데이터 중심의 제품 의사 결정, A/B 테스트 및 엄격한 안전 기준을 중시합니다. AI를 사용하여 좋은 영향을 미칠 수 있는 좋은 기회입니다.

저렴한 추론 모델이 거대 모델을 능가하다: 강화 학습으로 논리 퍼즐 정복

2025-03-06
저렴한 추론 모델이 거대 모델을 능가하다: 강화 학습으로 논리 퍼즐 정복

연구자들은 강화 학습을 사용하여 더 작고 저렴한 오픈소스 언어 모델을 훈련하여, '시간적 단서'라는 추론 중심 게임에서 DeepSeek R1, OpenAI의 o1, o3-mini를 능가하고 Anthropic의 Sonnet 3.7과 거의 비슷한 성능을 달성했습니다. 추론 비용은 100배 이상 절감되었습니다. 이는 신중한 작업 설계, 하이퍼파라미터 조정, 그룹 상대 정책 최적화(GRPO) 알고리즘 및 torchtune 라이브러리 사용 덕분입니다. 이 연구는 강화 학습이 제한된 데이터로도 복잡한 연역 작업에 대해 오픈 모델을 효율적으로 훈련할 수 있는 잠재력을 보여주며, 단 16개의 훈련 예시만으로도 상당한 성능 향상을 달성했습니다.

AI

AI 전문가 윌리엄 J. 라파포트 교수와의 AMA: AI의 미래와 튜링 테스트

2025-03-06
AI 전문가 윌리엄 J. 라파포트 교수와의 AMA: AI의 미래와 튜링 테스트

3월 27일, 버팔로 대학교의 윌리엄 J. 라파포트 교수(컴퓨터 과학, 공학, 철학, 언어학 분야 교수)와 AI에 대한 토론을 진행합니다. 라파포트 교수는 AI 분야의 권위자이며, 『컴퓨터 과학 철학』과 같은 저서와 AI의 성공 및 대규모 언어 모델과 튜링 테스트에 관한 최근 논문을 발표했습니다. 이 기회에 질문을 양식을 통해 보내주세요! AI 최고 전문가와 직접 의견을 교환할 수 있는 귀중한 기회입니다.

Mistral OCR: 디지털 정보의 힘을 해방하는 혁신적인 OCR API

2025-03-06
Mistral OCR: 디지털 정보의 힘을 해방하는 혁신적인 OCR API

Mistral OCR은 새로운 광학 문자 인식(OCR) API로서 문서 이해에 있어 새로운 기준을 제시합니다. 다른 OCR과 달리 미디어, 텍스트, 표, 수식을 전례 없는 정확도와 인식 능력으로 이해합니다. 이미지와 PDF를 입력으로 받아들여 인터리브된 텍스트와 이미지로 콘텐츠를 추출합니다. 복잡한 문서에 대한 최첨단 성능, 다국어 지원, 최고 수준의 벤치마크를 자랑하는 Mistral OCR은 Le Chat에서 수백만 명의 사용자에게 기본 모델로 사용됩니다. 문서를 프롬프트로 사용할 수 있는 기능과 구조화된 출력(JSON)을 제공하며, 민감한 데이터를 위해 선택적인 자체 호스팅도 가능합니다. API는 la Plateforme에서 사용할 수 있으며, 가격은 페이지당 1달러입니다(배치 추론의 경우 더 높은 가치를 제공합니다).

AI
1 2 30 31 32 34 36 37 38 39 40 41