반복적인 데이터 큐레이션을 통한 LLM 파인튜닝 개선

2025-08-08
반복적인 데이터 큐레이션을 통한 LLM 파인튜닝 개선

연구자들은 반복적인 데이터 큐레이션을 통해 대규모 언어 모델(LLM)의 성능을 크게 향상시켰습니다. 실험에는 크기가 다른 두 개의 LLM(Gemini Nano-1과 Nano-2)과 복잡도가 다른 작업이 사용되었으며, 약 10만 개의 크라우드소싱 주석이 사용되었지만, 초기에는 심각한 클래스 불균형(95%가 양성)으로 어려움을 겪었습니다. 전문가의 반복적인 큐레이션과 모델 파인튜닝을 통해 성능이 크게 향상되었습니다. 모델은 약 40%의 긍정적인 예시에 도달했으며, 코헨의 카파 계수는 약 0.81(낮은 복잡도)과 약 0.78(높은 복잡도)에 이르러 전문가 수준의 성능에 가까워졌습니다. 이는 LLM 교육에서 고품질 데이터의 중요한 역할을 강조합니다.

더 보기

지진 조기 경보 시스템: 규모 추정의 속도와 정확도 간의 절충

2025-07-23
지진 조기 경보 시스템: 규모 추정의 속도와 정확도 간의 절충

지진 조기 경보 시스템(EEW)의 주요 과제 중 하나는 지진 규모를 실시간으로 추정하는 것입니다. 규모는 흔들림의 정도를 결정하고 누가 경고를 받아야 하는지 결정합니다. 과소평가는 경고 누락으로 이어지고, 과대평가는 오경보와 대중의 신뢰 저하로 이어집니다. 중요한 과제는 속도와 정확도의 균형입니다. 초기 데이터는 제한적이지만, 경고를 지연시키면 경고 시간이 단축됩니다. 지난 3년 동안 규모 추정을 크게 개선하여 중앙 절대 오차를 0.50에서 0.25로 줄였습니다. 현재 우리의 정확도는 기존 지진 네트워크와 경쟁하며, 경우에 따라서는 능가합니다.

더 보기

MUVERA: 효율적인 다중 벡터 검색

2025-06-26
MUVERA: 효율적인 다중 벡터 검색

현대 정보 검색은 신경 임베딩 모델에 의존하지만, 다중 벡터 모델은 정확도가 높은 반면 계산 비용이 높아 비효율적입니다. 연구자들은 고정 차원 인코딩(FDE)을 구축하여 복잡한 다중 벡터 검색을 단순한 단일 벡터 최대 내적 검색(MIPS)으로 변환하는 MUVERA라는 새로운 알고리즘을 발표했습니다. 이를 통해 정확도를 희생하지 않고 효율성을 크게 향상시킬 수 있습니다. 오픈 소스 구현은 GitHub에서 공개되어 있습니다.

더 보기

Veo 3세대: 비디오 생성의 일반화

2025-05-16
Veo 3세대: 비디오 생성의 일반화

Google의 비디오 생성 분야 최신 돌파구인 Veo는 이제 다양한 작업에 일반화할 수 있는 3세대 기능을 자랑합니다. 수백만 개의 고품질 3D 합성 자산으로 훈련된 Veo는 새로운 뷰 합성에 탁월하며 제품 이미지를 일관된 360° 비디오로 변환합니다. 중요한 것은 이러한 접근 방식이 가구, 의류, 전자 제품 등 다양한 제품 범주에 효과적으로 일반화되고 복잡한 조명과 재질 상호 작용을 정확하게 포착한다는 점입니다. 이는 이전 세대보다 상당한 개선입니다.

더 보기
AI

Google, 하이브리드 시맨틱 ML 코드 완성 기능으로 개발자 생산성 향상

2025-05-15
Google, 하이브리드 시맨틱 ML 코드 완성 기능으로 개발자 생산성 향상

Google 연구원들은 Transformer 기반의 새로운 하이브리드 시맨틱 머신러닝 코드 완성 시스템을 개발했습니다. 이 시스템은 머신러닝(ML)과 규칙 기반 시맨틱 엔진(SE)을 결합하여 개발자 생산성을 크게 향상시킵니다. 이 시스템은 ML과 SE를 세 가지 방식으로 통합합니다. 1) ML을 사용하여 SE의 단일 토큰 제안을 재순위화합니다. 2) ML을 사용하여 단일 및 다중 라인 완성을 적용하고 SE로 정확성을 확인합니다. 3) ML을 사용하여 단일 토큰 시맨틱 제안을 단일 및 다중 라인으로 계속합니다. 3개월 동안 1만 명이 넘는 Google 내부 개발자를 대상으로 한 연구 결과, 단일 라인 ML 완성 기능을 통해 코딩 반복 시간이 6% 감소했습니다. 현재 새 코드의 3% 이상이 ML 완성 제안 채택을 통해 생성되고 있습니다. 이 시스템은 8가지 프로그래밍 언어를 지원하며 시맨틱 검사를 통합하여 코드 정확성을 보장하고 개발자의 신뢰도와 효율성을 크게 향상시킵니다.

더 보기
개발

Whisper 임베딩이 놀랍게도 인간 뇌 활동과 일치

2025-03-26
Whisper 임베딩이 놀랍게도 인간 뇌 활동과 일치

연구에 따르면 OpenAI의 Whisper 음성 인식 모델과 자연스러운 대화 중 인간 뇌의 신경 활동 사이에 놀라운 일치가 발견되었습니다. Whisper 임베딩과 하전두피질(IFG) 및 상측두회(STG)와 같은 뇌 영역의 뇌 활동을 비교하여 연구자들은 발화 중에는 언어 임베딩이 음성 임베딩보다 먼저 최고점에 도달하고, 이해 중에는 반대되는 것을 발견했습니다. 이는 뇌 메커니즘을 고려하지 않고 개발된 Whisper가 언어 처리의 중요한 측면을 포착하고 있음을 시사합니다. 또한 이러한 발견은 뇌 언어 처리의 '소프트 계층'에 대해서도 밝히고 있습니다. IFG와 같은 고차원 영역은 의미 및 구문 정보에 우선 순위를 두지만 저수준 청각 기능도 처리합니다. 반면 STG와 같은 저차원 영역은 음향 및 음운 처리를 우선시하지만 단어 수준의 정보도 포착합니다.

더 보기
AI

획기적인 연구: 성공 뒤에 숨겨진 강력한 팀

2025-03-03
획기적인 연구: 성공 뒤에 숨겨진 강력한 팀

이 논문은 Asaf Aharoni, Avinatan Hassidim, Danny Vainstein과의 긴밀한 협력의 결과입니다. 또한 Google Research, Google DeepMind, Google Search 팀의 YaGuang Li, Blake Hechtman 등 수십 명의 구성원들에게 리뷰, 유익한 토론, 귀중한 피드백, 지원에 감사드립니다. 그들의 기여는 이 연구의 완성에 필수적이었습니다.

더 보기
AI

구글 AI 돌파구: 감사의 글에서 드러난 거대한 팀 노력

2025-02-19
구글 AI 돌파구: 감사의 글에서 드러난 거대한 팀 노력

이 논문의 감사의 글은 Google Research, Google DeepMind, Google Cloud AI의 수많은 연구원들과 Fleming Initiative, Imperial College London, Houston Methodist Hospital, Sequome, Stanford University의 협력자들을 포함한 대규모 협업 노력을 보여줍니다. 광범위한 목록은 연구의 협업적 성격을 강조하고 기술적 및 전문적 피드백을 제공한 많은 과학자들과 제품, 엔지니어링, 관리 전반에 걸쳐 지원을 제공한 많은 Google 내부 팀에 감사를 표합니다. 감사의 글의 길이 자체가 대규모 AI 프로젝트를 뒷받침하는 거대한 팀워크를 강조합니다.

더 보기
AI

충격! 거의 모든 이진 검색과 병합 정렬이 깨졌습니다

2025-01-11
충격! 거의 모든 이진 검색과 병합 정렬이 깨졌습니다

Google 소프트웨어 엔지니어 Joshua Bloch는 JDK와 Jon Bentley의 'Programming Pearls' 모두에서 발견된 거의 20년 동안 잠복해 있던 이진 검색 알고리즘 버그를 밝혀냈습니다! 이 버그는 `int mid = (low + high) / 2;` 라인에서 발생하며, low와 high의 합이 최대 양수 정수 값을 초과하면 정수 오버플로우가 발생하여 배열 범위를 벗어나는 예외가 발생합니다. 이 버그는 대규모 데이터 세트에서만 발생하기 때문에 오늘날의 빅데이터 시대에 특히 위험합니다. 이 기사에서는 몇 가지 수정 방법을 살펴보고 엄격한 테스트와 증명을 거쳤더라도 버그가 남아 있을 수 있다는 점을 강조하며 프로그래머에게 주의 깊고 겸손해야 함을 촉구합니다.

더 보기

Google, 위성 이미지와 머신러닝을 사용하여 전 세계 태양 에너지 잠재력 평가 확장

2024-12-19
Google, 위성 이미지와 머신러닝을 사용하여 전 세계 태양 에너지 잠재력 평가 확장

Google 연구원들은 머신러닝 모델을 위성 이미지에 적용하여 고해상도 디지털 표면 모델과 지붕 분할 지도를 생성함으로써 Google 지도 플랫폼의 태양 에너지 API의 글로벌 사우스 지역 적용 범위를 확장했습니다. 이 혁신은 기존 데이터 수집 및 처리 방법의 한계를 극복하고 전 세계 12억 5천만 채의 건물에 대한 태양 에너지 잠재력 평가 데이터를 제공하여 전 세계 재생 에너지 채택을 가속화합니다. 이 프로젝트는 위성 데이터를 활용하여 데이터 업데이트 빈도를 높이고 비용을 절감하며, 특히 데이터 부족 지역에 유익합니다.

더 보기