Nvidia, AI 번역을 위한 대규모 다국어 데이터셋 'Granary' 공개

Nvidia는 유럽 언어의 AI 번역 개선을 위해 100만 시간 이상의 오디오 데이터를 포함하는 대규모 오픈소스 다국어 오디오 데이터셋 'Granary'를 발표했습니다. 카네기멜론대학교와 Fondazione Bruno Kessler와의 공동 개발로, EU의 대부분의 공식 언어와 러시아어, 우크라이나어를 포함하며, 특히 데이터가 부족한 언어에 중점을 두고 있습니다. 정확도와 속도에 최적화된 Canary와 Parakeet이라는 두 가지 새로운 모델도 함께 출시되었습니다. Granary는 학습에 필요한 데이터 양을 크게 줄여 더욱 포괄적인 음성 기술을 가능하게 합니다.
더 보기