Nvidia、AI翻訳向けの大規模多言語データセット「Granary」を発表
2025-08-24

Nvidiaは、ヨーロッパの言語におけるAI翻訳の向上を目的とした、100万時間以上の音声データを含む大規模なオープンソース多言語音声データセット「Granary」を発表しました。カーネギーメロン大学とFondazione Bruno Kesslerとの共同開発で、EUのほとんどの公式言語に加え、ロシア語とウクライナ語が含まれ、特にデータの少ない言語に焦点を当てています。 高精度と高速低遅延翻訳に最適化されたCanaryとParakeetという2つの新しいモデルも同時にリリースされました。Granaryは、トレーニングに必要なデータ量を大幅に削減し、より包括的な音声技術を実現します。
AI
多言語データセット