Nvidia präsentiert Granary: Ein riesiger mehrsprachiger Datensatz für die KI-Übersetzung
Nvidia hat Granary vorgestellt, einen riesigen Open-Source-Datensatz mit mehrsprachigen Audiodaten, der über eine Million Stunden Audio umfasst und für die Verbesserung der KI-Übersetzung europäischer Sprachen entwickelt wurde. Dieser Datensatz, der in Zusammenarbeit mit der Carnegie Mellon University und der Fondazione Bruno Kessler entwickelt wurde, beinhaltet fast alle offiziellen EU-Sprachen sowie Russisch und Ukrainisch und konzentriert sich auf unterrepräsentierte Sprachen. Zusammen mit Granary wurden zwei neue Modelle veröffentlicht, Canary und Parakeet, die jeweils für Genauigkeit und Geschwindigkeit optimiert sind. Granary reduziert den Trainingsdatensatzbedarf erheblich und ermöglicht so inklusivere Sprachtechnologien.
Mehr lesen