Ein Forscherteam analysiert Sprachmodelle mithilfe von KI-Hardware in einem modernen Labor

NVIDIA öffnet neue Türen für Sprach-KI: Mit dem riesigen, offenen Granary-Datensatz und leistungsstarken, mehrsprachigen Modellen könnten zukünftig auch unterrepräsentierte Sprachen wie Estnisch oder Maltesisch von präziser KI-Transkription und -Übersetzung profitieren – ein riesiger Schritt hin zu digitaler Inklusion in Europa.

Neue Open-Source-Initiative für europäische Sprach-KI

  • NVIDIA veröffentlicht ein neues Open-Source-Sprachdatensatz-Paket für 25 europäische Sprachen.
  • Das Projekt konzentriert sich auf mehrsprachige Sprach-KI mit Fokus auf unterrepräsentierte Sprachen wie Kroatisch, Estnisch und Maltesisch.
  • Enthalten sind trainierbare KI-Modelle für automatische Spracherkennung (ASR) und Übersetzung (MT).
  • Die Initiative soll barrierefreie Sprachverarbeitung in Europa fördern und KI-Tools für kleinere Sprachen zugänglicher machen.
  • Entwickler und Unternehmen können auf den Open-Source-Code und die vortrainierten Modelle frei zugreifen.

Sprach-KI revolutionieren: NVIDIA stellt Granary-Datensatz und neue Modelle vor

NVIDIA hat mit dem Granary-Datensatz und den Modellen Canary-1b-v2 und Parakeet-tdt-0.6b-v3 wegweisende Werkzeuge vorgestellt, die die Entwicklung von multilingualen Sprach-KIs auf ein neues Level heben. Während nur ein kleiner Bruchteil der rund 7.000 Sprachen weltweit von aktuellen KI-Modellen erfasst wird, zielt NVIDIA mit seinem Vorstoß darauf ab, diese Lücke systematisch zu schließen – insbesondere für die 25 meistgesprochenen europäischen Sprachen, inklusive unterrepräsentierter wie Kroatisch, Estnisch oder Maltesisch.

Der Clou: Granary ist eine offene Datenbasis mit einer gewaltigen Größe von etwa einer Million Audiostunden. Dabei entfallen rund 650.000 Stunden auf Sprach­erkennung und 350.000 Stunden auf Übersetzung. Damit wird erstmals ein Datensatz öffentlich zugänglich gemacht, der es erlaubt, sowohl qualitativ hochwertige Transkriptions- als auch Übersetzungs-KI in mehreren europäischen Sprachen zu trainieren.

Die beiden neuen Modelle, erstellt auf Basis dieser Daten, setzen nicht nur bezüglich ihrer Größe Maßstäbe. Laut der Leaderboard von Hugging Face rangiert Canary-1b-v2 hinsichtlich mehrsprachiger Erkennungsgenauigkeit auf dem Spitzenplatz. Parakeet wiederum glänzt mit hoher Verarbeitungs­geschwindigkeit – ideal für Anwendungen in hoher Frequenz, beispielsweise bei Kundenhotlines oder Live-Übersetzungen.

Die Anwendungsbereiche sind vielfältig: Multilinguale Chatbots, Sprachagenten im Kundenservice oder Echtzeit-Übersetzungen im Bildungsbereich – mit Granary, Canary und Parakeet lässt sich all dies datenbasiert, skalierbar und effizient umsetzen.

Weitere Details stehen auf dem NVIDIA-Blog zur Verfügung.

Granary als Schlüssel zu europäischer Sprachvielfalt in der KI

Ein zentrales Anliegen der Granary-Initiative ist es, die Datenarmut bei weniger verbreiteten Sprachen zu bekämpfen. In vielen Fällen scheitert die Umsetzung verlässlicher Sprachmodelle an der Verfügbarkeit von Trainingsmaterial in ausreichender Qualität. NVIDIA hat dieses Problem durch ein technisches Kunststück gelöst: Unbeschriftete Audiodaten werden über einen speziellen Verarbeitungsprozess mithilfe des NeMo Speech Data Processors automatisch strukturiert und aufbereitet.

Dieser Prozess eliminiert die Notwendigkeit manueller Transkription – ein erheblicher Effizienzgewinn in der KI-Entwicklung. Die so generierten Daten sind laut Interspeech-Papier der Entwicklergruppe um NVIDIA nicht nur sauber, sondern durch ihre Struktur auch direkt für das Training von ASR- (Automatic Speech Recognition) und AST-Systemen (Automatic Speech Translation) verwendbar. Schon mit der Hälfte an Granary-Trainingsdaten lassen sich Zielwerte bei der Spracherkennungsgenauigkeit erreichen, die andere Datensätze erst mit dem doppelten Umfang erzielen.

Ein praktisches Beispiel verdeutlicht die Relevanz: Möchte ein Softwareunternehmen einen digitalen Assistenten aufbauen, der Englisch, Ungarisch und Norwegisch versteht, benötigte es bislang für jede dieser Sprachen separate, mit hohem Aufwand erstellte Datensätze. Mit Granary hingegen lässt sich dieser Aufwand dramatisch reduzieren – bei gleichzeitig besserer Ergebnissicherheit.

Granary ist damit nicht nur ein Werkzeug, sondern auch ein wichtiger Katalysator für eine inklusivere Zukunft der Sprach-KI auf dem Kontinent.

Canary und Parakeet: KI-Modelle mit konkretem Nutzen

Mit den beiden Modellen Canary-1b-v2 und Parakeet-tdt-0.6b-v3 zeigt NVIDIA, wie sich konkrete Produkte auf Basis von Granary realisieren lassen. Während Canary besonders für komplexe Aufgaben mit hoher Präzision optimiert wurde, legt Parakeet den Fokus auf Geschwindigkeit – beispielsweise für den Einsatz in Echtzeitstreaming oder bei der Analyse großer Audioarchive.

Canary-1b-v2 beherrscht Transkription und Übersetzung in 25 Sprachen – von Portugiesisch bis Lettisch. Besonders beeindruckend: Das Modell benötigt dreimal weniger Parameter als vergleichbare Systeme, liefert aber gleichwertige oder sogar bessere Ergebnisse. Dabei erzielt es bis zu zehnmal schnellere Inferenzzeiten.

Parakeet wiederum kann 24-minütige Audiodateien in einem einzigen Inferenzdurchlauf vollständig transkribieren. Die automatische Sprachenerkennung und der Verzicht auf explizite Prompts machen es besonders benutzerfreundlich. Adaptiert wurde auch die punktgenaue Zeichensetzung, Großschreibung sowie Wort-für-Wort-Zeitstempelung – nützlich etwa in der forensischen Sprachverarbeitung oder Medienarchivierung.

Beide Modelle stehen auf Hugging Face bereit und sind unter einer offenen Lizenz nutzbar – was bedeutet: Entwickler weltweit können diese frei adaptieren, anpassen und für eigene AI-Projekte einsetzen.

Die zugrundeliegende Software-Infrastruktur, darunter der NVIDIA NeMo Framework sowie das Open-Source Curator-Tool, unterstützen Entwickler zudem bei Aufgaben wie Datenfilterung, Audiosynchronisation und Meta-Tagging. Wer tiefer einsteigen möchte, findet auf Hugging Face alle Ausgangsdaten.

Fazit: Demokratisierte Sprach-KI für Europa und die Welt

Der Launch von Granary, Canary und Parakeet markiert zweifellos einen Meilenstein für die Zukunft mehrsprachiger KI-Modelle. Statt wie bisher auf proprietäre Daten und Ressourcen zu setzen, können Entwickler nun auf ein offenes, qualitativ hochwertiges System zurückgreifen, das Effizienz, Vielfalt und Skalierbarkeit in sich vereint. Gerade kleinere Regionen, Firmen oder Forschungseinrichtungen gewinnen dadurch neue Handlungsspielräume im Umgang mit Sprache und Technologie.

NVIDIA liefert also nicht „nur“ ein neues Sprachmodell, sondern den Fahrplan zu einer paneuropäischen KI-Zukunft, die allen Sprachen mehr Sichtbarkeit gibt – unabhängig davon, wie weit verbreitet sie sind. Und wer weiß: Vielleicht kann ein Schüler aus Estland bald mit einem KI-basierten Lernassistenten in seiner Muttersprache arbeiten.

Weitere themenverwandte Beiträge findest du in unserer Rubrik Künstliche Intelligenz.

Häufige Fragen zu Granary, Canary und Parakeet

Quelle: https://blogs.nvidia.com/blog/speech-ai-dataset-models/

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen
Logitech Zone 300: Revolutionäres kabelloses Headset für Home Office Entdecke Destiny 2: „Echos“ – Start, Inhalte und Belohnungen Wie man Steam-Spiele effektiv deinstalliert und Speicherplatz freigibt Entdecke die Hama Outdoor-Kamera: Sicherheit und Komfort Erlebe die Thrustmaster Airshow 2: Virtuelle Kunstflug-Show mit Gewinnspiel