Meta bringt Lingála ins digitale Zeitalter
204 Sprachen verstehen und übersetzen – das neue KI-Sprachmodell eines internationalen Forschungsteams soll genau das leisten. Im Mittelpunkt stehen vor allem die weniger bekannten Sprachen, die oft vernachlässigt werden.
Weltweit gibt es etwa 7.000 Sprachen, doch die bekanntesten KI-Sprachmodelle beherrschen oft nur einen Bruchteil davon, meist 30 bis maximal 80 Sprachen. Ein internationales Forschungsteam, unterstützt vom Meta-Konzern (bekannt durch Facebook und Instagram), will dies ändern. Ihr neues KI-Modell kann mit 204 Sprachen umgehen. Dieses universelle Übersetzungsprogramm soll es bald ermöglichen, mit „beliebigen Personen überall auf der Welt und in jeder Sprache zu kommunizieren“, so Meta. Aber wie soll das funktionieren?
Wikipedia nutzt das KI-Modell bereits
Mehr als 20 Millionen Menschen in Zentralafrika sprechen Lingála, doch es gibt nur wenige tausend Wikipedia-Artikel in dieser Sprache. Wer nur wenige und weit verbreitete Sprachen spricht, profitiert heute oft nur begrenzt vom Internet. Gute KI-Übersetzungsprogramme könnten dies ändern. Wikipedia nutzt bereits Metas KI-Modell NLLB (No Language Left Behind). Wikipedia-Mitarbeiter verwenden das KI-Tool zum Übersetzen und Bearbeiten von Artikeln. So könnten Menschen in Zukunft trotz unterschiedlicher Sprachen miteinander kommunizieren – das ist die Vision.
Wie Künstliche Intelligenz neue Sprachen lernt
Damit KI-Modelle künftig auch seltener gesprochene Sprachen beherrschen, wurde das Training verändert. Bei den gängigsten Sprachen kann das KI-Modell auf Millionen von Textbeispielen zurückgreifen. Bei ressourcenärmeren Sprachen sind es oft nur wenige tausend Beispiele. Deshalb hat das Forschungsteam einen Algorithmus entwickelt, der Parallelen zwischen verschiedenen Sprachen erkennt. Mit diesen Gemeinsamkeiten wurde das KI-Tool gezielt trainiert.
Ein wichtiger Punkt ist, dass das Übersetzungsmodell trotz der neuen Sprachen insgesamt nicht schlechter wird. Bisher wurden bei KI-Modellen auch die Übersetzungen bei sehr verbreiteten Sprachen schlechter, wenn die KI mit Datensätzen seltener Sprachen trainiert wurde. Fachleute sprechen von einer Überanpassung: Die KI kann dann mehr Sprachen, aber in jeder einzelnen etwas schwächer. Um diesen Leistungsabfall zu vermeiden, wurde das Modell aufgeteilt und die selteneren Sprachen auf Basis der häufigeren trainiert.
Warum die KI am Anfang kontrolliert werden muss
Um anstößige und vulgäre Inhalte zu verhindern, müssen Regeln und Listen erstellt werden. Das Forschungsteam erstellt für jede Sprache eine Negativliste. Wie gut die KI übersetzt, wird durch den Vergleich mit manuell übersetzten Sätzen bewertet. Meta sieht sich im Vergleich zu bisherigen KI-Modellen im Vorteil. Andere Anbieter bieten weniger Sprachen in ihren Übersetzungstools an. So unterstützt Metas NLLB-Modell derzeit 71 Sprachen mehr als Google Translate.
Grammatikbücher sollen KI weiter verbessern
Das KI-Tool übersetzt mittlerweile in konstanter Qualität auch ressourcenärmere Sprachen. „Allerdings ist die Qualität dieser Übersetzungen immer noch viel schlechter“, schreibt KI-Forscher David Adelani in einem „Nature“-Artikel über das Forschungsprojekt. In Zukunft könnte die KI beim Training mit Grammatikbüchern und Wörterbüchern gefüttert werden. Eine neue Studie über Googles KI-Modell Gemini zeigt diesen Ansatz.
Meta hat sein KI-Modell unter einer Open-Source-Lizenz veröffentlicht. Vielleicht haben bald alle Menschen einen gleichberechtigten Zugang zum Internet, unabhängig von der Sprache, die sie sprechen. Es scheint nur eine Frage der Zeit zu sein, bis wir uns mit jedem austauschen können – ganz ohne Sprachbarrieren. Und wer weiß, vielleicht lernen wir dabei auch noch ein paar exotische Flüche, um uns elegant aus misslichen Lagen zu befreien!
4o
