Open-Source Projekt Masakhane: KI und maschinelles Übersetzen für die Transformation Afrikas

Südafrika

Afrikanische Sprachen sind in der digitalen Welt wenig oder gar nicht repräsentiert. Millionen Sprecher*innen von Kiswahili, isiZulu, Tshiluba und Co. sind damit von digitalen Möglichkeiten und Informationen ausgeschlossen. Ein Open-Source-Projekt tüftelt deshalb an KI-Lösungen für maschinelle Übersetzungen.

Masakhane bedeutet „Wir bauen gemeinsam auf“ in isiZulu, einer von 2.140 Sprachen, die auf dem gesamten afrikanischen Kontinent gesprochen werden. Außerdem ist das der Name eines kontinentübergreifenden Open-Source-KI-Projekts. Das Masakhane-Projekt hat die Entwicklung neuronaler maschineller Übersetzungssystemen zum Ziel, mit denen die afrikanischen Sprachen auf die technologische Landkarte gebracht und die vielfältigen und zahlreichen Sprachpopulationen Afrikas miteinander verbunden werden sollen. Der Gedanke dahinter: Die vierte industrielle Revolution in Afrika kann nicht auf Englisch stattfinden. Doch viele der digitalen Tools und Dienste, die weltweit boomen, sind derzeit hauptsächlich in Englisch oder anderen wichtigen westlichen Sprachen verfügbar. Auch wenn in Afrika Millionen von Menschen Englisch, Französisch und Portugiesisch sprechen, gibt es doch Tausende anderer Sprachen, die auf dem Kontinent gesprochen werden und von der digitalen Welt und den damit verbundenen Möglichkeiten und Informationen ausgeschlossen sind.

Salomon Kabongo, der sich 2019 als Vertreter der Tshiluba-Sprache (die in Zentralafrika und der Demokratischen Republik Kongo gesprochen wird) dem Masakhane-Projekt angeschlossen hat, weist zum Beispiel darauf hin, dass viele Kongolesen in seinem Land weder Französisch noch Englisch, sondern die kongolesischen Nationalsprachen Lingala, Tshiluba, Kikongo und Suaheli sprechen. Die Smartphones, die sie benutzen, verfügen zwar über fortschrittliche Technologie wie Siri, Google Talk und Alexa, doch die Spracherkennung ist nicht auf ihre Muttersprachen programmiert. Dasselbe gilt für die Informationen im Internet. Zwar rühmt sich die Wikipedia dafür, ein Depot für offene Informationen zu sein, doch bestimmte Sprachen sind dramatisch unterrepräsentiert. So sind mehr als drei Millionen Wikipedia-Artikel in Schwedisch geschrieben, obgleich es nur 9,6 Millionen Schwedisch sprechende Menschen weltweit gibt. Die Oromo-Sprache hingegen hat 34 Millionen Sprecher*innen in Äthiopien, die Wikipedia enthält aber lediglich 786 Artikel in dieser Sprache. Und Google Translate, das beliebteste maschinelle Übersetzungs-Tool, übersetzt derzeit 103 der 7.000 Sprachen der Welt – aber nur 13 davon sind afrikanische Sprachen. Salomon Kabongos Vision ist es, diese Technologien und digitalen Ressourcen auch in den kongolesischen Muttersprachen verfügbar zu machen und damit den Menschen, die von sprachlicher Ausgrenzung betroffen sind, eine Welt voller Möglichkeiten zu eröffnen. Und genau hier kommt Masakhane ins Spiel.

Sprachdaten für den afrikanischen Kontinent

Das Masakhane-Projekt zielt auf den Aufbau einer Gemeinschaft und die Stärkung der linguistischen Datenverarbeitung (LDV) in den afrikanischen Muttersprachen ab. LDV ist ein Bereich der Künstlichen Intelligenz, in dem Systeme und Computeralgorithmen aufgebaut werden, die die menschliche Sprache automatisch verstehen, analysieren, verarbeiten und auch erzeugen können. Die maschinelle Übersetzung (Machine Translation, MT) ist nur ein Beispiel für ein LDV-basiertes System, andere Anwendungen umfassen Spracherkennung, automatische Vorhersage, Korrektur und Stimmungsanalyse, um nur einige zu nennen.

Wie bei allen maschinellen Lernmodellen muss eine effektive maschinelle Übersetzung mit riesigen Mengen von „Trainingsdaten“ gefüttert werden, um adäquate Ergebnisse zu erzielen. Eine der größten Herausforderungen im Zusammenhang mit afrikanischen Sprachen besteht darin, dass sie „ressourcenschwach“ sind, dass also diese wichtigen Sprachdaten fehlen, verstreut oder nicht öffentlich zugänglich sind.

In der Welt der neuronalen maschinellen Übersetzung werden die Dokumente, die zur Erstellung der benötigten Datensätze dienen, als Korpora bezeichnet. Parallele Textkorpora – große Mengen von Texten, die Satz für Satz in mehreren Sprachen äquivalent sind – sind ein großer Vorteil, wenn es darum geht, maschinelle Übersetzungsmodelle zu trainieren. Parallelkorpora sind in den großen westlichen Sprachen kein Mangel, weil zum Beispiel die Politiken und Dokumente der Europäischen Union qualitativ hochwertige, von Menschen übersetzte Parallelkorpora in einer großen Vielfalt von EU-Sprachen bieten. Für afrikanische Sprachen fehlen solche Parallelkorpora jedoch, was reale Auswirkungen auf die Verfügbarkeit von Informationen im Internet hat.

Um diese Probleme in Angriff zu nehmen, arbeiten die über 100 Mitglieder des Masakhane-Teams daran, ihre eigenen Korpora zusammenzustellen. Gemeinsam mit Gruppen wie „Translators Without Borders“ suchen sie so viele öffentlich zugängliche Datensätze – wie Regierungsdokumente, religiöse Texte, Literatur und Nachrichten – wie möglich zusammen. Diese Daten verwenden sie dann zur Entwicklung und maschinellen Übersetzung von Modellen aus dem Englischen in ihre afrikanischen Muttersprachen. Alle von ihnen erstellten Datensätze und Übersetzungsmodelle sind Open Source und jeder kann sie verwenden oder zum Projekt beitragen. „Diese Forschungsarbeit ermöglicht es jedem, vom kleinsten afrikanischen Startup über NGOs bis hin zu großen Unternehmen und Forschenden, innerhalb und außerhalb des Kontinents, von den erarbeiteten Datensätzen und dem aufgebauten Fachwissen zu profitieren“, so die Gründerin Jade Abbott.

Bislang wurden im Rahmen des Masakhane-Projekts Basismodelle von 16 afrikanischen Sprachen auf der Software-Entwicklungsplattform GitHub entwickelt. Geplant ist die Veröffentlichung von drei sich im Entstehungsprozess befindlichen Publikationen bei der achten ICLR in Addis Abeba, Äthiopien, im April 2020. Die ICLR (International Conference on Learning Representations) versammelt Fachleute, die im Bereich der Künstlichen Intelligenz, dem so genannten Representation Learning, einem Aspekt des maschinellen Lernens, arbeiten.

Quelle: Digital for Good

Zur Projektwebsite

Branchen

Einsatzfelder

Wertschöpfungsaktivitäten

Technologiefelder

Zur Weltkarte

Zur Liste der projekte

Die Informationen zu den KI-Projekten sind unverbindlich. Wir übernehmen keine Garantie für Richtigkeit oder Vollständigkeit. Wir laden Sie herzlich dazu ein, uns jederzeit Projekte und Anfragen per E-Mail zu senden. Wir schätzen Ihr Feedback und sind offen für Ideen. Kontakt: info@cyberlago.net.