BULB – Die Überwindung der ungeschriebenen Sprachbarriere

Während immer mehr Sprachen vom Aussterben bedroht sind und Linguisten kaum effiziente Werkzeuge zur Sprachdokumentation haben, versucht Breaking the Unwritten Language Barrier (BULB), die Dokumentation ungeschriebener Sprachen durch moderne Sprachverarbeitungstechnik zu unterstützen, insbesondere durch automatische Spracherkennung und maschinelle Übersetzung.

Das ANR/DFG Projekt basiert auf enger französisch-deutscher Kooperation zwischen Linguisten und Informatikern vom ZAS (F. Hamlaoui), dem KIT (S. Stüker) und der Universität Stuttgart (S. Zerbian) auf deutscher Seite, sowie vom LPP (M. Adda-Decker), dem LIG (L. Besacier) und dem IMMI-CNRS (G. Adda) auf französischer Seite. Die Forscher/innen und ihre Teams bringen ihre Expertise zusammen, um die Dokumentation dreier größtenteils ungeschriebenen und unterversorgten afrikanischen Sprachen der Bantufamilie in Angriff zu nehmen: Basaa (Kamerun), Myene (Gabon) und Embosi (Republik Kongo).

In der ersten Phase des Projekts werden große Sprachkorpora (mindestens 100 Stunden/Sprache) mithilfe einer dreistufigen Methode von S. Bird und M. Liberman gesammelt:

  • Stufe 1: Sammlung erhobener und natürlicher Sprache (Geschichten, Dialoge, Radio/TV Beiträge)
  • Stufe 2: Präzise Wiederholung durch eine/n Referenzsprecher/in, um akkuratere automatische phonetische Transkriptionen zu gewährleisten
  • Stufe 3: mündliche Übersetzung ein eine weitverbreitete Sprache (in diesem Fall Französisch), um den Dokumentationsprozess zu beschleunigen

Diese Phase wird von F. Hamlaoui koordiniert und betrifft hauptsächlich die linguistischen Mitarbeiter am ZAS (E.-M. Makasso, J. Engelmann, C. Ngo Sohna und H. Salfner), am LLACAN, LPP, LIG und der Universität Stuttgart.

Die Teams am LIMSI und dem KIT entwickeln sprachunabhängige Phonetikerkennungssysteme um automatisch präzise Transkriptionen zwischen Ausgangssprache (Basaa/Embosi/Myene) und Zielsprache (Französisch) zu erstellen. Im Anschluss werden die Teams am IMMI-CNRS und dem KIT Ausgangs- und Zielsprache mittels maschineller Übersetzung paaren. Diese Paare liefern wertvolle Daten für phonetische und morphologische Untersuchungen.

Zusätzlich zur Bereicherung der linguistischen Dokumentation unterstützt BULB die Erhaltung linguistischer und kultureller Vielfalt. Gemeinschaften werden mit Werkzeugen (Schrifsysteme, Wörterbücher, Grammatiken) versorgt, die den wahrgenommenen Wert ihrer ungeschriebenen Sprachen erhöhen, ihren Nutzen in einem weiteren Kontext erhöhen und somit helfen, sie vor dem Verschwinden zu bewahren. 

LIG-Aikuma

Ein wichtiger Bestandteil des BULB Projekts ist die Entwicklung einer effizienten Applikation zur Datensammlung durch unsere Partner am LIG (CNRS)LIG-Aikuma ist ein Werkzeug zur Aufnahme, Neueinsprechung und Übersetzung basierend auf der Aikuma App von S. Bird et al. Das Programm zeichnet sich durch eine übersichtliche und intuitive Oberfläche aus, die speziell für 10-Zoll Bildschirme (Tablets) erweitert wurde. Es bietet Möglichkeiten der Spracherhebung mittels Texten, Bildern und Videos. Weitere Features werden momentan entwickelt, LIG-Aikuma wird jedoch schon jetzt zur Feldforschung verwendet.

Es kann hier kostenlos heruntergeladen werden.

Partner