Innovation der Maschinenübersetzungssysteme feiert 10 Jahre

Wer heute moderne Software zur Maschinenübersetzung von Texten verwendet, nutzt wahrscheinlich unbewusst eine Erfindung des deutschen Informatikers Philipp Koehn. Seine innovative Methode „Statistical Phrase-Based Translation“ (statistische phrasenbasierte Übersetzung) beschrieb er erstmals vor zehn Jahren im Sammelband einer Konferenz.

Philipp Koehn stellt sich vor
Bei Klick auf das Bild wird das Video von der Plattform Vimeo abgespielt. Es gilt die Datenschutzerklärung von Vimeo.

Während bis dahin Softwareprodukte Sätze praktisch nur Wort für Wort mit Berücksichtigung von eingelernten Grammatikregeln übersetzen konnten, basiert Koehns Modell auf Statistik:

Aufgrund der Auswertung von Dokumenten in verschiedenen Sprachen lernen die Computer in den Texten automatisch Satzsegmente und ihre entsprechende Übersetzung in der zweiten Sprache erkennen. Die Software analysiert dann ausgehend von diesen Erkenntnissen und Wortstellungsregeln den zu übersetzenden Text und schlägt die wahrscheinlichsten – in großer Textmenge im jeweiligen Kontext am häufigsten vorkommenden – Übersetzungsvarianten der einzelnen Segmente vor. Der letzte Schritt ist eine sinnvolle Zusammensetzung der Segmente in einen den Grammatikregeln entsprechenden Satz in der Zielsprache.

Aus der Logik der Sache ergibt sich, dass die größte Herausforderung die Auswahl richtiger Segmentkombination ist: Sofern im Satz mit 30 Wörtern für jedes 2. bis 5. Wort mehrere Varianten bestehen, können wir gleich auf mehrere Millionen Übersetzungsvarianten dieses Satzes kommen.

Dieser Vorgang kann in die Teiletappen „Sprachmodell – Training – Dekodierung“ zusammengefasst werden. Darauf basieren praktisch alle gegenwärtigen Algorithmen der Maschinenübersetzung auf dem Markt.

Zwecks Einlernens des Koehnschen Systems der ersten Generation wurden von menschlichen Übersetzern übersetzte stenographische Protokolle der Plenarsitzungen des Europäischen Parlaments im Zeitraum 1996–2012 verwendet.

Koehn bietet ein eigenes Maschinenübersetzungssystem als Open-Source-Software auf der Plattform Moses an. Die nutzt auch das Europäische Parlament, seitdem es die menschliche Übersetzung der stenographischen Protokolle eingestellt hat.