Die WMT startete 2006 als Workshop zum Thema statistische Maschinelle Übersetzung (MT) mit der Idee, einen klar definierten und kontrollierten Rahmen zu schaffen um MT-Technologien zu evaluieren und konsequent zu verbessern. Die MT-Technologien werden dabei in verschiedenen Dimensionen, den sogenannte „Shared Tasks“, evaluiert. Jede dieser gemeinsamen Aufgaben beinhaltet die Erstellung und Verteilung von Trainingsdaten, die Erstellung von Testdaten, die Definition eines Evaluierungsprotokolls, die Infrastruktur zur Erfassung von Teilnehmerbeiträgen sowie die automatische und manuelle Bewertung der Beiträge. Am Ende stehen die Veröffentlichung der Ergebnisse für die einzelnen Aufgaben und eine Rangfolge aller Einsendungen.
Die zentrale Aufgabe ist die Übersetzung von Nachrichten. Bei dieser Aufgabe erhält jeder Teilnehmer eine Reihe von Quellsätzen für ein bestimmtes Sprachpaar (z.B. Englisch – Deutsch), die sein System übersetzen soll. Um den Wettbewerb so realistisch wie möglich zu gestalten, werden die Texte aus allgemeinen Zeitungen in den jeweiligen Sprachen entnommen. Um die Vergleichbarkeit der Technologien zu gewährleisten und um Verfälschungen der Ergebnisse zu reduzieren, erhalten alle Teilnehmer die gleichen Trainingsdaten, mit denen sie ihr System trainieren können. Zusätzlich berücksichtigt die WMT auch die etablierten online Übersetzungs-Systeme wie z.B. Google Translate oder Bing Translators etc.; ein automatischer Prozess erlaubt es, deren Übersetzungen systematisch in das Testset einzufügen, so dass ein direkter Vergleich mit diesen MT-Systemen möglich ist.
Die Auswertung erfolgt auf zwei Arten; die automatische maschinelle Bewertung basiert auf einer vordefinierten Metrik wie BLEU oder TER, die manuelle Bewertung erfolgt durch das Sammeln großer Mengen subjektiver Beurteilungen der Übersetzungsqualität durch menschliche Kommentatoren.
Die WMT bietet sowohl Forschungseinrichtungen aber auch kommerziellen Systemen die Möglichkeit, Beiträge einzureichen, deren MT-Technologien zu bewerten und Lösungsansätze zu vergleichen. Darüber hinaus wird das Know-how in Systemdokumentationen und in einem allgemeinen Ergebnispapier veröffentlicht.
Einen Paradigmenwechsel im Bereich der Maschinellen Übersetzung stellte die Einführung tiefer neuronaler Netze bei der WMT 2016 dar. Das QT21-System nutzte die neue Technologie, verbessert diese und definierte damit einen neuen Stand der Technik. QT21 gewann alle Übersetzungsaufgaben und bewirkte insbesondere große Verbesserungen für die Übersetzung morphologisch reicher Sprachen wie etwa Deutsch und Tschechisch. Insbesondere übertraf QT21 die Systeme von Google Translate und Bing Translator.
Möglich wurde dieser Durchbruch durch das Training tiefer neuronaler Netze in Verbindung mit einem Vorverarbeitungsschritt, der künstliche Subworteinheiten oder -segmente auf Basis des Byte-Paar-Codierungsalgorithmus von Gage, 1994, erzeugt, bei dem statt der Zusammenführung häufiger Byte-Paare, Zeichen oder Zeichenfolgen miteinander verschmolzen werden.
Zwei Monate nach diesem historischen Durchbruch im Jahr 2016 setzte auch Google Translate, unter öffentlicher Anerkennung der geleisteten Arbeit in Europa, auf neuronale Netze. In der Liste der 6 relevantesten Papiere zu Googles Verbesserungen war eins der Hauptpapiere das von QT21.
Beim diesjährigen Shared Tasks Wettbewerb der WMT17 (7.-8. September 2017) konnte QT21 seine Pole Position bei fast allen Sprachpaaren halten. Wie in Abbildung 1 zu sehen, holen Online-Systeme 2017 zwar auf, aber selbst die riesigen Datenmengen, mit denen sie ihre neuronalen Netze trainieren können, reichen nicht aus, um den technologischen Vorsprung von QT21 zu übertreffen.
QT21 steht für Quality Translation 21, wobei 21 die 22 europäischen Sprachen minus Englisch meint. Das Ziel des Forschungs- und Innovationsprojektes ist es, die Qualität der Übersetzungstechnologien für schwierige Sprachen zu verbessern wie etwa morphologisch reiche Sprachen (z.B. Deutsch, Tschechisch), Sprachen mit freier Wortfolge (z.B. Tschechisch) und Sprachen mit weniger Ressourcen (z.B. Lettisch, Rumänisch). Zu den QT21-Partnern gehören führende europäische Forschungsteams sowie Unternehmen aus den Bereichen Sprachtechnologie und Übersetzungsdienstleistungen. Koordiniert wird das Projekt vom Forschungsbereich Multilinguale Technologien des DFKI unter der Leitung von Prof. Dr. Josef van Genabith.
QT21 Partner:
- Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI)
- Rheinisch-Westfälische Technische Hochschule Aachen (RWTH)
- Universiteit van Amsterdam (UvA)
- Dublin City University (DCU)
- University of Edinburgh (UEDIN)
- Karlsruher Institut für Technologie (KIT)
- Centre National de la Recherche Scientifique (CNRS)
- Univerzita Karlova v Praze (CUNI)
- Fondazione Bruno Kessler (FBK)
- University of Sheffield (USFD)
- TAUS b.v. (TAUS)
- text & form GmbH (TAF)
- TILDE SIA (TILDE)
- Hong Kong University of Science and Technology (HKUST)
Kontakt:
Prof. Dr. Josef van Genabith
Deutsches Forschungszentrum für Künstliche Intelligenz, DFKI
Forschungsbereichsleiter Multilinguale Technologien
Josef.van_Genabith@dfki.de
Tel.: +49 681 85775 5282
Dr. Christian Dugast
Christian.Dugast@dfki.de
Tel.: +49 151 22 333 432