100 Mio. Wörter mit EU Council Presidency Translator übersetzt!

19.11.2020 | Sprache & Textverstehen | Sprachtechnologie und Multilingualität | Saarbrücken

Interview mit Prof. Dr. Josef van Genabith, Forschungsbereichsleiter Multilinguale Sprachtechnologien am DFKI in Saarbrücken, über Maschinelle Übersetzung und den EU Council Presidency Translator, der im Rahmen der deutschen EU-Ratspräsidentschaft seit Juli 2020 eingesetzt wird.

- Herr Prof. van Genabith, Sie sind Wissenschaftlicher Direktor am DFKI und leiten seit 2014 den Forschungsbereich Multilinguale Sprachtechnologien (MLT) in Saarbrücken. Wie sah Ihre wissenschaftliche Laufbahn aus, bevor Sie nach Saarbrücken gewechselt sind?
Die Erfolge des EU Council Presidency Translators sind ein schöner Anlass für unser MLT Team und unsere Partner bei DeepL, Tilde und eTranslation! Ich bin sehr stolz auf die Teams und die Arbeit die sie in enger Abstimmung mit den Auswärtigen Amt geleistet haben! Ich selber habe mich schon sehr lange für Sprache und Technologie interessiert, Elektrotechnik und Anglistik an der RWTH Aachen studiert und danach großes Glück gehabt: über ein Stipendium des British Council und später des Foreign & Commonwealth Office konnte ich an der University of Essex zuerst einen MA machen und dann bei Louisa Sadler promovieren. Anfang der 90er Jahre war ich dann als PostDoc bei Hans Kamp am Institut für Maschinelle Sprachverarbeitung (IMS) in Stuttgart. Eine tolle Zeit! Danach war ich 17 Jahre in Irland an der School of Computing, Dublin City University und habe dort die ganze Palette von Lecturer, Senior Lecturer und Associate Professor durchlaufen. In Dublin hatte ich viele Freiheiten und tolle Kolleginnen und Kollegen an der DCU, den anderen Universitäten in Dublin und den vielen in Irland ansässigen HighTech-Unternehmen (IBM, Microsoft, Symantec), und wir konnten diese Freiheiten nutzen: ich habe das National Center for Language Technology (NCLT) wiederaufgebaut und war der Gründungsdirektor des CNGL (Center for Next Generation Localisation, nun ADAPT und von Vinny Wade geleitet). Durch diese Arbeiten und besonders das CNGL sind wir Anfang der zweiten Hälfte der 2000-2010 Jahre immer mehr in internationale Projekte z.B. der EU involviert worden, in denen der vorherige Leiter unseres Labs in Saarbrücken, Hans Uszkoreit, sehr aktiv war. Durch Hans Uszkoreit, der in der Zwischenzeit das Schwesterlab in Berlin (heute SLT, von Sebastian Möller geleitet) aufgebaut hatte, bin ich 2014 nach 17 Jahren in Irland nach Saarbrücken und ans DFKI gekommen.

- Neben Ihrer Tätigkeit am DFKI haben Sie auch einen Lehrstuhl an der Universität des Saarlandes. Wie ergänzen sich die akademischen und die anwendungsorientierten Arbeiten?
Das wichtigste in unserer Arbeit sind die Mitarbeiterinnen und Mitarbeiter: durch sie wird unsere Arbeit ein Erfolg! Meine Uni- und DFKI-Mitarbeitenden arbeiten gemeinsam und bunt gemischt in Teams. In unseren wöchentlichen gemeinsamen Meetings macht es keinen Unterschied, ob jemand am DFKI oder an der Uni ist. Wir sind Teil des SFB1102 (Information Density and Linguistic Encoding) an der Uni, haben ein DFG-Projekt an der Uni zu multimodalem Post-Editing, wo wir sehr erfolgreich mit Prof. Antonio Krügers DFKI-Team zusammenarbeiten; ich leite das europäische Masterprogramm in Language and Communication Technology (LCT, Erasmus+), das von einer meiner Leitungsmitarbeiterinnen am MLT-Lab (DFKI) über ein Uniteilzeitstelle vorzüglich gemanagt wird. Alle meine DFKI-Leitungsmitarbeiter und -Mitarbeiterinnen in den vier MLT-Gruppen Machine Translation, Question Answering and Information Extraction, Talking Robots und Data and Resources unterichten, geben Seminare und bilden PhD-, MSc- und BSc-Studierende aus. Genauso sind viele Mitarbeitende der MLT-Teams an der Uni aktiv. Natürlich ist formal und finanziell alles sauber in Projekte getrennt. Aber die Verbindung zur Uni ist sehr stark. Das „Language Science and Technology“-Department an der Universität des Saarlandes ist eines der Besten in Europa. Wir im MLT-Lab am DFKI sind äußerst forschungsstark: wir haben in 2020 z.B. mehr als 10 Papiere auf den in unserem Bereich wichtigsten internationalen Hauptkonferenzen (ACL, ICML, EMNLP, COLING, IJCAI) im Bereich Sprachtechnologie, KI und Maschinelles Lernen publiziert. Das ist ein großer Erfolg und zeigt die Qualität der Teams. Auf der anderen Seite ist die anwendungs-orientierte Forschung des DFKI eine Attraktion für Studierende, Wissenschaftlerinnen und Wissenschaftler der Universität: wo sonst wird die eigene Arbeit so wie z.B. im EU Council Presidency Translator öffentlich für alle sichtbar so genutzt, dass 100 Million Wörter binnen 4,5 Monaten (bis heute) übersetzt werden? Das ist schon toll!

- Der EU Council Presidency Translator hat in Deutschland die Sichtbarkeit für die Leistungen der Maschinellen Übersetzung weiter befördert. Er ist eine Gemeinschaftsleistung von mehreren Akteuren, aber Sie haben dieses Projekt geleitet. Wann haben Sie die Arbeit aufgenommen? Wie haben Sie das Konsortium zusammengestellt? Und wie viele Wissenschaftler waren eingebunden?
Der EU Council Presidency Translator ist eine sehr europäische Lösung, die zeigt, dass Europa gemeinsam im Bereich Sprachtechnologie und KI international auf höchstem Level mehr als konkurrenzfähig ist: sie beruht auf einer Kombination von herausragender High-Tech- und KI-Expertise in Deutschland (DeepL, DFKI), Lettland (Tilde) und der EC (eTranslation). Eine Partnerschaft zwischen Industrie (DeepL, Tilde), der öffentlichen Hand (EC, eTranslation) und eines Forschungsinstituts (DFKI). Das DFKI leitet das Projekt, die Förderung kommt vom Auswärtigen Amt, das die Federführung in der deutschen EU-Ratspräsidentschaft innehat. Dabei ergänzen sich die Kompetenzen der Konsortiumsmitglieder ideal: Tilde hat über viele Jahre mit europäischer Förderung das Grundgerüst des Presidency Translators, in das die Übersetzungsmaschinen vieler Anbieter integriert werden, entwickelt und steuert eigene Übersetzungsmaschinen bei. DeepL bietet für 8 Sprachen Übersetzungsmaschinen in herausragender Qualität an. eTranslation (der EC) stellt eine maschinelle Übersetzungs-Grundversorgung für alle 24 offiziellen EU-Sprachen bereit. In enger Zusammenarbeit mit den Übersetzungsstäben der Ministerien hat das DFKI speziell auf die Daten und Bedürfnisse der Ministerien abgestimmte maschinelle Übersetzungssysteme zu Deutsch, Französisch und Spanisch entwickelt. Tilde macht dies für Englisch, Italienisch und Polnisch. Am DFKI betreut Stephan Busemann den Presidency Translator administrativ. Ich leite die wissenschaftlichen und technischen Aspekte. Cristina España Bonet, die Leiterin des MT-Teams im MLT-Lab und ihre Mitarbeiterin Jingyi Zhang entwickeln die Systeme. Dabei werden sie von zwei Studentinnen, Damyana Gateva und Anastasija Amman, aus dem MSc Programm „Language Science and Technology“ der Universität unterstützt. Das DFKI leitet auch die Outreach- und Medienarbeit des Presidency Translators. Dies wird von Eileen Schnur und ihrer Kollegin Marlies Thönnissen im MLT-Team betreut und von der DFKI-Abteilung für Unternehmenskommunikation tatkräftig unterstützt.

- Sie verwenden künstliche neuronale Netze für die Übersetzung. Können Sie bitte skizzieren, wie Ihre Übersetzungsmaschine arbeitet?
Neuronale Modelle haben in den letzten Jahren Quantensprünge in der Qualität vieler Sprachtechnologien und anderer Anwendungen in der KI ermöglicht. Unsere Systeme benutzen tiefe neuronale Netze, die auf Transformer-Modellen beruhen. Diese Modelle nutzen verschiedene Arten von Attention und sind in weiten Teilen hoch parallelisierbar.

- Künstliche neuronale Netze werden mit sehr großen Mengen von Sprachdaten trainiert - getestet. Woher kommen diese Trainings- und Testdaten und nur als Schätzung, um wie viele laufende Wörter handelt es sich dabei?
Für viele Sprachpaare bestehen unsere Trainingsdaten aus Dutzenden von Millionen von Satzpaaren, wobei jedes Satzpaar einen Ausgangsatz in einer Sprache und dessen Übersetzung in die andere Sprache beinhaltet. Daraus lernen die Maschinen, selber zu übersetzen. Diese Daten beruhen auf schon von Menschen angefertigten Übersetzungen. Die Maschine lernt also von Menschen. Die Daten kommen aus Datensammlungen der EU, von ELRC (der European Language Resource Coordination, die wir auch am MLT am DFKI leiten) und anderen Quellen. Zusätzlich arbeiten wir sehr eng mit den Übersetzungsteams der Ministerien, um mit Daten der Ministerien Spezialmaschinen zu erstellen, die besonders auf die Bedürfnisse der Ministerien ausgerichtet sind. Diese werden von den Übersetzerinnen und Übersetzern der Ministerien ständig evaluiert, so dass sie im Laufe des Projekts kontinuierlich verbessert werden können.

- Der Presidency Translator wurde in den letzten 150 Tagen von den Nutzer*innen intensiv eingesetzt. Dabei wurden über 100 Millionen Wörter übersetzt. Welches waren die nachgefragtesten Sprachpaare? Und gab es auch vielleicht auch Sätze, die besonders häufig vorkamen?
Im Gegensatz zu anderen Angeboten ist der Presidency Translator sicher und abgesichert, alle Server stehen in der EU, Übertragungen sind verschlüsselt, und nach einer erstellten Übersetzung werden alle Daten sofort gelöscht. Wir haben also nur High-Level-Information zur Nutzung. Die Zahlen zeigen, dass die Ein-Klick-Übersetzung der deutschsprachigen Webseite der Ratspräsidentschaft sehr gut angenommen wird: ca 47% der 100 Millionen bisher übersetzten Wörter kommen hierdurch zustande. Bevorzugte Zielsprachen der maschinellen Übersetzung auf der Webseite der Ratspräsidentschaft sind Spanisch, Italienisch und Portugiesisch (französische und englische Fassungen wurden manuell erstellt). Die etwas größere Hälfte resultiert aus Text- (22%), Dokument- (30%) und Webseitenübersetzungen (2%) auf der Translator-Seite, und hier wird die Übersetzung zwischen deutsch und englisch am meisten verlangt.

- Was sagen die Übersetzer*innen zu der neuen Qualität der maschinellen Übersetzung? Sehen Übersetzer die Maschinen als Konkurrenten oder als Werkzeuge, die ihre Arbeit unterstützen? Und wie verändert sich das Berufsbild des Übersetzers?
Wir arbeiten in dem „EU Council Presidency Translator“-Projekt sehr eng mit den Kolleginnen und Kollegen der Übersetzungsstäbe der Ministerien zusammen: sie leiten die Datensammlung und -bereitstellung innerhalb der Ministerien, um die Spezialmaschinen auf die Bedürfnisse der Ministerien abzustimmen. Zusätzlich testen und evaluieren sie die Spezialmaschinen und tragen durch ihre Ergebnisse zentral zur Verbesserung der Systeme bei. Im Arbeitsablauf der Übersetzung sind die Maschinen dann ein Hilfsmittel: bei einer guten Übersetzungsqualität kann die Maschine helfen, die Produktivität eines menschlichen Übersetzers zu steigern. Dabei verändert sich das Berufsbild des Übersetzers hin zu Qualitätskontrolle, zur Qualitätssicherung durch das Nacheditieren (Berichtigen) von automatisch erstellten Übersetzungen und zur Zertifizierung von Übersetzungen und deren Qualität. Die moderne Übersetzerausbildung trägt diesen Veränderungen Rechnung: der Übersetzungsstudiengang „Translation Science and Technology“ an der Universität des Saarlandes hat einen hohen Technologieanteil, in dem die angehenden Übersetzerinnen und Übersetzer mit Sprachtechnologien vertraut gemacht werden, die von ihren Mitstudierenden in den Computerlinguistik- (Language Science and Technology) und Informatikstudiengängen entwickelt werden.

- Die deutsche EU-Ratspräsidentschaft endet am 31.12.2020. Wie wird der Presidency Translator im Anschluss genutzt? Und unabhängig davon, was sind Ihre weiteren Pläne?
Der Presidency Translator ist außerordentlich gut angenommen worden und hat alle bisherigen Rekorde der vorherigen Presidency Translator übertroffen. Ich bin sehr stolz auf das, was das MLT- Team am DFKI zusammen mit den Kolleginnen und Kollegen bei DeepL, Tilde und eTranslation geleistet hat! Es besteht großes Interesse, den Presidency Translator auf weiteren Ratspräsidentschaften einzusetzen. Gespräche dazu sind im Gange. Es besteht zudem großes Interesse seitens der Industrie an deutscher und europäischer Sprachtechnologie: Sprachtechnologie und KI “made in Europe“. Die maschinelle Übersetzung ist nur eine der Kompetenzen in unserem MLT-Lab: andere sind die der „Question-Answering and Information Extraction“-Gruppe (insbesondere im biomedizinischen Bereich), die der Talking-Robots-Gruppe (die sich auf Dialogsysteme und Rettungsrobotik konzentriert) und die der „Data and Resources“-Gruppe (die große EU-Projekte wie ELRC seit vielen Jahren leitet). Dazu kommt unser Schwesterlab SLT (Speech and Language Technology) in Berlin. Die beiden Labs (MLT in Saarbrücken und SLT in Berlin) arbeiten eng zusammen und ergänzen sich in ihrer Expertise.

Hier geht's zum Presidency Translator