Projekt

CORA4NLP

Ko(n)textuelles Schließen und Anpassung an den Kontext bei der Verarbeitung natürlicher Sprache

Ko(n)textuelles Schließen und Anpassung an den Kontext bei der Verarbeitung natürlicher Sprache

  • Laufzeit:

Sprache ist implizit - sie lässt Informationen aus. Um diese Informationslücke zu füllen, sind kontextabhängige Inferenz, Hintergrund- und Allgemeinwissen sowie Schlussfolgerungen über den situativen Kontext erforderlich. Zudem entwickelt sich Sprache weiter, d.h. sie spezialisiert und verändert sich im Laufe der Zeit. Zum Beispiel gibt es viele verschiedene Sprachen und Domänen, neue Domänen entstehen, und beides entwickelt sich ständig weiter. Daher erfordert Sprachverständnis auch eine kontinuierliche und effiziente Anpassung an neue Sprachen und Domänen und den Transfer zu und zwischen beiden. Aktuelle sprachtechnologische Methoden des Sprachverstehens konzentrieren sich jedoch auf ressourcenreiche Sprachen und Domänen, verwenden wenig bis keinen Kontext und gehen von statischen Daten-, Aufgaben- und Zielverteilungen aus.

Die Forschung in Cora4NLP adressiert diese Herausforderungen.. Sie baut auf der Expertise und den Ergebnissen des Vorgängerprojekts DEEPLEE auf und wird gemeinsam von den sprachtechnologischen Forschungsabteilungen in Berlin und Saarbrücken durchgeführt. Konkret ist es unser Ziel, Methoden des natürlicher Sprachverstehens zu entwickeln, die folgendes ermöglichen:

  • Schlussfolgerungen über breitere Ko- und Kontexte;
  • effiziente Anpassung an neuartige und/oder ressourcenarme Kontexte;
  • kontinuierliche Anpassung an und Generalisierung über sich verändernde Kontexte.

Um dies zu erreichen, verfolgen wir die folgenden Forschungsrichtungen:

  • Speicher- und sprachmodellbasiertes few- und zero-shot learning;
  • Selbst- und schwach-überwachtes Pre-Training für ressourcenarme Domänen und Long-Tail-Klassen;
  • mehrsprachige, Intra- und Inter-Dokument-, sowie Dialog-Kontext-Repräsentationen;
  • Integration von strukturiertem Domänenwissen, Hintergrund- und Allgemeinwissen;
  • Kontinuierliches Lernen für Open-Domain- und überwachte Aufgaben;
  • multi-hop kontextuelles Schlussfolgern.

Die resultierenden Methoden werden im Kontext verschiedener Aufgaben zum Verstehen natürlicher Sprache angewendet, wie z.B. Informationsextraktion, Fragebeantwortung, maschinelle Übersetzung und Dialog.

Fördergeber


01IW20010

Projekt teilen auf:

Ansprechpartner
Prof. Dr. Stephan Busemann
Prof. Dr. Stephan Busemann

Publikationen zum Projekt

Stalin Varanasi, Saadullah Amin, Günter Neumann

In: The 2021 Conference on Empirical Methods in Natural Language Processing. Conference on Empirical Methods in Natural Language Processing (EMNLP-2021) Findings of EMNLP November 7-11 Punta Cana Dominican Republic The Association for Computational Linguistics 209 N. Eighth Street Stroudsburg, PA 18360 USA 11/2021.

Zur Publikation
Jörg Steffen, Josef van Genabith

In: Heike Adel , Shuming Shi (Hrsg.). Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Conference on Empirical Methods in Natural Language Processing (EMNLP-2021) November 7-11 Punta Cana Dominican Republic Seiten 28-34 Association for Computational Linguistics 11/2021.

Zur Publikation
Sharmila Upadhyaya, Siyu Tao, Natalia Skachkova, Tatiana Anikina, Cennet Oguz, Ivana Kruijff-Korbayová

In: Sopan Khosla , Ramesh Manuvinakurike , Vincent Ng , Massimo Poesio , Michael Strube , Carolyn Rosé (Hrsg.). Proceedings of the CODI-CRAC 2021 Shared Task on Anaphora, Bridging, and Discourse Deixis in Dialogue. Workshop on Computational Models of Reference, Anaphora and Coreference (CRAC-2021) befindet sich EMNLP 2021 November 10-11 Punta Cana Dominican Republic Seiten 63-70 Association for Computational Linguistics 11/2021.

Zur Publikation

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence