Skip to main content Skip to main navigation
DFKI Sprachtechnologie© DFKI, Berlin

Speech and Language Technology

Themenfeld: Text Analytics

In der heutigen Welt wächst die Menge an Informationen, die auf Webseiten, sozialen Medien und in digitalen Dokumenten digital verfügbar sind, jeden Tag erheblich. Die Analyse und Nutzung dieser Informationen ist ein kritischer Prozess in vielen Anwendungsbereichen – Business Intelligence, medizinische Entscheidungsfindung, Kundenbetreuung, Wissensmanagement und Prävention von Cyberkriminalität. Die überwiegende Mehrheit dieser Informationen liegt jedoch in Form von unstrukturiertem, geschriebenem Text vor, der nicht ohne weiteres automatisch von einem Computerprogramm analysiert werden kann

Das Gebiet der Textanalytik, einem Teilgebiet der Verarbeitung natürlicher Sprache, zielt darauf ab, zu verstehen, wie Menschen natürliche Sprache verwenden, um Informationen und Wissen zu vermitteln. Es entwickelt Techniken und Modelle zu entwickeln, die es Computerprogrammen ermöglichen, Informationen und Wissen aus unstrukturierten Textdokumenten zu extrahieren und in strukturierter Form zur Weiterverarbeitung durch computergestützte Anwendungen verfügbar zu machen. Beispielsweise kann die Entdeckung unerwünschter Arzneimittelwirkungen aus öffentlichen Patientenforen die öffentliche Gesundheit und die Patientensicherheit bei der Medikamenteneinnahme verbessern, und die automatische Überwachung von Nachrichten im Zusammenhang mit dem Lieferantennetzwerk eines Unternehmens kann das Lieferkettenrisikomanagement verbessern, und eine schnellere Entscheidungsfindung ermöglichen.

Eine große Herausforderung bei der Textanalytik besteht darin, dass menschliche Sprachverwendung implizit ist – sie lässt Informationen aus. Das Füllen dieser Informationslücke erfordert kontextuelles Schlussfolgern, Hintergrund- und Allgemeinwissen sowie Schlussfolgern über den situativen Kontext. Sprache entwickelt sich zudem ständig weiter, d.h. sie spezialisiert und verändert sich im Laufe der Zeit. Daher erfordert Sprachverständnis auch eine kontinuierliche und effiziente Anpassung an neue Sprachen und Domänen – und den Transfer zu und zwischen beiden. Gegenwärtige Textanalytikmethoden konzentrieren sich jedoch auf Sprachen und Domänen mit vielen Ressourcen, verwenden wenig bis gar keinen Kontext und gehen von statischen Daten-, Aufgaben- und Labelverteilungen aus.

Die Forschung des DFKI Speech & Language Technology Lab zielt darauf ab, diese Herausforderungen anzugehen. Unsere Arbeit in der Textanalytik konzentriert sich auf Kernforschung zur Domänenanpassung, Lernen in Umgebungen mit geringen Ressourcen, Schlußfolgern über größere Kontexte, kontinuierliches Lernen, sowie multilingualen Modellen; in Domänen wie Gesundheit/Medizin, Industrie und Mobilität. Wir streben ein tieferes Verständnis der menschlichen Sprache und des menschlichen Denkens an, mit dem Ziel, neuartige Methoden zur Verarbeitung und Generierung von Text, Sprache und Wissen in menschlicher Sprache zu entwickeln.

Zu diesem Zweck kombinieren wir tiefgreifende linguistische Analysen mit modernstem maschinellem Lernen und neuronalen Ansätzen für NLP.

Weitere wichtige Aspekte unserer Arbeit sind die Erstellung annotierter Korpora zum Training und zur Evaluation von NLP-Modellen, die (linguistische) Bewertung von NLP-Datensätzen und -Aufgaben sowie die Erklärbarkeit von (neuronalen) Modellen. Wir arbeiten an Grundlagen- und angewandter Forschung in, unter anderem, Informationsextraktion und Wissensbasispopulation, Stimmungsanalyse, Textklassifizierung und Zusammenfassung. Viele unserer State-of-the-Art-Forschungsergebnisse werden der Community auf github.com/DFKI-NLP/ frei zur Verfügung gestellt. Weitere Informationen zu unseren Projekten, Coderepositorien, und Datensätzen finden Sie unter dfki-nlp.github.io .

Ausgewählte Projekte:

  • Cora4NLP - Kontextuales Denken und Adaptieren für die Verarbeitung natürlicher Sprache
  • PLASS - Plattform für Analytical Supply Chain Management Services
  • BiFOLD - Berlin Institute for the Foundations of Learning and Data
  • XAINES

Code und Modelle