Language, Data and Knowledge Technologies
Sprachtechnologien können für eine Vielzahl von Anwendungsgebieten und Anwendungsfällen eingesetzt werden. Im Themenfeld Language, Data and Knowledge Technologies beschäftigen wir uns dabei mit allen notwendigen Technologiekomponenten, die für die Entwicklung und, im Anschluss, für die prototypische Demonstration und Nutzbarmachung oder den Wirkbetrieb notwendig sind.
In vielen Fällen basieren Sprachtechnologien auf maschinellen Lernverfahren, die in der Lage sind, statistische Modelle auf Basis speziell annotierter Sprach- und Textdaten zu lernen. Für diesen Zweck sammeln und kuratieren wir Datensammlungen, entwickeln für die jeweilige Aufgabe und Domäne adäquate Annotationsformate und wenden spezialisierte Werkzeuge für den Aufbau und die Evaluation annotierter Korpora an.
In Bezug auf die Methoden nutzen wir – abhängig vom Anwendungsfall – sowohl große Sprachmodelle als auch regelbasierte Methoden und konventionelle maschinelle Lernverfahren. Neben dem Einsatz vortrainierter Sprachmodelle sind wir auch mit der Entwicklung gänzlich neuartiger Sprachmodelle beschäftigt, wobei wir u.a. anstreben, große Sprachmodelle mit symbolischen Wissensrepräsentationsformaten zu kombinieren, um die jeweiligen Vorteile nutzbar zu machen, z.B. für den Bereich der Erklärbarkeit von Entscheidungen.
Die auf diese Weise entwickelten Technologien, Tools und Sprachressourcen wenden wir auf Basis skalierbarer Plattformen an, die auf modernen Microservices-Architekturen basieren und die standardisierte Formate und Schnittstellen für Kommunikation und Datenaustausch nutzen. Auch in die Entwicklung derartiger Sprachtechnologieplattformen sind wir involviert, wobei wir unter anderem bei der Zusammenführung der gesamten europäischen Sprachtechnologie-Community unter dem gemeinsamen Dach des European Language Grid (ELG) eine Führungsrolle einnehmen. Daneben sind wir auch an der Entwicklung der Nationalen Forschungsdateninfrastruktur (NFDI) sowie an Gaia-X beteiligt.
Wir bezeichnen die in den Projekten entstehenden Anwendungsprototypen als Kuratierungstechnologien. Dabei handelt es sich um KI-basierte Technologien, die die Verarbeitung digitaler Inhalte nicht nur vereinfachen und beschleunigen, sondern in neuartigen Anwendungsfällen wie z.B. Semantic Storytelling sogar erst ermöglichen. Zahlreiche Kuratierungstechnologien wurden bereits prototypisch erprobt und zwar in Domänen wie u.a. Journalismus, Medizin (speziell Covid-19), Bibliothek, Museen und Recht.
In Bezug auf die von uns entwickelten sprachtechnologischen Anwendungen konzentrieren wir uns aktuell auf die Anreicherung digitaler Inhalte (Content Enrichment), die Verknüpfung digitaler Inhalte mit externen Wissensgraphen (Content Linking), verschiedene Arten der Textklassifikation, automatische Textzusammenfassung und Frage-Antwort-Systeme, wobei wir langfristig insbesondere Wissensgraphen im Kontext großer Sprachmodelle nutzbar machen wollen – und umgekehrt.
Auch in Bezug auf die nationale und internationale Standardisierung sind wir aktiv, wobei wir insbesondere an der Entwicklung der Normungsroadmap Künstliche Intelligenz (DIN) sowie an verschiedenen Arbeitsgruppen des World Wide Web Consortiums (W3C) beteiligt sind, dessen deutsch-österreichisches Chapter von unserem Team geleitet wird.
Abschließend sind wir in leitender Funktion in Initiativen involviert, deren Anliegen es ist, die gesamte europäische Sprachtechnologie-Community zusammen zu führen und zugleich auch Technologien für die mehrsprachige digitale Gesellschaft Europas zu entwickeln, denn zahlreiche europäische Sprachen sind vom digitalen Sprachensterben bedroht. Wir wollen diese Situation in grundsätzlicher Weise ändern und bis zum Jahr 2030 digitale Sprachgerechtigkeit in Europa etablieren.
Aktuelle Projekte entwickeln u.a. Plattformen für Sprachtechnologien und Sprachressourcen (ELG) sowie Tools, Services und Technologien für die Kuratierung digitaler Inhalte (Content Curation) mit einem speziellen Fokus auf professionellen Nutzungskontexten in unterschiedlichen Branchen (QURATOR, PANQURA, Lynx, DKT). Hierfür nutzen wir sowohl wissensbasierte Verfahren (Wissensgraphen, Linked Data, Ontologien) als auch große Sprachmodelle, die wir auch selbst trainieren (SPEAKER, OpenGPT-X). Ein weiterer Arbeitsbereich beschäftigt sich mit der formalen Beschreibung und Standardisierung von Sprachtechnologien und Sprachressourcen, u.a. mit Bezug auf Open Data und Open Science sowie auf digitale Infrastrukturen für Forschung und Anwendung (ELG, OpenGPT-X, NFDI4DataScience).