Speech and Language Technology

Linguistic Data Science

Die linguistische Datenwissenschaft behandelt die empirischen Aspekte der Linguistik wie beispielsweise Korpusannotationen oder statistische Auswertungen von Sprachdaten mit linguistischen Verfahren.

Ein wichtiges Thema dieses Forschungsfeldes, mit dem sich dass Speech and Technology Lab beschäftigt, ist die Frage, wie man Textqualität beschreibt.

Obwohl die Qualitätsbewertung in der Linguistik eine lange Tradition hat, hat es dieses Thema noch nicht in den Mainstream der Sprachtechnologieforschung geschafft. Einer der Gründe dafür könnte sein, dass bestehende Methoden typischerweise auf menschlicher Bewertung basieren, welche jedoch in technischen Entwicklungszyklen schwierig zu operationalisieren ist. Eine weitere Herausforderung ist die Tatsache, dass Textqualität (wie so viele andere Qualitätskonzepte) kein intrinsisches und endgültiges Merkmal des untersuchten Texts ist, sondern vielmehr aus der Anwendung durch Menschen in bestimmten Kontexten entsteht, wie z.B. Kommunikationsziel, Wahrnehmungssituation oder Untersuchungsschwerpunkt.

Dennoch macht die zunehmende Reife textgenerierender KI-Systeme in Kombination mit dem Bedarf an erfolgreicher Mensch-Maschine-Kommunikation in vielen Lebensbereichen die Textqualitätsmessung im weiteren Sinne zu einem mehr als geeigneten Kandidaten der NLP-Forschung

Unsere eigene Forschung in diesem Bereich umfasst verschiedene Arten von maschinell erstelltem Text, sowie menschlich erstelltem und von Maschinen verarbeiteten Text. Unser Ziel ist es, die potenziell hohe Anzahl von Einflussfaktoren abzudecken, indem wir verschiedene Arten von Evaluierungsmethoden entwickeln, wie beispielsweise:

multidimensionale subjektive Methoden für Textqualität, durchgeführt in Labor- und Crowdsourcing-Studien,
Methoden für die Messung von Textkomplexität,
Tools für die automatische Analyse und Evaluierung von Text,
Challenge Sets/Test Suites für die detaillierte Evaluierung von maschinell erstelltem Text (z.B. maschinelle Übersetzung)
Vorhersagemodelle für die Leistung von NLP-Modulen und verschiedene Qualitätsaspekte von maschinell erstelltem Text.

Relevante Schlüsselwörter:

Quality of Experience, User Experience/Nutzungserfahrung
Qualitätsmessung, subjektive Testverfahren, automatische Vorhersagemodelle
Qualitätsdimensionen, Textmerkmale
maschinell generierter Text
Qualitätswahrnehmung, Qualitätsvorhersage
Evaluation von maschineller Übersetzung

Ausgewählte Projekte:

Links

Sprachtechnologie am DFKI