Projekt | TRAILS

Laufzeit: 01.08.2024 - 31.07.2027

Vertrauenswürdige und integrative Maschinen

Forschungsthemen

Sprache & Textverstehen

Anwendungsfelder

Sonstige

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) hat bei einigen menschlichen Aufgaben beeindruckende Leistungen erbracht. Um eine solche Leistung zu erreichen, müssen aktuelle neuronale Modelle auf riesigen Mengen von Rohtextdaten vortrainiert werden. Diese Abhängigkeit von unkuratierten Daten hat mindestens vier indirekte und unbeabsichtigte Auswirkungen, die für unser Proposal relevant sind:

1) Unkuratierte Daten sind aufgrund der statistischen Dominanz der wichtigsten Sprachen und Dialekte in Online-Texten (Englisch vs. Nordfriesisch, US-Englisch vs. UK-Englisch usw.) in der Regel sprachlich und kulturell nicht vielfältig.

2) Vortrainierte neuronale Modelle wie die allgegenwärtigen vortrainierten Sprachmodelle (PLM) reproduzieren die in den Daten vorhandenen Merkmale, einschließlich menschlicher Biases.

3) Seltene Phänomene (oder Sprachen) im "Longtail" werden bei der Modellbewertung oft nicht ausreichend berücksichtigt, was zu einer Überschätzung der Modellleistung führt, insbesondere in realen Anwendungsszenarien.

4) Die Konzentration auf die Erzielung von State-of-the-Art-Ergebnissen durch den Einsatz von Transfer-Learning mit riesigen PLM wie GPT4 oder mT5 unterschätzt häufig alternative Methoden, die leichter zugänglich, effizienter und nachhaltiger sind.

Da Inklusion und Vertrauen durch diese Probleme untergraben werde, knonzentrieren wir uns in TRAILS auf drei Hauptforschungsrichtungen, um solche Probleme zu beheben: (i) Einbeziehung unterrepräsentierter Sprachen und Kulturen durch mehrsprachiges und kultursensibles NLP, (ii) Robustheit und Fairness in Bezug auf Long-Tail-Phänomene und -Klassen sowie "vertrauenswürdige Inhalte" und (iii) robuste und effiziente NLP-Modelle, die das Training und den Einsatz von Modellen für (i) und (ii) ermöglichen. Wir gehen auch teilweise auf die wirtschaftliche Ungleichheit ein, indem wir effizientere Modelle anstreben (Ziel (iii)), was sich direkt in einem geringeren Ressourcen-/Kosten-Fußabdruck niederschlägt.

Kontakt

Dr.-Ing. Leonhard Hennig

Leonhard.Hennig@dfki.de
Tel.: +49 30 23895 1821

Dr. Simon Ostermann

Simon.Ostermann@dfki.de
Tel.: +49 681 85775 5310

Keyfacts

Beteiligte Forschungsbereiche

Leitung

Prof. Dr. Josef van Genabith

Publikationen

Alle Publikationen

Building Common Ground in Dialogue: A Survey
Tatiana Anikina; Alina Leippert; Simon Ostermann
In: Proceedings of the Second LUHME Workshop. Workshop on Language Understanding in the Human-Machine Era (LUHME-2025), located at ECAI-2025, October 26, Bologna, Italy, Association for Computational Linguistics, 10/2025.
dfkinit2b at CheckThat! 2025: Leveraging LLMs and Ensemble of Methods for Multilingual Claim Normalization
Tatiana Anikina; Ivan Vykopal; Sebastian Kula; Ravi Kiran Chikkala; Natalia Skachkova; Jing Yang; Veronika Solopova; Vera Schmitt; Simon Ostermann
In: CLEF 2025 Working Notes. Conference and Labs of the Evaluation Forum (CLEF-2025), Information Access Evaluation meets Multilinguality, Multimodality, and Visualization, September 9-12, Madrid, Spain, CEUR Workshop Proceedings, 9/2025.
Cross-Lingual Fact Verification: Analyzing LLMs Performance Patterns Across Languages
Hanna Shcharbakova; Tatiana Anikina; Natalia Skachkova; Josef van Genabith
In: Recent Advanced in Natural Language Processing. International Conference on Recent Advances in Natural Language Processing (RANLP-2025), September 8-10, Varna, Bulgaria, Association for Computational Linguistics, 9/2025.

Projekt | TRAILS

Vertrauenswürdige und integrative Maschinen

Forschungsthemen

Anwendungsfelder

Kontakt

Keyfacts

Beteiligte Forschungsbereiche

Leitung

Publikationen

Building Common Ground in Dialogue: A Survey

dfkinit2b at CheckThat! 2025: Leveraging LLMs and Ensemble of Methods for Multilingual Claim Normalization

Cross-Lingual Fact Verification: Analyzing LLMs Performance Patterns Across Languages

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

01IW24005

Forschungsthemen

Anwendungsfelder

Projekt teilen auf:

Kontakt

Keyfacts

Beteiligte Forschungsbereiche

Leitung

Verwandte Projekte

Building Common Ground in Dialogue: A Survey

dfkinit2b at CheckThat! 2025: Leveraging LLMs and Ensemble of Methods for Multilingual Claim Normalization

Cross-Lingual Fact Verification: Analyzing LLMs Performance Patterns Across Languages

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

01IW24005