Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) hat bei einigen menschlichen Aufgaben beeindruckende Leistungen erbracht. Um eine solche Leistung zu erreichen, müssen aktuelle neuronale Modelle auf riesigen Mengen von Rohtextdaten vortrainiert werden. Diese Abhängigkeit von unkuratierten Daten hat mindestens vier indirekte und unbeabsichtigte Auswirkungen, die für unser Proposal relevant sind:
1) Unkuratierte Daten sind aufgrund der statistischen Dominanz der wichtigsten Sprachen und Dialekte in Online-Texten (Englisch vs. Nordfriesisch, US-Englisch vs. UK-Englisch usw.) in der Regel sprachlich und kulturell nicht vielfältig.
2) Vortrainierte neuronale Modelle wie die allgegenwärtigen vortrainierten Sprachmodelle (PLM) reproduzieren die in den Daten vorhandenen Merkmale, einschließlich menschlicher Biases.
3) Seltene Phänomene (oder Sprachen) im "Longtail" werden bei der Modellbewertung oft nicht ausreichend berücksichtigt, was zu einer Überschätzung der Modellleistung führt, insbesondere in realen Anwendungsszenarien.
4) Die Konzentration auf die Erzielung von State-of-the-Art-Ergebnissen durch den Einsatz von Transfer-Learning mit riesigen PLM wie GPT4 oder mT5 unterschätzt häufig alternative Methoden, die leichter zugänglich, effizienter und nachhaltiger sind.
Da Inklusion und Vertrauen durch diese Probleme untergraben werde, knonzentrieren wir uns in TRAILS auf drei Hauptforschungsrichtungen, um solche Probleme zu beheben: (i) Einbeziehung unterrepräsentierter Sprachen und Kulturen durch mehrsprachiges und kultursensibles NLP, (ii) Robustheit und Fairness in Bezug auf Long-Tail-Phänomene und -Klassen sowie "vertrauenswürdige Inhalte" und (iii) robuste und effiziente NLP-Modelle, die das Training und den Einsatz von Modellen für (i) und (ii) ermöglichen. Wir gehen auch teilweise auf die wirtschaftliche Ungleichheit ein, indem wir effizientere Modelle anstreben (Ziel (iii)), was sich direkt in einem geringeren Ressourcen-/Kosten-Fußabdruck niederschlägt.