Das Projekt zielt auf die Erforschung von Methoden und Techniken zur Überwindung eines der zentralen Probleme in der Maschinellen Übersetzung (MÜ) - das Fehlen der sprachlichen Ressourcen (z. B. Trainingsdaten) für bestimmte Bereiche der MÜ, in denen solche Ressourcen essentiell wichtig sind.Die Projektidee besteht darin, die Verwendung vergleichbarer (nicht-paralleler) Texte zum Training von statistischer maschineller Übersetzung zu untersuchen. Unser Ziel ist es, Methoden zu finden und zu bewerten, wie vergleichbare Texte den Mangel an parallelen Corpus-Daten in ressourcen-armen Sprachen und spezifischen Anwendungsbereichen ausgleichen können. Modelle, die aus vergleichbaren Texten generiert werden, werden mit aus Parallelcorpora erzeugten Baseline-Modellen verglichen werden.
Partner
- Tilde, LV (Coordinator)
- University of Sheffield, UK
- University of Leeds, School of Modern Languages and Cultures, Centre for Translation Studies, UK
- Institute for Language and Speech Processing, GR
- University of Zagreb, HR
- German Research Center for Artificial Intelligence, Language Technology Lab, DE
- Research Institute for AI, Romanian Academy, Romania
- Linguatec, Germany
- Zemanta, Slovenia