Skip to main content Skip to main navigation

Projekt | Accurat

Laufzeit:

Analysis and Evaluation of Comparable Corpora for Under-Resourced Areas of Machine Translation

Das Projekt zielt auf die Erforschung von Methoden und Techniken zur Überwindung eines der zentralen Probleme in der Maschinellen Übersetzung (MÜ) - das Fehlen der sprachlichen Ressourcen (z. B. Trainingsdaten) für bestimmte Bereiche der MÜ, in denen solche Ressourcen essentiell wichtig sind.Die Projektidee besteht darin, die Verwendung vergleichbarer (nicht-paralleler) Texte zum Training von statistischer maschineller Übersetzung zu untersuchen. Unser Ziel ist es, Methoden zu finden und zu bewerten, wie vergleichbare Texte den Mangel an parallelen Corpus-Daten in ressourcen-armen Sprachen und spezifischen Anwendungsbereichen ausgleichen können. Modelle, die aus vergleichbaren Texten generiert werden, werden mit aus Parallelcorpora erzeugten Baseline-Modellen verglichen werden.

Partner

  • Tilde, LV (Coordinator)
  • University of Sheffield, UK
  • University of Leeds, School of Modern Languages and Cultures, Centre for Translation Studies, UK
  • Institute for Language and Speech Processing, GR
  • University of Zagreb, HR
  • German Research Center for Artificial Intelligence, Language Technology Lab, DE
  • Research Institute for AI, Romanian Academy, Romania
  • Linguatec, Germany
  • Zemanta, Slovenia

Publikationen zum Projekt

  1. Hybrid Parallel Sentence Mining from Comparable Corpora

    Sabine Hunsicker; Radu Ion; Dan Stefanescu

    In: Proceedings of the 16th Annual Conference of the European Association for Machine Translation. Annual Conference of the European Association for Machine Translation (EAMT-12), May 28-30, Trento, Italy, 2012.

Fördergeber

EU - Europäische Union

EU - Europäische Union