Die meisten sprachverarbeitenden Systeme verwenden heutzutage Vektordarstellungen von Wörtern und Sätzen, sogenannte Wort- und Satzeinbettungen. Das Ziel hierbei ist eine abstrakte Darstellung der Semantik bei gleichzeitiger Dimensionsreduktion zu erhalten. Bei der Verarbeitung von Sprache in Kombination mit Sehen oder anderen sensorischen Modalitäten werden in ähnlicher Weise multimodale Einbettungen verwendet. Zwar verkörpern Einbettungen eine Form semantischer Verwandtschaft, doch deren Natur wird nicht expliziert. Das Fehlen präziser semantischer Deutlichkeit kann sich negativ auf nachgelagerte Verarbeitung auswirken.
IMPRESS untersucht die Integration von semantischem Wissen in sprachliche und multimodale Einbettungen und die erwarteten Verbesserungen für ausgewählte nachgelagerte Sprachverarbeitung. IMPRESS entwickelt Open-Source-Software und lexikalische Ressourcen, wobei der Schwerpunkt auf Videoaktivitätserkennung als praktische Anwendung liegt. Die meisten Forschungsarbeiten zu multimodalen Einbettungen verwenden Englisch als sprachliche Modalität. IMPRESS wird zusätzlich Französisch und Deutsch aufnehmen.
Partner
- DFKI 2. INRIA