Skip to main content Skip to main navigation

Projekt | Deependance

Laufzeit:
Deep Dependency-Oriented Analysis  with Non-Discrete Constraints

Deep Dependency-Oriented Analysis with Non-Discrete Constraints

Ziel dieses Projektes ist es, die bestehenden Methoden für die generische tiefe linguistische Analyse zu verbessern, insbesondere die für viele Sprachtechnologie-Anwendungen benötigte syntaktische und semantische Analyse. Wir werden ein Modell für eine Dependenzgrammatik entwickeln, das die Darstellung erfolgreicher, datengesteuerter Dependenzanalyse-Schemata durch zusätzliche, linguistische und kognitive Elemente erweitert, wie ein getyptes Merkmalssystem, explizite „weiche“ Constraints, die Verwendung sowohl semantischer als auch syntaktischer Dependenzen sowie Methoden für inkrementell produzierte Teilergebnisse.

Wir werden das Wissen, das in der bestehenden deutschen HPSG-Grammatik des Labs und in der frei verfügbaren English Resource Grammar (ERG) der Universität Stanford integriert ist, in die geplante, voll lexikalisierte Dependenz¬grammatik importieren. Dies ist durch die konsequente und konsistente Verwendung einer mehrfach¬vererbenden Typ-Hierarchie als alleinige Grundlage für das gesamte kodierte linguistische Wissen möglich. Durch die Neudefinition aller lexikalischen Kategorien werden die bestehenden Lexika automatisch in das neue Format konvertiert. Die bestehenden HPSG-Grammatiken für Deutsch und Englisch werden auch als Vergleichsgrundlage dienen.

Die Abdeckung der Grammatiken wird durch Lernen von nativen oder aus geeigneten Baum-banken konvertierten Dependenzbanken erweitert. Das Lexikon wird durch eine daten-gesteuerte Vorhersage der lexikalischen Kategorien erweitert.

Die Analyse wird inkrementell und lokal sein (innerhalb eines Fensters von 3-5 Wörtern). Die lokale Entscheidungsfindung wird auf den aus der Dependenzbank erlernten Präferenzen beruhen. Es werden mehrere alternative Analysemodelle implementiert und getestet, welche im Sinne von übergangsbasierten Ansätzen der Dependenzanalyse beeinflusst werden.

Die Grammatikentwicklung wird zwischen einer eher strengen und eng reglementierten Kern-grammatik, die als Ausgangspunkt für viele Anwendungen eingesetzt werden kann, und robusten, anwendungsspezifischen Erweiterungen dieser Kerngrammatik unterscheiden.

Der neue Ansatz wird in zwei Anwendungen getestet: (i) diagnostische Grammatik¬prüfung für Übungen und Prüfungen in Computergestütztem Sprachenlernen (CALL) und (ii) Informationsextraktion aus komplexen Relationen, einschließlich Ereignissen und Meinungen.

Publikationen zum Projekt

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

BMBF - Bundesministerium für Bildung und Forschung