Ziel ist die Entwicklung, Implementation und Evaluation einer neuartigen Systemarchitektur, die die Kombination verschiedener Sprachtechnologien für eine Reihe praktischer Anwendungen erlaubt. Sprachtechnologien bieten verschiedenartige Möglichkeiten für eine partielle Analyse von Texten, die für Information Retrieval, Information Extraction, Language Checking und viele weitere Anwendungen genutzt werden können. Die Verarbeitungsmethoden und -werkzeuge unterscheiden sich auf vielerlei Dimensionen, zum Beispiel bezüglich der Ebenen linguistischer Beschreibung, der Tiefe der Analyse oder der Art, in der Wissen abgeleitet wird (linguistisch oder statistisch). Die Funktionalität der Methoden ist häufig überlappend, sie unterscheiden sich jedoch in ihren Stärken und Schwächen. Eine der schwierigsten Aufgaben der Sprachverarbeitung ist die Suche nach optimalen Kombinationen heterogener Techniken und Verarbeitungskomponenten - die Herausforderung für das Whiteboard-Projekt. Die neue Architektur, die entwickelt und untersucht wird, basiert auf dem Konzept eines annotierten Textes. Die verschiedenen LT-Komponenten reichern einen mit XML annotierten Text mit Meta-Information, die ebenfalls in XML kodiert ist, an. Jede Komponente kann vorher zugewiesene Annotationen nutzen oder unbeachtet lassen. Die WHITEBOARD-Architektur besteht aus einer einzigen geteilten Datenstruktur, die gleichzeitig Input, Zwischenrepräsentation und Output des Systems ist. Die beabsichtigte Architektur ermöglicht die pragmatische Kombination verschiedener Verarbeitungsansätze, wobei neue Wege der Kombination flacher und tiefer Verarbeitungsmethoden aufgezeigt werden.
- WHITEBOARD wird auf existierenden Komponenten des DFKI-LT aufbauen: Das morphologische Verarbeitungssystem Morphix, die Tagger und Phrasen-Parser TnT und Chunkie, das Information Extraction System SMES, das effiziente HPSG Parsing-System PET, HPSG-Grammatiken für Deutsch, Englisch (Standfords Lingo Grammatik) und Japanisch, das System FLAG für Controlled Language Checking.
- Zwei Anwendungen werden zum Zweck der Evaluation und Demonstration der Ergebnisse realisiert. Eine dieser Anwendungen ist Information Extraction. Da das automatische Verstehen ganzer Texte für absehbare Zeit nicht erreichbar zu sein scheint, ist die Strategie eine graduelle Erweiterung unserer IE-Technologie.
- Die zweite Anwendung ist Controlled Language Checking. Auch hier können wir von der heutigen Technologie keine vollständige und korrekte Analyse eines gesamten Texts erwarten. Wir könnten allerdings in der Lage sein, unsere tiefe Analyse in der Art zu spezialisieren, daß sie in bestimmten Umgebungen, die für die korrekte Diagnose und Korrektur von Fehlern relevant sind, mit ausreichender Präzision eingesetzt werden kann.