Im Projekt TAKE sollen Sprach- und Wissenstechnologien für die schrittweise automatische Extraktion von Wissen aus dem World Wide Web angepasst, entwickelt und genutzt werden. Regelbasierte und statistische Methoden für die Sprachverarbeitung (NLP; natural language processing) werden kombiniert, um formalisiertes Wissen systematisch zu erweitern.
Als zentrale Technologie für dieses Vorhaben kommt semantisch gesteuerte, erweiterte Informationsextraktion zum Einsatz, insbesondere Relationsextraktion, d.h. semantische Beziehungen werden in großen Textmengen identifiziert. Relevante Relationen können mehreren Klassen wie z.B. Fakten, Definitionen, Ereignisse, Zitate und Meinungen angehören.
Im vorgeschlagenen Vorhaben sollen bestehende Ressourcen formalisierten linguistischen Wissens wie Lexika, Grammatiken und Morphologien ebenso genutzt werden wie Werkzeuge für die statistische Verarbeitung.
Die entwickelten Methoden, Architekturen und Systeme sollen in zwei Wissens-Domänen getestet und demonstriert werden:
- wissenschaftliche und technologische Literatur in einem ausgewählten Bereich der Forschung, hier der Sprachtechnologie, und
- allgemeine biografische Texte.
TAKE wird unter dem BMBF-Förderkennzeichen 01IW08003 gefördert.