Skip to main content Skip to main navigation

Projekt

HIT

Hybride Informationsextraktion aus Texten

Hybride Informationsextraktion aus Texten

  • Laufzeit:

Qualitativ hochwertige Informationsextraktion ist ein wesentlicher Stützpfeiler der sich rasant entwickelnden globalen Informations- und Wissensgesellschaft. Zur Zeit werden dafür entweder regelbasierte oder statistische Verfahren verwendet. Die statistischen Verfahren sind vielfach performanter und als die regelbasierten Verfahren und können schneller aufgesetzt werden, doch weisen sie auch wesentliche Nachteile auf:

  • Man braucht einen großen Bestand an Musterlösungen zum Training,
  • Die Qualität der Ergebnisse kann meistens nur in aufwendigen „Trial & Error“-Verfahren beeinflusst werden,
  • Komplexe Entitäten werden vergleichsweise schlecht erkannt.

Ziel dieses Projekt ist die geschickte Verbindung von regelbasierten mit statistischen Verfahren, die alle drei Nachteile ausräumt. Zu diesem Zweck wird die erfolgreiche regelbasierte Kerntechnologie "SProUT" (http://sprout.dfki.de) zur flachen, multilingualen Textanalyse um wesentliche neue Funktionalitäten erweitert:

  • Flexible Verarbeitungsstrategien, die vom Benutzer konfiguriert werden können,
  • Einbeziehung statistischer Information in den constraintbasierten Formalismus,
  • Frei definierbare Workflows, die Ergebnisse aufgrund mehrerer Grammatiken kombinieren,
  • Komfortable Schnittstellen für die Integration externer Sprachtechnologien (z.B. Tokenisierer, morphologische Analyse),
  • Effiziente Verarbeitung von sehr großen Gazetteer-Datenbeständen,
  • Analyse von Tabellen,
  • Wechselseitige Integration von SProUT und GATE

Das Projekt HIT wird ein neues System, SProUT NG (NG bedeutet "nächste Generation"), hervorbringen, das im Anschluss bis zur professionellen Einsetzbarkeit weiterentwickelt wird. Das Projekt kondensiert seine Ergebnisse in einem Demonstrator, der anhand von Informationsextraktions-Anwendungen im Bereich von Vertragsprüfungen erprobt wird. Gleichzeitig werden in großer Zahl weitere Chancen für Sprachtechnologie-Anwender in Berlin und andernorts eröffnet.

Das Projekt wird vom Anwendungspartner Leverton GmbH koordiniert und in Berlin durchgeführt.

Das Projekt erhielt Fördermitttel des Europäischen Fonds für Regionale Entwicklung (EFRE) der Europäischen Union.

Partner

Leverton GmbH, DFKI GmbH

Fördergeber

Investitionsbank Berlin