Computerlinguistische Verfahren zur satzsemantischen Analyse, die weit über die bekannten Möglichkeiten der Volltextsuche in Textdokumenten hinaus gehen, wurden am DFKI im Rahmen des Projekts TAKE (Technologies for Advanced Knowledge Extraction; gefördert vom BMBF) entwickelt.
In der Searchbench, einem Suchinterface, das über einen Webbrowser bedient wird, können Benutzer strukturierte Anfragen in der Form "Subjekt-Prädikat-Objekt" stellen, zum Beispiel "method improves precision" oder auch nur verkürzt als "improve precision". Im Passiv formulierte Aussagen werden dabei automatisch auch in im Aktiv formulierten Anfragen berücksichtigt, so dass auch die Konstruktion "precision is improved by... method" gefunden wird. Sogar nach ähnlichen Aussagen auf Basis von Synonymen kann man suchen.
Der große Vorteil einer satzsemantischen Suche liegt dabei in der Präzision der Treffer: Sie sucht nach kompletten Aussagen, was bedeutet, dass Textfragmente gar nicht erst angezeigt werden, in denen die Worte der Suchanfrage ohne semantischen Zusammenhang vorkommen, also nur zufällig nahe beieinander liegen.
Die Suche ignoriert auf Wunsch im Text negierte Aussagen, wobei die Negation sogar auf Wortebene auftreten kann und auch antonyme Verben (mit gegensätzlicher Bedeutung) erfasst werden. Resultate werden stets im Satzkontext präsentiert und mit dem Acrobat-Reader-Plugin auch in einem PDF-Dokument hervorgehoben. Suchanfragen können im Web-Browser als Lesezeichen abgelegt oder per E-Mail verschickt werden.
Anwendbar ist diese Technologie auf technische oder wissenschaftliche Dokumente, Patente, enterprise repositories, digitale Bibliotheken, Nachrichtenarchive, und viele andere.
Die Searchbench kombiniert die satzsemantische Suche mit Metadaten-Filtern, welche die automatische Vervollständigung von Suchbegriffen und eine facettierte Navigation unterstützen. Das System kann so als leistungsfähiges, präzisionsorientiertes Suchwerkzeug für große Textmengen eingesetzt werden. Fachbegriffe einer Inhaltsdomäne können aufgrund statistischer Eigenschaften ohne explizites Wissen über diesen Bereich automatisch extrahiert werden. Diese Begriffe können dann als zusätzliche Suchkriterien fungieren.
Die strukturierte Textindexierung auf Basis von Apache Solr ermöglicht hochskalierbare, effiziente Anwendungen auch bei großen Dokumentmengen, wobei Analyse und Suche auch in gescannten Dokumenten funktionieren. Die Searchbench-Verfahren können allerdings nicht nur der semantischen Suche dienen, sondern auch als Grundlage für weitere innovative, semantikorientierte Anwendungen. Bereits weit ausgereift sind automatische Termextraktion sowie darauf aufbauend Taxonomie- und Glossarextraktion aus solchen Textsammlungen. Möglich sind darüber hinaus automatische Fragebeantwortung und Textzusammenfassung, kontrollierte Sprach- bzw. Stilprüfung und vieles mehr.
Partner
- "DFG Cluster of Excellence Multimodal Computing and Interaction (M2CI)
- Robust, Efficient and Intelligent Processing of Text, Speech, Visual Data and High Dimensional Representations
- Open Science Web":http://www.mmci.uni-saarland.de/index.php?id=1&L=0
- Delph-In DEEP LINGUISTIC PROCESSING WITH HPSG Initiative