Die Dokumentenverarbeitung stellt einen großen Teil des täglichen Arbeitsaufkommens in Unternehmen dar und bietet ein hohes Potenzial zur Optimierung und Automatisierung. Ziel des Projekts Taxas (Tax-aware Intelligent Document Analytics) ist in diesem Zusammenhang die Entwicklung von Deep Learning basierten Methoden zur Dokumentenverarbeitung, wobei zwei Teilbereiche fokussiert werden. Zunächst umfasst dies die Dokumentenklassifikation, um Dokumente automatisiert einem Typ zuzuordnen. Die zweite Komponente stellt die Informationsextraktion von relevanten Informationen aus semi- und unstrukturierten Dokumenten dar. In zugehörigen Forschungsbereichen konnten in den letzten Jahren deutliche Entwicklungssprünge erzielt werden, u.a. durch Errungenschaften im Bereich Deep Learning. Zum einen haben diese Errungenschaften aber oft noch keine weite Verbreitung in der Praxis gefunden, zum anderen fehlt eine adäquate Betrachtung von domänenspezifischen Anforderungen. In diesem Zusammenhang wird im Projekt erforscht, inwiefern entsprechende Methoden für den Steuerbereich optimiert werden können, indem insbesondere Anforderungen der Steuerdomäne adressiert werden. Bei der steuerlichen Verarbeitung einer Rechnung ist zum Beispiel relevant, welche Rechnungspositionen vorliegen und welche Steuersätze für die jeweiligen Positionen angesetzt werden. Die Zusammenhänge zwischen Beschreibungstext, Steuersatz und anderen Elementen einer Rechnungsposition werden in herkömmlichen Methoden allerdings nicht explizit ausgenutzt. Zum Beispiel kann für ein KI-Modell das Erkennen entsprechender Elemente Hinweise darauf geben, dass in unmittelbarer Nähe weitere Elemente wie ein Beschreibungstext vorliegen müssen, was ohne diese Berücksichtigung potenziell nicht erkannt worden wäre. Die Integration steuerlicher Zusammenhänge bietet somit Potenziale zur Verbesserung der KI-basierten Dokumentenverarbeitung für den Praxiseinsatz.
Partner
DATEV eG