Text2Tech

Projekt

Deep Learning-gestütztes Text Mining für Technologiemonitoring in der Automobilproduktion

Laufzeit:
01.05.2022 - 30.04.2025

Forschungsthemen
Lernende Systeme Sprache & Textverstehen

Anwendungsfelder
Mobilität Wissen & Business Intelligence

Die Beobachtung und Analyse von strategischen Entwicklungen im Umfeld der Technologiebasis von Produkten und Dienstleistungen eines Unternehmens ist in einer globalisierten Wirtschaft ein wettbewerbsentscheidender Erfolgsfaktor. Herkömmliche Tools zur Unterstützung dieser Aufgabe, wie das Technologieroadmapping oder Technologieradare, werden meist durch eine redaktionelle Aufbereitung marktrelevanter Datenquellen erstellt und gepflegt. Dies ist bei der sich rasch beschleunigenden, global verteilten F&E-Landschaft mit immer kürzeren Entwicklungszyklen, sowie der daraus resultierenden steigenden Daten- und Informationsmenge nur mit großem Ressourcenaufwand leistbar.

Ziel des Projekts Text2Tech ist die Erforschung und Entwicklung automatisierter Methoden zur Informationsextraktion aus unstrukturierten Textquellen, um Unternehmen entscheidungsrelevantes Wissen über Technologieentwicklungen rasch und effizient zur Verfügung stellen zu können. KI-basierte Verfahren zur Informationsextraktion (IE) ermöglichen es bereits jetzt, ausgewählte Informationen, z. B. zu Personen, Firmen und Orten automatisiert aus Textquellen zu gewinnen. Im Projekt Text2Tech sollen solche Ansätze weiterentwickelt werden, um maschinenlesbares Wissen über Technologien, Technologiekategorien, Firmen und ihren Beziehungen untereinander, aus deutsch- und englischsprachigen, domänenspezifischen Textquellen zu extrahieren, exemplarisch am Beispiel der Automobilbranche. Die wichtigsten Forschungsziele sind die Modellierung und “Befüllung” von domänenspezifischen Wissensgraphen (Knowledge Base Population), die Entwicklung von Verfahren zur cross-lingualen Eigennamenerkennung und Verlinkung (Named Entity Recognition bzw. Entity Linking), Relationsextraktion (Relation Extraction), sowie die Entwicklung von Modellkompressionsverfahren, sodass Modelle auch auf “kleiner” Hardware effizient laufen.

Das DFKI ist mit dem Bereichen SLT an dem Projekt beteiligt. Schwerpunkte der Arbeiten von SLT sind die Erforschung von Transferlernansätzen für Informationsextraktion, Domänenadaption, sowie Lernen und Modellevaluation in Szenarien mit wenig Daten.

Partner

Neofonie GmbH / OntoLux - inpro GmbH

Fördergeber

BMBF - Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie

01IS22017B

Kontakt

Publikationen zum Projekt

Leonhard Hennig; Philippe Thomas; Sebastian Möller

In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Annual Meeting of the Association for Computational Linguistics (ACL-2023), July 9-14, Online and Toronto, Canada, Pages 3785-3801, Association for Computational Linguistics, 7/2023.

Jan-Tilman Seipp; Felix Köhler; David Harbecke; Leonhard Hennig; Phuc Tran Truong

In: 13th Global TechMining Conference 2023 - Conference Proceedings. Global TechMining Conference, November 10, Global TechMining Conference, 2023.

Deep Learning-gestütztes Text Mining für Technologiemonitoring in der Automobilproduktion

Partner

Fördergeber

BMBF - Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie

01IS22017B

David Harbecke, M.Sc.

Dr.-Ing. Leonhard Hennig

Keyfacts

MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset

Text2Tech – Deep Learning-based Text Mining for Technology Monitoring in Automotive Production