Projekt | Medinym

Laufzeit: 15.12.2022 - 14.12.2025

KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen

Forschungsthemen

Anwendungsfelder

Gesundheit & Medizin

Im Projekt Medinym verfolgen wir das Ziel, die Sprecheridentität eines Sprechers sowohl auf Stimm- als auch auf Aussage- und semantischer Ebene vollständig zu anonymisieren ohne emotionalen oder diagnostische Informationen zu verlieren. Aus der Sicht des Datenschutzes ergeben sich mit dieser Erschließung von Sprachdaten enorme Anwendungspotentiale.

Das SLT trägt dabei maßgeblich Kompetenzen in den Bereichen:

NLP/ IE für Anonymisierung, bspw. relevante Entitäten und Relationen erkennen und ersetzen, synthetische Datenerzeugung für KI-Lernprozesse im medizinischen Bereich
Sprachsynthese, bspw. Voice Conversion (VC), Speech-to-Text (STT), Voice Cloning, Zero-Shot Learning
Spracherkennung, bspw. Automatic Speech Recognition (ASR), Multi-Lingual Speech Recognition
Sprechererkennung, bspw. Automatic Speaker Recognition and Verification (ASV), Multi-Lingual Speaker Recognition
Emotionserkennung aus Sprache, Text, Video/Images, Multimodal, bspw. Transformer-basierte Modelle, akustische- , linguistische- (Sprachmodelle / Language Models), und visuelle Modelle (Facial Expression, Landmarks)
Crowd-basiertes KI-Unterstützung, bspw. automatisierte online Crowd- und Experten-Sourcing, Hybride (KI+Human) Prozessautomation für die Gewinnung hochqualitativer KI-Trainingsdaten.
KI im Bereich Pre-Trained Language Models, Transfer-Learning, Cross-Lingual Learning, Continuous Learning, Frugal AI, LLMs, RLHF

Motivation Die fortschreitende wissenschaftliche Weiterentwicklung von Technologien auf Basis Künstlicher Intelligenz (KI) befördert medizinische Anwendungspotenziale. Einer reellen Nutzung dieser Technologien durch eine Vielzahl an Anwendern wie Bürgerinnen und Bürger, Behörden, Mitarbeitenden des Gesundheitswesens und kleinen sowie mittelständischen Unternehmen steht die Schwierigkeit des datensicheren und datengeschützten Umgangs gegenüber. Gerade bei der automatisierten Verarbeitung von medizinischen Daten können oftmals innovative Technologien nicht eingesetzt werden, da aufgrund der sensiblen Inhalte, der Schutz der Identität zu Recht einen hohen Stellenwert einnimmt. Die Schutzwürdigkeit klinischer Daten und der dadurch erschwerte Zugang damit führt auch dazu, dass Maschinelle Lernverfahren (ML), beispielsweise für klinische Diagnosen, Prognosen sowie Therapie- oder Entscheidungsunterstützung nicht ohne größere Hürden entwickelt werden können.

Ziele und Vorgehen Das Projekt "KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen" (Medinym) untersucht die Möglichkeit der Weiterverwertung sensibler Daten durch das Entfernen der empfindlichen Informationen mittels Anonymisierung. Im Projekt werden zwei medizinische Anwendungsfälle, textbasierte Daten aus der elektronischen Patientenakte sowie Sprachdaten aus diagnostischen Ärztin-Patient-Gesprächen, exemplarisch umgesetzt. Dazu werden im Projekt offene Technologien zur Anonymisierung untersucht, weiterentwickelt und auf reale Daten angewandt. Außerdem untersuchen die Forschenden, wie die Aussagekraft solch anonymisierter Daten für die weitere Nutzung erhalten werden kann. Zusätzlich sollen Methoden betrachtet werden, die einen Missbrauch der Technologie außerhalb des beabsichtigten Anwendungsfalls verhindern oder erschweren.

Innovationen und Perspektiven Durch die informationserhaltende Anonymisierung soll es möglich werden, klinische Daten weiterzuverarbeiten, da eine De-Anonymisierung nicht mehr möglich ist. Diese Datensätze können dann dazu dienen, KI-Modelle auf klinischen Daten datenschutzkonform zu trainieren oder auf andere Kohorten ausgedehnt werden. Damit wäre eine kumulative Sammlung entsprechender Datenmengen auch für kleine und mittelständische Unternehmen möglich. Denn so könnten sensible Daten über mehrere Anwendungszwecke hinweg zusammengefasst und für KI-Trainingsroutinen verwendet werden; eine entsprechende Anonymisierung stets vorausgesetzt. Die angestrebte Anonymisierung soll zudem die Bereitschaft von Patientinnen und Patienten steigern, in die Teilnahme an Studien, Datenanalysen sowie allgemeinen Spenden von Gesundheitsdaten einzuwilligen. Schlussendlich erlaubt die Informationserhaltene Anonymisierung die Integration der Technologie in gängige Entwicklungsmethoden und Diagnostiksysteme und stärkt damit den Wissenschafts- und Wirtschaftsstandort Deutschland in den Bereichen Diagnostik, Behandlung und damit allgemein der Gesundheitsversorgung.

Leitung: Dr. Tim Polzehl Herr Dr. Tim Polzehl leitet die KI-basierten Entwicklungen im Bereich sprachbasierte Anwendungen des Fachbereichs Speech and Language Technology. Zudem leitet der den Bereich "Next Generation Crowdsourcing and Open Data" und ist aktives Mitglied der "Speech Technolgy" Gruppe des Quality and Usability Labs (QU-Labs) der Technischen Universität Berlin

Profil DFKI: https://www-live.dfki.de/web/ueber-uns/mitarbeiter/person/tipo02

Profil QU-Labs TU-Berlin: https://www.tu.berlin/index.php?id=29499/

Kontakt: tim.polzehl@dfki.de

Kontakt

Dr.-Ing. Tim Polzehl

Tim.Polzehl@dfki.de
Tel.: +49 30 23895 1863

Dr. Roland Roller

Roland.Roller@dfki.de
Tel.: +49 30 23895 1847

Keyfacts

Beteiligte Forschungsbereiche

Speech and Language Technology

Leitung

Dr.-Ing. Tim Polzehl

Publikationen

Alle Publikationen

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers
Ibrahim Baroud; Christoph Otto; Vera Czehmann; Christine Hovhannisyan; Lisa Raithel; Sebastian Möller; Roland Roller
In: Proceedings of the 15th Language Resources and Evaluation Conference (LREC). International Conference on Language Resources and Evaluation (LREC-2026), Pages 1-10, LREC, 2026.
Exploring Foundation Model Fusion Effectiveness and Explainability for Stylistic Analysis of Emotional Podcast Data
Arnab Das; Carlos Franzreb; Tim Polzehl; Sebastian Möller
In: Advances in Information and Communication. Future of Information and Communication Conference (FICC-2025), located at FICC-2025, March 4-5, Berlin, Germany, Springer Nature, Switzerland, 2025.
Beyond De-Identification: A Structured Approach for Defining and Detecting Indirect Identifiers in Medical Texts
Ibrahim Baroud; Lisa Raithel; Sebastian Möller; Roland Roller
In: Proceedings of the Sixth Workshop on Privacy in Natural Language Processing. Workshop on Privacy in Natural Language Processing (PrivateNLP-2025), located at NAACL, May 4, Pages 75-85, ISBN 979-8-89176-246-6, Association for Computational Linguistics, 2025.

Projekt | Medinym

KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen

Forschungsthemen

Anwendungsfelder

Kontakt

Keyfacts

Beteiligte Forschungsbereiche

Leitung

Publikationen

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Exploring Foundation Model Fusion Effectiveness and Explainability for Stylistic Analysis of Emotional Podcast Data

Beyond De-Identification: A Structured Approach for Defining and Detecting Indirect Identifiers in Medical Texts

Fördergeber

BMBF - Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie

Forschungsthemen

Anwendungsfelder

Projekt teilen auf:

Kontakt

Keyfacts

Beteiligte Forschungsbereiche

Leitung

Verwandte Projekte

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Exploring Foundation Model Fusion Effectiveness and Explainability for Stylistic Analysis of Emotional Podcast Data

Beyond De-Identification: A Structured Approach for Defining and Detecting Indirect Identifiers in Medical Texts

Fördergeber

BMBF - Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie