Interaktive intelligente Sprachtechnologien erobern den Heimbereich. Im Projekt Emonymous verfolgen wir das Ziel, die Sprecheridentität eines Sprechers vollständig zu anonymisieren ohne emotionalen und sprachinhaltliche Informationen zu verlieren. Auch aus der Sicht des Datenschutzes ergeben sich mit dieser Erschließung von Sprachdaten enorme Anwendungspotentiale.
Das SLT trägt dabei maßgeblich Kompetenzen in den Bereichen:
- Sprachsynthese, bspw. Voice Conversion (VC), Speech-to-Text (STT), Diffenrential Digital Signal Processing (DDSP)
- Spracherkennung, bspw. Automatic Speech Recognition (ASR), Multi-Lingual Speech Recognition
- Sprechererkennung, bspw. Automatic Speaker Recognition and Verification (ASV), Multi-Lingual Speaker Recognition
- Emotionserkennung aus Sprache, Text, Video/Images, Multimodal, bspw. Transformer-basierte Modelle, akustische- , linguistische- (Sprachmodelle / Language Models), und visuelle Modelle (Facial Expression, Landmarks)
- Crowd-basiertes KI-Unterstützung, bspw. automated online orchestrated crowd- and expert sourcing hybrid AI+Human workflows for high quality data acquisition.
- KI im Bereich pre-trained language models, transfer-learning, cross-lingual learning, continuous learning, frugal AI
Im Fokus: Durch die immer fortschreitende KI erobern interaktive und intelligente Sprachassistenten mehr und mehr Alltag. Einer Nutzung über den Heimbereich hinaus wird diesen jedoch durch Datenschutzbedenken verwehrt. Insbesondere die Identifikation des Sprechers aufgrund der Vielzahl an erhobenen Daten verhindert einen effektiven Einsatz dieser Technologien in sensible Aufgabenfeldern (Gesundheitssektor, Lernunterstützung). Für viele Anwendungen ist es jedoch nur erforderlich zu wissen, was gesagt wurde und nicht wer es gesagt hat. Hier kann eine Anonymisierung des Sprechers eine Identifikation in der (cloud-basierten) Weiterverarbeitung verhindern. Allerdings vermittelt Sprache, aufgrund dessen wie etwas gesagt wurde, weitere Indikatoren (bspw. Emotionen, Persönlichkeit, Proficiency), die notwendig sind um adäquat auf die individuellen Bedürfnisse des Nutzers reagieren zu können und damit die Interaktion zu verbessern.
Mit dem durchgeführten Verbundprojekt wird das Ziel verfolgt, die Sprecheridentität vollständig zu anonymisieren und die emotionalen und sprachinhaltlichen Informationen weitestgehend zu erhalten. Hierfür setzen wir mit Voice Conversion oder Differential Digital Signal Processing auf aktuellste KI-Entwicklungen.
In Zusammenspiel mit einem neu entwickelten differenzierbaren Ähnlichkeitsmaß ist es möglich, Indikatoren für den Erfolg der Anonymisierung abzuleiten. Die entwickelten Techniken erlauben es vielfältige innovative Anwendungen unter Wahrung der Sprecheranonymität voranzutreiben und stärken sowohl Anwendungen der Wissenschaft als auch des Wirtschaftsstandorts Deutschland.
Leitung: Dr. Tim Polzehl Herr Dr. Tim Polzehl leitet die KI-basierten Entwicklungen im Bereich sprachbasierte Anwendungen des Fachbereichs Speech and Language Technology. Zudem leitet der den Bereich "Next Generation Crowdsourcing and Open Data" und ist aktives Mitglied der "Speech Technolgy" Gruppe des Quality and Usability Labs (QU-Labs) der Technischen Universität Berlin
Profil DFKI: https://www-live.dfki.de/web/ueber-uns/mitarbeiter/person/tipo02
Profil QU-Labs TU-Berlin: https://www.tu.berlin/index.php?id=29499/
Kontakt: tim.polzehl@dfki.de
Partner
Technische Universität Berlin, Quality and Usability Lab Otto-von-Guericke-Universität Magdeburg, Fachgebiet Mobile Dialogsysteme