Internationales Forschungsprojekt zu Datenschutz im Computer-Dialog mit ersten Ergebnissen
Der Schlüssel für die Verbesserung von Sprachdialogsystemen wie Alexa, Siri und anderen liegt im Sammeln riesiger Mengen an Sprachdaten von Benutzern: Je mehr diese Systeme mit Sprache trainiert werden, desto besser – nützlicher, schneller, treffsicherer – werden sie. Die Chance, die darin liegt, birgt naheliegenderweise gleichzeitig eines der größten Probleme für den Mensch-Maschine-Dialog: der nur sehr schwierig zu garantierende Datenschutz.
Denn einerseits gehört Sprache zu den biometrischen Daten, die dazu verwendet werden können, Nutzer zu identifizieren – auch gegen ihren Willen. Andererseits ist die Menge an Informationen, die aus gesprochener Sprache gewonnen werden kann, schlichtweg erstaunlich: So können Information über die Persönlichkeit, allgemeine Merkmale (Geschlecht, Alter, Ethnie, Herkunft), die aktuelle Verfassung (Gesundheitszustand, Alkohollevel, Aufrichtigkeit) und Vorlieben der Benutzers preisgegeben werden, die sie nur ungern mit einem Unternehmen teilen würden. Im Falle einer Sicherheitslücke könnten solche Informationen von Dritten missbraucht werden.
Eines der Hauptziele von COMPRISE liegt daher in der Entwicklung von Private-by-Design-Sprachtechnologien. Nach Monaten intensiver Arbeit kommt COMPRISE diesem Ziel nun näher, da kürzlich die ersten Werkzeuge des Projekts zum Datenschutz das Licht der Welt erblickt haben.
Der saarländische Anteil besteht darin in der Arbeit des Teams von Dietrich Klakow, Professor für Sprach- und Signalverarbeitung an der Universität des Saarlandes. Hier betreut insbesondere sein Mitarbeiter Dr. Thomas Kleinbauer die Arbeit im COMPRISE-Projekt. „Wir haben nun in einem ersten Zwischenschritt einen Text-Anonymisierer entwickelt. Dieser soll potenziell den Datenschutz bedrohende Worte oder Phrasen in einem Text identifizieren und durch harmlose Alternativen ersetzen, ohne dabei die Struktur des Textes zu verändern“, erklärt der Sprachtechnologe.
Konkrete Fälle, für die eine solche Technologie sinnvoll sein kann, gibt es in Hülle und Fülle. Thomas Kleinbauer nennt einige Beispiele: „Sie kaufen zum bei einem neuen Webshop ein und haben dem System Ihre Kreditkartennummer diktiert. Oder Sie wollen sich über ein potenziell kompromittierendes Thema im Internet funkionieren und stellen entsprechende Suchanfragen, etwa zu Selbsthilfegruppen bei einer tödlichen Krankheit.“
Das Programm würde in solchen Fällen zum Beispiel automatisch die Kreditkartennummer durch eine andere, zufällig generierte Nummer ersetzen oder die konkrete Suchanfrage nach Krankheit und Selbsthilfegruppe durch andere, zufällig erzeugte Wörter ersetzen. Das Gute daran: Die Anonymisierung solcher Daten wäre kein Hindernis dafür, dass die maschinellen Systeme sich weiterhin selbst verbessern könnten. „Die Daten an sich blieben nutzbar“, erklärt Professor Dietrich Klakow. „Gleichzeitig aber wären weniger private Daten auf Servern gespeichert, die außerhalb der Reichweite der Nutzer stehen.“
Ein weiteres Zwischenergebnis, das INRIA in Lille inzwischen erarbeitet hat, liegt in einem Voice-Transformer-Programm. Dieses kann die Stimme eines Nutzers in die einer zufälligen anderen Person umwandeln. Damit wird die biometrische Identifizierung des ursprünglichen Nutzers wirksam verhindert.
Federführend im COMPRISE-Projekt (Cost-effective, Multilingual, Privacy-driven voice-enabled Services) ist das nationale französische Institut für Informatik und angewandte Mathematik INRIA (www.inria.fr). Neben der Universität des Saarlandes sind außerdem folgende Partner an COMPRISE beteiligt: Netfective Technology SA (Frankreich, www.bluage.com), Ascora GmbH (Deutschland, ascora.net), TILDE SIA (Lettland, www.tilde.com), Rooter Analysis SL (Spanien, www.rooter.es).
COMPRISE wird seit Dezember 2018 mit 3,2 Millionen Euro gefördert, wovon rund 600.000 an die Universität des Saarlandes fließen.
Weitere Informationen auf der Webseite https://project.inria.fr/comprise/
Twitter: https://twitter.com/compriseh2020
LinkedIn: https://www.linkedin.com/company/comprise-h2020
Kontakt:
Prof. Dr. Dietrich Klakow
Tel.: (0681) 30258122
E-Mail: Dietrich.Klakow(at)lsv.uni-saarland.de
Dr. Thomas Kleinbauer
Tel.: (0681) 30258130
E-Mail: thomas.kleinbauer(at)lsv.uni-saarland.de