Wie sag ich’s dem Computer? Konferenz zur Sprachsignalverarbeitung in Saarbrücken

8. März 2017

Wie sag ich’s dem Computer? Konferenz zur Sprachsignalverarbeitung in Saarbrücken

Vom 15. bis 17. März treffen sich IT-Experten, Ingenieure, Sprachtechnologen und Geisteswissenschaftler zur Konferenz „Elektronische Sprachsignalverarbeitung“ an der Saar-Uni. Die Experten sprechen in vier Hauptvorträgen und in rund 50 weiteren Panel-Beiträgen unter anderem darüber, wie Sprache analysiert und verarbeitet werden muss, damit die Kommunikation zwischen Mensch und Maschine besser funktioniert.

„Siri, Warum liebst du mich nicht?“ – Antwort: „Oh guck mal … ein Eichhörnchen!“ Dieser reichlich schräge, im Netz verewigte Dialog zwischen einem Menschen und dem Sprachdialogsystem „Siri“ aus dem Hause Apple zeigt zweierlei: Zum einen den schrägen Humor der Apple-Programmierer, wenn sie Siri Antworten auf unverständliche Fragen vorgeben. Und zweitens, dass es überhaupt Fragen gibt, die ein Computer nicht verstehen kann, wenn sie gesprochen werden.

Denn menschliche Kommunikation ist viel mehr als die grammatikalisch sinnvolle und Regeln folgende Aneinanderreihung von Lauten. Feinheiten wie Betonung, individuelle Aussprache, Ironie oder Emotionen wie zum Beispiel Niedergeschlagenheit oder Gereiztheit stellen Computer vor große Herausforderungen. „Ein Dialogsystem einer Versicherung zum Beispiel, mit dem ein Kunde am Telefon in Kontakt kommt, kann nicht immer anhand der Stimme herausfinden, ob der Kunde angefressen ist oder nicht“, erklärt Jürgen Trouvain. Der Phonetiker ist einer der Organisatoren der 28. Konferenz für Elektronische Sprachsignalverarbeitung, die erstmals in Saarbrücken stattfindet. Er hat das Programm mit seinen Kollegen Ingmar Steiner und Bernd Möbius von der Fachrichtung Sprachwissenschaft und Sprachtechnologie zusammengestellt.

Dass auch Menschen, die vermeintlich Hochdeutsch sprechen, einen Computer vor große Herausforderungen stellen können, erläutert Stefan Kleiner vom Institut für Deutsche Sprache in Mannheim und Autor des Duden-Aussprachewörterbuchs in seinem Hauptvortrag „Regionale Variationen in der deutschen Standardaussprache“. Denn wenn zwei Nutzer aus Kiel oder Konstanz einem Navigationsgerät auf Hochdeutsch erklären möchten, wo sie hinwollen, kann das schon zu erheblichen Verwirrungen führen. Während der Norddeutsche sicher in seine Heimatstadt findet, wird der Süddeutsche vermutlich im Brustton der Überzeugung, reines Hochdeutsch zu sprechen, dem Navi sagen, er wolle nach „Konschtanz“, und schon weiß das Navi nicht, welche Route es errechnen soll. Solche Probleme müssen Sprachtechnologen lösen.

Weitere Hauptvorträge befassen sich unter anderem mit der Analyse des Sprechens anhand von bildgebenden Verfahren aus der Medizin, sowie mit der Möglichkeit, Sprache verständlich zu machen, obwohl der Sprecher gar keine Laute erzeugt, sondern nur so tut, als spreche er. Mithilfe modernster Messmethoden an den Gesichtsmuskeln können Computer es so zum Beispiel Menschen mit Sprachstörungen ermöglichen, sich verständlich zu machen. Der Rechner ermittelt anhand der Signale, die die Muskeln ihm senden, die Laute, die der „Sprecher“ erzeugen wollte. Auch für die Übertragung sensibler Daten wie Bankdaten oder in sehr lauten Umgebungen wäre diese Art der Kommunikation ein erheblicher Gewinn. Über solche und weitere Fragestellungen, die in insgesamt etwa 50 Beiträgen thematisiert werden, tauschen sich die rund 70 Teilnehmerinnen und Teilnehmer in Saarbrücken aus.

Dank ihrer Forschungsarbeit wird „Siri“ – und natürlich auch andere Dialogsysteme – vielleicht bald eine Antwort auch auf skurrile Fragen haben. Einerseits ist das gut, weil das Dialogsystem dann tatsächlich mehr Fragen sinnvoll beantworten kann, weil es die feinen Töne der menschlichen Kommunikation besser versteht. Andererseits ist es auch schade, weil es weniger unterhaltsam ist. Den Programmierern von Siris Enkeln wird dann hoffentlich etwas anderes einfallen.

Weitere Informationen:

Dr. Jürgen Trouvain
Tel.: (0681) 3024694
E-Mail: trouvain(at)coli.uni-sb.de