Bundeskanzlerin oder Trainer? Software findet zu mehrdeutigen Namen in Texten die richtige Person

Bild der Pressemitteilung


Wenn ein Name mehrdeutig ist und in keinem Zusammenhang steht, tun sich auch Menschen mit der genauen Zuordnung schwer. Bei „Müller ist Torschützenkönig!“ ist nicht klar, wer gemeint ist – der „Bomber der Nation“ Gerd Müller, Fußball-Weltmeister im Jahr 1974, oder Thomas Müller, immerhin Torschützenkönig während der Weltmeisterschaft 2010. Die Suche im Netz macht das noch anstrengender. Bisher erkennen die Suchmaschinen zwar Zeichenketten, wie „Angela Merkel“, lassen aber Erwähnungen wie „Bundeskanzlerin“ oder „Deutschlands First Lady“ ganz unbeachtet. Noch schlimmer: Bei der Eingabe von „Merkel“ liefern sie als Ergebnis auch Informationen zu vielen anderen Personen, die den gleichen Nachnamen besitzen.

Forscher am Max-Planck-Institut für Informatik haben nun ein Programm entwickelt, das die Mehrdeutigkeit von Namen in Texten selbstständig auflöst, indem es diese geschickt mit Hilfe des Online-Nachschlagewerkes Wikipedia analysiert. Dazu bildet ihre Software namens AIDA zwischen den Erwähnungen im Text und den dazu potenziell passenden Personen und Orten eine Verknüpfung. „Je mehr Verweise in Wikipedia vom Namen auf die jeweilige Person verlinken, je mehr Wörter sich aus deren Wikipedia-Artikel im Text der Erwähnung wiederfinden, desto höher wird die Verbindung gewertet. Diese Wertungen prüft AIDA und bestimmt schließlich die höchste als eindeutiges Namen-Objekt-Paar“, erläutert Johannes Hoffart, der AIDA am Max-Planck-Institut für Informatik mitentwickelt hat. Um die neuartige Technik zu demonstrieren, haben sie bereits eine darauf aufbauende Suchmaschine entwickelt. Diese ermöglicht es nicht nur, die Suche nach Buchstabenfolgen mit der Suche nach eindeutigen Objekten wie Personen und Orten zu kombinieren, sondern sich auch Treffer für eine bestimmte Kategorie angeben zu lassen. So ergibt die Anfrage „Angela Merkel + Umweltorganisationen + Energiewende“ Texte, die von der Bundeskanzlerin im Kontext von Umweltorganisationen wie „Greenpeace“ und der Energiewende handeln.

Derzeit arbeiten die Saarbrücker Informatiker mit der Deutschen Nationalbibliothek und ihren Standorten in Leipzig und Frankfurt am Main zusammen. Auf deren Textkorpus lassen sie AIDA los, um die Schlagwortsuche mit der Suche nach eindeutigen Objekten zu verknüpfen. „Die Treffer sind dann wesentlich genauer“, sagt Hoffart.

„Auf diese Weise können wir aber nicht nur bessere Suchmaschinen bauen, sondern auch auf effiziente Weise riesige Textmengen für den Computer so aufbereiten, dass er sie fast wie ein Mensch versteht“, erklärt Gerhard Weikum, wissenschaftlicher Direktor am Max-Planck-Institut für Informatik in Saarbrücken. Das eröffne auch neue Perspektiven für automatisch generierte Empfehlungen und die Analyse von Datensätzen, so Weikum, der am Max-Planck-Institut die Abteilung für Datenbanken und Informationssysteme leitet und am Saarbrücker Exzellenzcluster für „Multimodal Computing and Interaction“ forscht. „Wer ein Fan des Trainers ist, der bekommt eines seiner Bücher angeboten, wer sich jedoch nur für die gleichnamige Kanzlerin interessiert, wird dagegen auf Bücher verwiesen, die sich mit ihr beschäftigen“, nennt Weikum als Beispiel. Die AIDA Software sowie der Quelltext sind für Forschungszwecke frei verfügbar.

Hintergrund zur Saarbrücker Informatik an der Universität des Saarlandes

Den Kern der Saarbrücker Informatik bildet die Fachrichtung Informatik. In unmittelbarer Nähe forschen auf dem Campus sieben weitere weltweit renommierte Forschungsinstitute. Neben den beiden Max-Planck-Instituten für Informatik und Softwaresysteme sind dies das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Zentrum für Bioinformatik, das Intel Visual Computing Institute, das Center for IT-Security, Privacy und Accountability (CISPA) und der Exzellenzcluster „Multimodal Computing and Interaction“.

 

Weitere Fragen beantwortet

Johannes Hoffart
Datenbanken und Informationssysteme
Max-Planck-Institut für Informatik
+49 681 9325-5028
E-Mail

 

Weitere Informationen