12. März 2019
Paper bei Nature Commmunications erschienen: Wissenschaftler stellen KI-Systeme auf den Prüfstand
Algorithmen der Künstlichen Intelligenz (KI) und des Maschinellen Lernens wie beispielsweise Deep Learning erobern immer mehr Bereiche unseres Lebens: Sie ermöglichen digitale Sprachassistenten oder Übersetzungsdienste, verbessern die medizinische Diagnostik und sind unverzichtbarer Bestandteil von Zukunftstechnologien wie dem autonomen Fahren. Gestützt durch eine stetig wachsende Anzahl verfügbarer Daten und leistungsfähiger Rechnerarchitekturen, scheinen Lernalgorithmen der menschlichen Leistungsfähigkeit gleichgestellt oder sogar überlegen. Das Problem: Bislang bleibt es den Wissenschaftlern und Wissenschaftlerinnen meistens verborgen, wie die KI-Systeme zu ihren Entscheidungen kommen. Damit bleibt oft auch unklar, ob es sich wirklich um intelligente Entscheidungen oder statistisch erfolgreiche Verfahren handelt.
Forscher der Technischen Universität Berlin (TU Berlin), des Fraunhofer Heinrich-Hertz-Instituts (Fraunhofer HHI) und der Singapore University of Technology and Design sind dieser Frage nachgegangen und haben in einer bei Nature Communications veröffentlichten Arbeit das ganze „Intelligenz“-Spektrum bestehender KI-Systeme mit einer speziellen, automatisierten Technologie analysiert und quantifiziert. Wichtigste Voraussetzung für die neue Technologie ist eine von der TU Berlin und dem Fraunhofer HHI entwickelte Technik, die sogenannte „Layer-wise Relevance Propagation“ (LRP), die sichtbar macht, aufgrund welcher Kriterien KI-Systeme Entscheidungen treffen. Die Weiterentwicklung der LRP-Technologie, die „Spectral Relevance Analysis“ (SpRAy), identifiziert und quantifiziert ein breites Spektrum erlernter Entscheidungsverhalten. So wird es möglich, auch in sehr großen Datensätzen unerwünschte Entscheidungen zu erkennen.
„Diese sogenannte ‚explainable AI' (erklärbare Künstliche Intelligenz) ist einer der wichtigsten Schritte für die praktische Anwendung und Verbreitung von KI", so Dr. Klaus-Robert Müller, Professor für Maschinelles Lernen an der TU Berlin: „Insbesondere in der medizinischen Diagnostik oder in sicherheitskritischen Systemen dürfen wir keine KI-Algorithmen mit unsicheren Problemlösungsstrategien oder sonstige KI-Schummel-Kandidaten einführen.“ Mit dem jetzt entwickelten Verfahren wurden nicht nur bestehende KI-Systeme auf die Probe gestellt, sondern diese Systeme auch quantifiziert: Vom naiven Problemlösungsverhalten, über Schummel-Strategien bis hin zu hochelaborierten „intelligenten“ strategischen Lösungsansätzen. Dr. Wojciech Samek, Gruppenleiter am Fraunhofer HHI: „Wir waren sehr erstaunt über die große Bandbreite der gelernten Problemlösungsstrategien. Selbst moderne KI-Systeme haben nicht immer einen aus menschlicher Perspektive sinnvollen Lösungsweg gefunden, sondern nutzten bisweilen sogenannte ‚Clever-Hans-Strategien'.“
Der Kluge Hans (Clever Hans) war ein Pferd, das angeblich rechnen und zählen konnte und in den Jahren um 1900 als wissenschaftliche Sensation galt. Wie sich später herausstellte, beherrschte Hans nicht die Mathematik, sondern konnte in etwa 90 Prozent der Fälle die richtige Antwort aus der Reaktion des Fragestellers ableiten. Ähnliche „Clever Hans“-Lösungsstrategien konnten Klaus-Robert Müller und Wojciech Samek mit ihren Kollegen und Kolleginnen auch bei verschiedenen KI-Systemen finden. So verfolgte ein KI-System, das vor einigen Jahren mehrere internationale Wettbewerbe zur Klassifikation von Bildern gewonnen hat, eine aus menschlicher Sicht naive Lösungsstrategie: Es klassifizierte Bilder vorwiegend anhand des Kontextes. Dabei wurden Bilder der Kategorie „Schiff“ zugeordnet, wenn viel Wasser im Bild zu sehen war. Andere Bilder wurden als „Zug“ klassifiziert, wenn Schienen vorhanden waren. Wieder andere Bilder wurden anhand des Copyright-Schriftzuges der richtigen Kategorie zugeordnet. Die eigentliche Aufgabe, nämlich Schiffe oder Züge zu erkennen, hat dieses KI-System nicht gelöst - auch wenn es die Mehrzahl der Bilder im Endeffekt korrekt klassifiziert hat.
Diese Art von fehlerhaften Lösungsstrategien fanden sich auch bei einigen der neuesten KI-Algorithmen, den sogenannten tiefen neuronalen Netzwerken. Diese stützen ihre Klassifikationsentscheidung zum Teil auf Artefakte, die während der Präparation der Bilder entstanden und mit dem eigentlichen Bildinhalt gar nichts zu tun haben. „Solche KI-Systeme sind für den praktischen Einsatz völlig unbrauchbar. Ihr Einsatz in der medizinischen Diagnostik oder in sicherheitskritischen Bereichen birgt sogar enorme Gefahren“, weiß Klaus-Robert Müller: „Es ist durchaus denkbar, dass ungefähr die Hälfte der aktuell eingesetzten KI-Systeme implizit oder explizit solche ‚Clever Hans'-Strategien nutzen. Es ist Zeit, das systematisch zu überprüfen, damit sichere KI-Systeme entwickelt werden können.“
Doch mit der neuen Technik wurden auch KI-Systeme identifiziert, die unerwartet „intelligente“ Strategien gelernt haben. Als Beispiele dienen unter anderem die Systeme, die gelernt haben, die Atari-Spiele „Breakout“ und „Pinball“ zu spielen. „Hier haben die KI-Systeme ganz klar das Konzept des Spiels ‚verstanden' und einen intelligenten Weg gefunden, zielgerichtet und risikoarm sehr viele Punkte zu sammeln. Dabei schlägt das System bisweilen Wege ein, die ein echter Spieler nicht nutzen würde“, so Wojciech Samek. „Unsere automatisierte Technik ist Open Source und steht allen Wissenschaftlern und Wissenschaftlerinnen zur Verfügung. Wir sehen unsere Arbeit als einen wichtigen ersten Schritt, KI-Systeme in Zukunft robuster, erklärbar und sicher zu machen. Denn das ist die wesentliche Voraussetzung für den Einsatz von KI überhaupt“, so Klaus-Robert Müller.
Nature Communications
DOI: 10.1038/s41467-019-08987-4
Gemeinsame Pressemitteilung der Technischen Universität Berlin und des Fraunhofer HHI.