Mit dem erweiterten Einsatz von künstlicher Intelligenz (KI) müssen Unternehmen wichtige und oft schwierige Fragen beantworten: Wird die KI verantwortungsbewusst eingesetzt? Wie ist die KI auf diese Ergebnisse gekommen? Sind die Entscheidungswege der KI erklärbar? Da allen KI-Prozessen Daten zugrunde liegen, behandeln wir in diesem Blogbeitrag wichtige KI-Fragen unter dem Aspekt von Daten, Datenmanagement und Daten-Governance. Dieser zweite Beitrag der dreiteiligen Reihe zum Einsatz von künstlicher Intelligenz widmet sich daher dem Thema „Erklärbare KI” (Explainable AI, XAI). Der letzte Beitrag der Reihe wird sich mit föderiertem Lernen befassen.
Der erste Beitrag in dieser Reihe diskutierte die vier Grundsäulen verantwortungsvoller und ethischer KI: Fairness, Privatsphäre, Sicherheit und Interpretierbarkeit (auch bekannt als Erklärbarkeit). KI-Modelle sind mittlerweile in alle Aspekte unseres Lebens integriert und nehmen Einfluss auf wichtige Entscheidungen, z. B. welche Bewerber eingestellt oder welche Kredite genehmigt werden. Die erklärbare künstliche Intelligenz (XAI) liefert wichtigen Einblick, wie ein KI-Modell zu den getroffenen Entscheidungen kommt, und trägt dazu bei, Fehlerquellen in diesem Vorgang zu identifizieren.
Dieser Beitrag untersucht, warum erklärbare KI wichtig ist, welche Herausforderungen damit verbunden sind und welche wichtige Rolle Daten dabei spielen.
Zunächst gilt es zu verstehen, was genau XAI ist und warum sie gebraucht wird. KI-Algorithmen funktionieren oft wie eine „Black Box“ – sie nehmen Eingaben an und liefern dann ein Ausgabe, ohne ihr Innenleben preiszugeben. Das Ziel der XAI besteht darin, die Logik hinter der Ausgabe eines Algorithmus für den Menschen nachvollziehbar zu machen.
Viele KI-Algorithmen verwenden beispielsweise Deep Learning, bei dem Algorithmen auf der Basis von großen Trainingsdatensätzen lernen, Muster zu erkennen. Deep Learning ist ein Ansatz für neuronale Netze, der die innere Vernetzung unseres eigenen Gehirns imitiert. Wie bei menschlichen Denkprozessen lässt sich nur sehr schwer oder auch überhaupt nicht nachvollziehen, auf welchem Entscheidungsweg ein Deep-Learning-Algorithmus zu einer Vorhersage oder Entscheidung gekommen ist.
Personalentscheidungen und Entscheidungen im Bereich der Finanzdienstleistungen zur Kreditwürdigkeit und -vergabe haben eine hohe Tragweite und bedürfen daher einer Erklärungsmöglichkeit. Auch wenn in diesen Anwendungsfällen niemand körperlich zu Schaden kommt, wenn einer dieser Algorithmen eine negative Empfehlung ausspricht, gibt es viele Beispiele, bei denen die Folgen verheerend sein können.
Im Gesundheitswesen werden Deep-Learning-Algorithmen zunehmend bei bestimmten Anwendungsfällen eingesetzt, beispielsweise dem Krebs-Screening. Hier ist es für Ärzte äußerst wichtig zu verstehen, warum ein Algorithmus eine bestimmte Diagnoseentscheidung getroffen hat. Ein falsch-negativer Befund könnte für einen Patienten bedeuten, dass er oder sie keine lebensrettende Behandlung erhält. Ein falsch-positives Ergebnis hingegen kann dazu führen, dass ein Patient eine teure und invasive Behandlung durchläuft, die gar nicht notwendig ist. Für Radiologen und Onkologen, die den wachsenden Nutzen von KI voll ausschöpfen möchten, ist daher eine umfassende Erklärbarkeit unerlässlich.
Um den Gedanken weiterzuführen, was XAI ausmacht, definiert das National Institute of Standards (NIST), das zum US-amerikanischen Handelsministerium gehört, vier Prinzipien für erklärbare künstliche Intelligenz:
Hier sind einige Beispiele, wie diese Prinzipien umgesetzt werden können.
Erklärung
NIST definiert fünf Arten von Erklärungen:
Relevanz
Das Prinzip der Relevanz wird erfüllt, wenn ein Adressat die bereitgestellte Erklärung versteht. Für denselben KI-Algorithmus kann es verschiedene Arten von Adressaten geben, die Erklärungen benötigen. Im Beispiel mit dem selbstfahrenden Auto würde eine Erklärung, die dem Fahrer des Autos genügt (z. B. „die KI wertet die Plastiktüte auf der Straße als Stein und ergreift daher Maßnahmen, um eine Kollision zu vermeiden“), nicht dem Bedürfnis eines KI-Entwicklers gerecht, der versucht, dieses Problem zu beheben. Der Entwickler muss verstehen, warum die Plastiktüte falsch klassifiziert wurde.
Korrektheit der Erklärung
Die Korrektheit der Erklärung ist etwas anderes als die Korrektheit der Ausgabe. Ein KI-Algorithmus muss genau erklären, wie die Ausgabe erreicht wurde. Wenn ein Algorithmus zur Kreditvergabe eine Entscheidung damit erklärt, dass sie auf Basis des Einkommens und der Schuldenlast eines Antragstellers getroffen wurde, während die Entscheidung tatsächlich aber auf der Postleitzahl des Antragstellers basierte, ist die Erklärung nicht korrekt.
Wissensgrenzen
Ein KI-System kann auf zweierlei Weise an seine Wissensgrenzen stoßen. Die Eingabe könnte außerhalb des Kompetenzbereichs des Systems liegen. NIST führt hierzu das Beispiel eines Klassifizierungssystems für Vogelarten an: Wenn als Eingabe das Bild eines Apfels bereitgestellt wird, sollte das System erklären, dass die Eingabe kein Vogel ist. Wird dem System alternativ ein verschwommenes Bild gezeigt, sollte es melden, dass es den Vogel im Bild nicht identifizieren kann oder dass die Identifizierung mit sehr geringer Zuverlässigkeit erfolgt.
Die genannten Prinzipien helfen dabei, die von XAI erwartete Ausgabe zu definieren, sie bieten allerdings keine Anleitung, wie sich diese Ausgabe erreichen lässt. Es kann daher nützlich sein, XAI in drei Kategorien zu unterteilen:
Gerade für neuronale Netze sind erklärbare Daten die einzige Kategorie, die einfach zu erreichen ist – zumindest theoretisch. Viele Forschungsprojekte sind darauf fokussiert, wie man erklärbare Vorhersagen und Algorithmen erreicht. Es gibt zwei aktuelle Ansätze zur Erklärbarkeit:
Erklärbare Modelle werden manchmal auch als „White-Box“-Modelle bezeichnet. Wie bereits in einem der letzten Blogs angemerkt: Mit erklärbarer White-Box-KI können die Adressaten die Gründe für die Entscheidungen der KI besser nachvollziehen, wodurch die Popularität des KI-Einsatzes im Unternehmensumfeld steigt. Diese Modelle sind technisch nicht so beeindruckend wie Black-Box-Algorithmen. Zu den Erklärungstechniken gehören Entscheidungsbäume, Bayessche Netze, Sparse Grid-Modelle/verschlankte lineare Modelle und andere.
Forscher sind auch auf der Suche nach Möglichkeiten, um Black-Box-Modelle erklärbarer zu machen, zum Beispiel durch die Einbeziehung von Wissensgraphen (Knowledge Graphs) und anderen grafischen Techniken.
Erklärbare Daten sind die erreichbarste Kategorie von XAI. Angesichts der großen Datenmengen, mit denen ein KI-Algorithmus trainiert werden kann, ist „erreichbar“ jedoch nicht so einfach, wie es sich anhört. Der GPT-3-Algorithmus für natürliche Sprache ist ein extremes Beispiel. Obwohl das Modell in der Lage ist, menschliche Sprache nachzuahmen, hat es während des Trainings auch eine Menge toxischer Inhalte aus dem Internet aufgenommen.
Google merkt dazu an: Ein „KI-System lässt sich am besten anhand der ihm zugrunde liegenden Trainingsdaten und Trainingsprozesse sowie dem daraus resultierenden KI-Modell verstehen.“ Dieses Verständnis setzt die Fähigkeit voraus, einem trainierten KI-Modell den Datensatz zuzuordnen, mit dem es trainiert wurde, inklusive der Möglichkeit, die verwendeten Daten einzusehen, auch wenn das Training einer Version des Modells Jahre zurückliegt.
Eine der einfachsten Möglichkeiten, die Erklärfähigkeit eines Modells zu verbessern, besteht darin, genau darauf zu achten, mit welchen Daten das Modell trainiert wird. In der Designphase müssen die Entwickler festlegen, woher die Daten für das Training eines Algorithmus bezogen werden sollen, ob diese Daten – vorausgesetzt, sie existieren bereits – rechtlich und ethisch einwandfrei erfasst wurden, ob sie Voreingenommenheiten enthalten und wie diese Voreingenommenheiten beseitigt werden können. Dies ist ein verantwortungsvolle Aufgabe, die nicht unterschätzt werden sollte: 67 % der Unternehmen nutzen für ihre KI mehr als 20 Datenquellen.
Zudem sollten Sie ganz bewusst solche Daten ausschließen, die irrelevant sind bzw. sich nicht auf das Ergebnis auswirken. Weiter oben erwähnte ich die Möglichkeit, dass ein Kreditvergabe-Algorithmus Entscheidungen zu einem großen Teil auf der Postleitzahl der Antragsteller basieren könnte. Die beste Methode, um sicherzustellen, dass die Ausgabe eines Algorithmus nicht auf einem Faktor basiert, der eigentlich irrelevant sein sollte – wie eine Postleitzahl, die in vielen Fällen stellvertretend für die ethnische Zugehörigkeit steht – ist, diese Daten gar nicht erst in den Trainingsdatensatz oder die Eingabedaten einzubeziehen.
Da erklärbare Daten für den XAI-Einsatz essenziell sind, sollten Sie als Unternehmen Best Practices für Datenmanagement und Daten-Governance implementieren. Zu diesen Best Practices gehört auch die vollständige Rückverfolgbarkeit der Datensätze, die für das Training jeder Version eines von Ihnen eingesetzten KI-Modells verwendet werden.
Bei NetApp sind wir darauf spezialisiert, Unternehmen bei der optimalen Nutzung ihrer Daten zu unterstützen. Unsere Lösungen helfen Ihnen, Ihre Daten überall zu verwalten – lokal und in der Cloud. Wir sorgen dafür, dass Ihre Daten zugänglich, geschützt und kostenoptimiert gespeichert sind.
NetApp KI-Experten können Sie beim Aufbau einer Data Fabric – einer einheitlichen Datenmanagement-Umgebung, die alle Ihre Edge-Geräte, Datacenter und Public-Clouds umfasst – unterstützen. Diese sorgt dafür, dass Ihre KI-Daten effizient aufgenommen, erfasst, gespeichert und gesichert werden.
NetApp KI-Lösungen bieten Ihnen die nötigen Tools, mit denen Sie Ihre KI-Projekte ausbauen können.
Durch die Einführung der NetApp AI Control Plane und des Data Ops Toolkit kann Ihr Team die Daten effizient und sicher managen und gleichzeitig die Rückverfolgbarkeit und Reproduzierbarkeit gewährleisten, was eine wichtige Grundlage für erklärbare Daten ist.
Informationen darüber, wie NetApp Sie mit Datenmanagement und Daten-Governance unterstützen kann, die wichtige Voraussetzung für erklärbare KI sind, finden Sie unter netapp.com/de/artificial-intelligence/.
Mike McNamara ist Senior Leader of Product and Solution Marketing bei NetApp und blickt auf 25 Jahre Erfahrung im Marketing für Datenmanagement und Daten-Storage zurück. Vor seinem Wechsel zu NetApp vor über 10 Jahren arbeitete Mike bei Adaptec, EMC und HPE. Mike war einer der wichtigsten Teamleiter bei der Einführung einer First-Party-Storagelösung und der branchenweit ersten KI/ML-Lösung mit Cloud-Anbindung (NetApp), des einheitlichen Scale-out- und Hybrid-Cloud-Storage-Systems und der dazugehörigen Software (NetApp), des iSCSI- und SAS-Storage-Systems und der dazugehörigen Software (Adaptec) sowie des Fibre Channel-Storage-Systems (EMC CLARiiON).
Nachdem er bereits der Marketing Chair für die Fibre Channel Industry Association war, ist er nun Mitglied des Ethernet Technology Summit Conference Advisory Board und der Ethernet Alliance. Er schreibt regelmäßig Beiträge für Branchenzeitschriften und spricht häufig bei entsprechenden Veranstaltungen. Darüber hinaus veröffentlichte Mike bei FriesenPress ein Buch mit dem Titel „Scale-Out Storage - The Next Frontier in Enterprise Data Management“ und wurde bei Kapos als einer der Top 50 B2B-Produktvermarkter gelistet, die es zu beobachten gilt.