Prüfung maschineller Lernalgorithmen: Ein Whitepaper für Wirtschaftsprüfer

Da sich der Einsatz von KI und ML intensiviert, wird es für öffentliche Prüfer unerlässlich sein, sich den Herausforderungen dieser zunehmend invasiven Technologie zu stellen.

von Jan Roar Beckstrom, Chief Data Scientist – The Innovation Lab, Office of the Auditor General of Norway

Behörden und Regierungsstellen haben bereits mit der Entwicklung und Implementierung von Algorithmen für künstliche Intelligenz (KI) und maschinelles Lernen (ML) begonnen, um öffentliche Dienstleistungen zu verbessern und Kosten zu senken.

Während die voraussichtlichen Gewinne immens sind, birgt diese Technologie auch neue Herausforderungen und Risiken, wie z. B. die Datensicherheit, die Möglichkeit einer automatisierten und institutionalisierten Ungleichbehandlung und die Massenproduktion falscher oder diskriminierender Entscheidungen.

Mit zunehmender Verbreitung von KI wird es für die Obersten Rechnungskontrollbehörden (ORKB) immer notwendiger, Anwendungen zu prüfen, die auf KI- und ML-Algorithmen basieren – normalerweise als besondere Leistungs- oder Compliance-Prüfungsfälle. Darüber hinaus sind KI-Modelle in der Regel in breitere Informationstechnologie (IT)-Infrastrukturen eingebettet, was auf die Notwendigkeit hindeutet, IT-Audit-Elemente zu integrieren.

Derzeit gibt es für öffentliche Prüfer nur begrenzte Leitlinien zur Prüfung von KI- und ML-Algorithmen. Um diese Lücke zu schließen, hat das Büro des Obersten Rechnungshofs von Norwegen – zusammen mit datenwissenschaftlichen Kollegen der ORKBn von Finnland, Deutschland, den Niederlanden und dem Vereinigten Königreich – „Auditing Machine Learning Algorithms: A White Paper for Public Auditors“ entwickelt.

Das Papier, online verfügbar unter www.auditingalgorithms.net, fasst die wichtigsten Risiken zusammen, die mit dem Einsatz von KI und ML in öffentlichen Diensten verbunden sind. Basierend auf den gesammelten Erfahrungen mit KI-Audits und Audits anderer Softwareentwicklungsprojekte schlägt das Whitepaper auch einen Audit-Katalog vor, der methodische Ansätze für KI-Anwendungs-Audits enthält.

Dieser Artikel geht kurz auf einige der wichtigsten Punkte ein.

Projektmanagement & Governance von KI-Systemen

Ist hochspezialisiertes technisches Wissen über KI-Modelle erforderlich, um Algorithmen zu prüfen? Nicht unbedingt.

Die Prüfung der Entwicklung eines KI-Systems hat viel mit jedem Projektmanagement-Audit gemeinsam. Wenn eine Regierungsbehörde KI in einem bestimmten Umfeld eingeführt hat, kann eine sehr gute und einfache Frage lauten: „Gibt es ein klares Ziel für die gewünschte Leistung?“ Wenn externe Berater das KI-System implementiert haben: „Gibt es eine nachhaltige Struktur, um das Modell aufrechtzuerhalten, wenn die Berater gehen?“

Um den Bedarf an Spezialkenntnissen zu verringern, ist es wichtig, dass die Agentur über eine umfassende Dokumentation der Modellentwicklung und Personal verfügt, das das Modell versteht.

Überlegungen zu Daten

Datenqualität ist immer wichtig, aber in der KI-Modellierung ist sie entscheidend. Vereinfachte, voreingenommene Daten können zu unbeabsichtigten fehlerhaften Ergebnissen führen.

Ein Beispiel: Wenn dieselben Daten sowohl zum Erstellen des Modells (während der Trainingsphase) als auch zum Überprüfen der Leistung (während des Testens oder der Validierung) verwendet werden, werden die Leistungsmetriken höchstwahrscheinlich überhöht sein. Dieses „Overfitting“ führt zu Leistungseinbußen, wenn es auf neue, unbekannte Produktionsdaten angewendet wird.

Eine weitere wichtige Überlegung im Zusammenhang mit Daten betrifft den Datenschutz und die Verwendung personenbezogener Daten. Die Europäische Union hat die Datenschutz-Grundverordnung (DSGVO) eingeführt, die die Datenminimierung (Beschränkung der Menge der verwendeten personenbezogenen Daten auf das zur Erreichung des jeweiligen Ziels erforderliche Maß) als zentralen Grundsatz beibehält. In einer KI-Umgebung bedeutet dies, die breite Verwendung personenbezogener Daten beim Trainieren oder Testen von Modellen einzuschränken. Obwohl Länder in anderen Teilen der Welt unterschiedliche Vorschriften haben, ist die Minimierung der Verwendung personenbezogener Daten auf das absolut Notwendige eine gute Faustregel.

Modellentwicklung

Eine transparente, gut dokumentierte Modellentwicklung erleichtert die Reproduzierbarkeit, die leicht von einem Prüfer mit ausreichenden KI- und ML-Kenntnissen getestet werden kann, der eine Dokumentationsprüfung durchführt.

Vorzugsweise enthält die Dokumentation eine gut strukturierte und gut kommentierte Codebasis (gemäß den Standards der Programmiersprache), umfangreiche Aufzeichnungen über die verwendete Hardware und Software und Erläuterungen dazu, wie das Modell gewartet wird, sobald es in Produktion geht.

Ebenso wichtig ist, dass der ausgewählte KI- oder ML-Algorithmus gut artikuliert ist, insbesondere wenn ein schwer zu erklärendes Modell verwendet wird. Das Trainieren und Testen des gewählten Modells im Vergleich zu anderen Modellen kann für Auditoren hilfreich sein, um das gewählte Modell zu verifizieren.

Fairness und Gleichbehandlung stehen weiterhin im Vordergrund der Modellentwicklung, da algorithmische Voreingenommenheit potenziell zu institutionalisierter Diskriminierung führen kann.

Wenn die zum Erstellen eines Modells verwendeten Daten leicht voreingenommen sind, kann ein nachlässig entwickeltes Modell solche Eigenschaften verstärken. Gruppenbasierte Fairness erfordert ML-Modelle, um verschiedene Gruppen auf ähnliche Weise zu behandeln. Eigenkapital kann etwas komplexer sein. Wenn beispielsweise die zum Trainieren eines KI-Modells verwendeten Daten demografische Unterschiede auf Gruppenebene enthalten, lernt das Modell diese Unterschiede, was zu irreführenden Vorhersagen führen kann.

Die Konstruktion eines KI-Modells, das auf voreingenommenen Daten basiert, kann zu verzerrten Ergebnissen führen, die wiederum zur Grundlage für automatisierte Entscheidungen werden, die zu noch voreingenommeneren Schlussfolgerungen führen können.

Der Einsatz von KI und ML im öffentlichen Sektor kann enorme Vorteile bringen. Gleichzeitig besteht die reale Gefahr, dass ein gescheiterter Einsatz die Demokratie und das soziale Gefüge schädigen kann, indem er möglicherweise Diskriminierung und Ungleichbehandlung in großem Umfang fördert.

Da sich der Einsatz von KI und ML intensiviert, wird es für öffentliche Prüfer unerlässlich sein, sich den Herausforderungen dieser zunehmend invasiven Technologie zu stellen.

„Auditing Machine Learning Algorithms: A White Paper for Public Auditors“ zielt darauf ab, ORKB dabei zu unterstützen, mehr über die Prüfung von KI- und ML-Algorithmen zu erfahren und Prüfern dabei zu helfen, besser für die Herausforderungen gerüstet zu sein.

Back To Top