Erfahrungen mit der Prüfung von Algorithmen und künstlicher Intelligenz in der niederländischen Staatsverwaltung
von Colin van Noordt, PhD, und Esther Meijer-van Leijsen, PhD, ORKB der Niederlande
Gründe für die Prüfung von Algorithmen und KI
Die Anwendung von Algorithmen und Technologien mit künstlicher Intelligenz (KI) in der Staatsverwaltung bietet viele Chancen für die Verbesserung staatlicher Prozesse, der Erbringung staatlicher Leistungen, der Einbindung von Bürgerinnen und Bürgern sowie zur Bewältigung gesellschaftlicher Herausforderungen. Folglich werden derartige Technologien zu einem immer wichtigeren Bestandteil der staatlichen Funktionsweise. Jedoch gehen mit der Einführung von KI auch Risiken einher, wenn sie nicht verantwortungsvoll eingesetzt wird. So haben KI-Anwendungen möglicherweise Vorurteile, die diskriminierende Folgen haben können, oder personenbezogene Daten werden womöglich nicht hinreichend geschützt. Fehlende Transparenz bei der Verwendung der Technologie könnte Herausforderungen in Bezug auf ihre Kontrolle nach sich ziehen.
Verfahren für die Prüfung von Algorithmen
Im Jahr 2021 erstellte die ORKB der Niederlande (vom Englischen „Netherlands Court of Audit“ kurz NCA) einen Prüfungsrahmen für Algorithmen. Der Rahmen gilt sowohl für einfachere regelbasierte Systeme als auch für komplexere auf maschinellem Lernen aufbauende Systeme. Es handelt sich um einen multidisziplinären Rahmen, der Kontroll-, Datenschutz-, Modell- und Datennormen sowie allgemeine IT-Kontrollen umfasst. In einem früheren Beitrag in dieser Zeitschrift erläuterten wir die Gründe für die Entwicklung des Rahmens sowie den entsprechenden Hintergrund.
Im Jahr 2022 verwendeten wir diesen Prüfungsrahmen, um neun Algorithmen zu prüfen, die vom niederländischen Staat verwendet werden. Wir stellten fest, dass drei der neun geprüften Algorithmen alle Grundanforderungen erfüllten. Die restlichen sechs erfüllten diese nicht und setzten die Staatsverwaltung verschiedenen Risiken aus: von unzureichender Kontrolle über die Leistung sowie Wirksamkeit des Algorithmus über Vorurteile und Datenverlust bis hin zu unbefugtem Zugriff.
Seit 2022 prüfen wir KI-Anwendungen im Rahmen unserer jährlichen Prüfungen. So können wir besser verstehen, was diese Algorithmen tatsächlich tun, wie der Staat die Kontrolle über deren Einsatz sicherstellt und wie negative Folgen vermieden werden können. Dieser Fokus-Beitrag enthält die praktischen Erfahrungen, die dabei gemacht wurden, und liefert einige daraus gewonnene Erkenntnisse.
Schrittweise KI-Beurteilung
Wir bilden uns unsere Meinung über den Einsatz von Algorithmen und KI-Technologien folgendermaßen:
- Wirksamkeit der Kontrollen: Auf der Grundlage der vorgelegten Unterlagen sowie durchgeführten Interviews prüfen wir die Wirksamkeit aller in unserem Prüfungsrahmen enthaltenen Kontrollen. Eine Kontrolle wird als „wirksam“, „bedingt wirksam“ oder „unwirksam“ eingestuft.
- Restrisiko: Wir stufen das Restrisiko als niedrig, mittel oder hoch ein. Das Restrisiko ist stets hoch, wenn die Kontrollen unwirksam sind. Die Risikoklassifizierung kann je nach Kontext bzw. anderen Zusatzmaßnahmen auf mittel oder niedrig herabgesetzt werden.
- Fazit: Anschließend ziehen wir unsere Schlussfolgerungen und entscheiden, ob der Einsatz des Algorithmus den in unserem Prüfungsrahmen festgelegten Anforderungen entspricht oder nicht.
- Endstellungnahme: Falls der Algorithmus dem Prüfungsrahmen nicht entspricht, entscheiden wir, ob wir der Ministerin bzw. dem Minister Bedenken oder Mängel ausweisen. Dabei handelt es sich um eine globale Stellungnahme.
Praktische Erfahrungen mit der Prüfung von Algorithmen
Obwohl Kontrollnormen oft eher allgemein gehalten sind, sind diese Aspekte für alle Bereiche von Bedeutung und bilden eine wichtige Grundlage für die Prüfungen. In den Worten eines Prüfteam-Mitglieds:
„Wenn wir im Zuge unserer Prüfungen Probleme bei Kontrollaspekten feststellen, treten diese oft auch in anderen Bereichen zutage.“
Beispielsweise können geprüfte Stellen auf Modellebene eines Algorithmus oftmals keinerlei Nachweise über die Risikominderung erbringen, wenn die Leistung eines Algorithmus nicht hinreichend überwacht wird. Wenn die Entwicklung und Verwaltung eines Algorithmus auf einen Dritten ausgelagert wird, verstärken sich diese Risiken unter Umständen. Wir sind jedoch der Ansicht, dass die Zusammenarbeit mit einem externen Partnerunternehmen die staatliche Verwaltung nicht von der Verantwortung für die Kontrolle ihrer Algorithmen entbindet.
Unsere Prüfungen zeigten, dass staatliche Organisationen eine breite Palette an unterschiedlichen Datenschutzpraktiken aufweisen. Diese reicht von Organisationen, die ausführliche Datenschutz-Folgenabschätzungen (DSFA) durchführen sowie Datenzuständigkeiten klar festlegen, bis zu Organisationen, die Schwierigkeiten haben, die rechtlichen Vorgaben einzuhalten. Die zweite Kategorie hatte häufig einen Rückstand bei nicht hinreichend dokumentierten Algorithmen und verfügte nur über begrenzte Ressourcen, um diesen Rückstand abzuarbeiten. Uns kam eine Organisation unter, die nur mit einem kleinen Team am Abschluss von über 50 verschiedenen DSFA arbeitete. Wie detailliert Bürgerinnen und Bürger über die Verwendung ihrer personenbezogenen Daten aufgeklärt werden, variiert ebenfalls erheblich. In manchen Fällen fanden wir lediglich allgemeine Informationen auf Websites vor, während Bürgerinnen und Bürger diese Informationen in anderen Fällen über spezielle Tools erhielten. Positiv zu vermerken ist, dass wir einen deutlichen Einfluss unserer Prüfungen auf diese unterschiedlichen Praktiken feststellen konnten:
„Infolge unserer Prüfungen hat der Datenschutz eine höhere Priorität erhalten und die Organisationen haben ihre Datenverarbeitungsdokumentation nach diesen Prüfungen erheblich verbessert.“
Bei der Prüfung der Daten- und Modellaspekte waren wir mit zwei Hauptproblemen konfrontiert. Zum einen gibt es derzeit keine standardisierten Methoden zur Risikominderung, zum Beispiel zur Beseitigung von Vorurteilen oder zur Modellauswahl. Zum anderen findet die Entwicklung der Algorithmen oft in einer isolierten Umgebung statt. Daher kann es schwierig sein, die Wünsche der Organisation an das Entwicklungsteam weiterzugeben. Das Gegenteil ist auch der Fall: Zum Beispiel wenn Modellierungsentscheidungen nicht so kommuniziert werden, dass sie für andere Fachleute, etwa mit juristischem Hintergrund oder im Management, nachvollziehbar sind.
Unsere Erfahrungen mit der Prüfung von allgemeinen IT-Kontrollen (vom Englischen „General IT Controls“ kurz GITC) zeigen, wie wichtig es ist, sich ausreichend Zeit zu nehmen, um den IT-Administratorinnen und -Administratoren den Prüfungsrahmen zu erklären. Ebenso wichtig ist es, den Umfang des Prüfungsgegenstands zu bestimmen, zum Beispiel die verschiedenen IT-Komponenten der IT-Systeme und die gesamte Leistungserbringungskette. Die Bestimmung dieses Umfangs kann dazu beitragen, die beteiligten Parteien zu ermitteln und zu analysieren, wer für eine bestimmte Komponente zuständig ist. Am wichtigsten ist jedoch, dass der Prüfungsrahmen nur ein Instrument und kein Ziel an sich ist. Eines unserer Teammitglieder betonte:
„Kein Algorithmus oder KI-System ist gleich und möglicherweise sind Anpassungen an Besonderheiten, einzigartige Risiken und Bedürfnisse erforderlich, damit diese zielgerichtet und wirksam eingesetzt werden können.“
Trotz der hohen Spezialisierung auf einzelne Bereiche im Zuge der Prüfung von Algorithmen ist die Komplementarität zwischen ihnen von entscheidender Bedeutung. In den Worten der Projektleitung:
„Prüfungen von KI-Anwendungen erfordern viel Zusammenarbeit im Team und den Austausch von Erkenntnissen untereinander. Das ist wie bei verschiedenen Puzzleteilen, die zusammengesetzt werden. Keiner der Bereiche sieht das große Ganze.“
Die Bedeutung dieser Komplementarität sollte im Laufe des Prüfungsverfahrens und des Zeitplans niemals unterschätzt werden. Bei einer umfassenden Prüfung eines Algorithmus müssen alle Perspektiven zusammenkommen. Die Zusammenarbeit in einem multidisziplinären Team ist eine wichtige Grundvoraussetzung für eine erfolgreiche Prüfung.
Auswirkungen und Zukunftsperspektiven
Infolge unserer Prüfungen bemerkten wir eine deutliche Veränderung in Bezug auf den verantwortungsvollen Einsatz von KI-Systemen in der niederländischen Staatsverwaltung. Unsere Prüfungen nahmen direkten Einfluss auf die geprüften Stellen, insbesondere wenn Mängel festgestellt wurden. Sie dienten diesen Organisationen unter Umständen als Weckruf, der sie dazu veranlasste, die Risiken im Hinblick auf die eingesetzten KI-Systeme wirksamer zu mindern. Gleichzeitig stellten wir einen weitreichenderen Einfluss auf die niederländische Gesellschaft fest. Unser Prüfungsrahmen diente als Grundlage für weitere Leitfäden zum verantwortungsvollen KI-Einsatz in den Niederlanden, sowohl im öffentlichen als auch im privaten Sektor. Die besondere, unabhängige und vertrauenswürdige Rolle einer Obersten Rechnungskontrollbehörde in diesem neuen Bereich leistet daher einen nennenswerten Beitrag zur Kontrolllandschaft von KI-Anwendungen.
Zusammen mit dem Feld entwickeln wir uns nach wie vor weiter. Wir beobachten die Entwicklungen im Bereich der generativen KI sehr genau, da diese mit Sicherheit Einfluss auf die staatlichen Aktivitäten nehmen werden. Ebenso wird das Gesetz über KI der Europäischen Kommission, das neue Vorschriften für künstliche Intelligenz einführt, bald in Kraft treten. Für besonders risikoreiche KI-Systeme werden mehrere neue Rechtsvorschriften gelten. Wir werden diese Aspekte in unserem Prüfungsrahmen ebenfalls berücksichtigen müssen. Allerdings ist es auch vor dem Hintergrund dieser Entwicklungen wichtig, nicht auf sie zu warten. KI-Systeme werden bereits jetzt verwendet und unser bester Ratschlag lautet: Beginnen Sie einfach, KI-Systeme zu prüfen!