Source: Adobe Stock Images,

Autoren: Diego Oliveira Farias (oliveiraf@tcu.gov.br); Eric Hans Messias da Silva (erichm@tcu.gov.br);  Erick Muzart Fonseca dos Santo (erickmf@tcu.gov.br); Monique Louise de Barros Monteiro (moniquebm@tcu.gov.br); Tibério Cesar Jocundo Loureiro (tiberio.loureiro@tcu.gov.br)

Was ist künstliche Intelligenz?

Im Laufe der Zeit wurden verschiedene Definitionen des Begriffs künstliche Intelligenz (KI) gegeben und seine Assoziation mit anderen Begriffen, zum Beispiel maschinellem Lernen und Deep Learning, hat zu Schwierigkeiten geführt, das Thema besser zu verstehen.

Worauf sich das „künstlich“ in KI bezieht, ist relativ simpel. Es bezieht sich auf jede nicht natürliche Sache, die von Menschen geschaffen wurde. Auch die Verwendung von Begriffen wie Maschine, Computer oder System kann dies widerspiegeln. Intelligenz ist jedoch ein viel breiteres, stärker infrage gestelltes Konzept, weshalb man sich bisher noch auf keine Definition von KI einigen konnte (Miaihle und Hodes, 2017).

KI kann folgendermaßen definiert werden: die Verwendung einer digitalen Technologie zur Erstellung von Systemen, die in der Lage sind, Aufgaben zu erfüllen, von denen normalerweise angenommen wird, dass sie Intelligenz erfordern.

In diesem Zusammenhang können wir die Definition der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (Organization for Economic Cooperation and Development; OECD) erwähnen, laut der KI ein auf einer Maschine beruhendes System ist, das für bestimmte von Menschen definierte Ziele Voraussagen tätigen, Empfehlungen aussprechen oder Entscheidungen treffen kann, die Auswirkungen auf echte oder virtuelle Umfelder haben.

Bei der heutigen KI handelt es sich hauptsächlich um Maschinen, die sich der Statistik bedienen, um Muster in großen Datenmengen zu ermitteln und repetitive Aufgaben auszuführen, ohne dabei ständig auf menschliche Anleitung angewiesen zu sein. KI hat also nichts mit einer technologischen Lösung für alle Anwendungsfälle zu tun, da sie in der Regel nur mit aussagekräftigen, einschlägigen und qualitativ hochwertigen Daten gute Ergebnisse liefert.

Künstliche neuronale Netzwerke

Herkömmliche Maschinenlernalgorithmen stützen sich stark auf Datendarstellung, um Beziehungen zwischen den Daten und den daraus resultierenden Vorhersagen herzustellen. Ziehen Sie beispielsweise den Unterschied zwischen einem Diagnosesystem, das auf von einer Ärztin bzw. einem Arzt bereitgestellte Patienteninformationen angewiesen ist (zum Beispiel ein Brain-Machine-Interface – BMI, die Blutgruppe, den Blutzuckerspiegel), um eine Diagnose zu stellen, und einem System, das Tumore anhand eines Röntgenbilds erkennen kann. Während herkömmliche Algorithmen in der Lage sind, Korrelationen zwischen der ersten Gruppe von Informationen, die von der Ärztin bzw. dem Arzt bereitgestellt wurden, sogenannte Merkmale oder Attribute, und einer möglichen Diagnose zu extrahieren, stoßen die im zweiten Beispiel genannten Systeme bei der Analyse von unstrukturierten Daten wie Bildern an ihre Grenzen, da sie nicht in der Lage sind, aus einer Reihe von Pixeln Bedeutung zu gewinnen.

Eine Lösung für dieses Problem ist der Einsatz von Techniken zum Erlernen der Beziehungen zwischen Attributen, der Ausgabe (Vorhersage) und der besten Darstellungsart der Eingabedaten.

In diesem Zusammenhang ist das Transferlernen hervorzuheben. Es kommt immer öfter zum Einsatz, insbesondere in den Bereichen Computer Vision und Computerlinguistik (CL), in denen das Wissen eines in einem bestimmten Gebiet/für eine bestimmte Aufgabe vortrainierten Modells auf ein anderes Gebiet/eine andere Aufgabe „übertragen“ wird. Es ermöglicht die „Demokratisierung“ des Einsatzes von KI-Modellen, da neue Modelle mit nur einem Bruchteil der Daten und Rechenleistung, die notwendig gewesen wären, um ein Modell „von Grund auf“ einzulernen, trainiert werden können. Transferlernen orientiert sich an der Art, wie Menschen lernen, da wir nur selten bei Null anfangen, sondern oft durch Analogie lernen, indem wir zuvor erworbene Erfahrungen in neue Kontexte einbinden.

Zweifelsohne führten die in den letzten Jahren verwendeten Architekturen und Trainingsstrategien der neuronalen Netzwerke zu erheblichen Fortschritten bei Aufgaben wie Textübersetzung, Fragenbeantwortung und Chatbots, auch bei von Null an antrainierten Aufgaben. Erhebliche Veränderungen in der Stichprobenverteilung der Daten führten jedoch zu einer Leistungsverschlechterung, was darauf hindeutet, dass die Modelle Spezialisierungen ausbildeten, die nur bei bestimmten Eingaben (zum Beispiel bestimmten Sprachen oder Textsorten) gut funktionieren.

Bei weniger verbreiteten Sprachen als Englisch oder gar spezifischeren oder unerforschten Aufgaben bestehen weiterhin Herausforderungen. Bei Sprachen gibt es ein Problem mit weniger gesprochenen Sprachen, für die nur begrenzt gekennzeichnete Korpora für das Training von CL-Modellen zur Verfügung stehen.

In den 1960ern wurden in einem ersten Schritt in Richtung Transferlernen Vektorräume verwendet, um Wörter als numerische Vektoren darzustellen. Mitte der 2010er wurden Modelle wie word2vec, sent2vec und doc2vec eingeführt. Diese Modelle wurden darauf trainiert, Wörter, Sätze und Dokumente in Vektorräumen auszudrücken, um den Abstand zwischen den Vektoren in Beziehung mit dem Bedeutungsunterschied zwischen den entsprechenden Einheiten zu setzen. Das Training zielte auf die Assoziation der Bedeutung eines Worts mit dessen Kontext, also angrenzenden Wörtern im Text, ab und stellt ein Beispiel für unüberwachtes Lernen dar.

Sobald Wörter, Sätze oder Absätze als Vektoren vorliegen, ist es möglich, mittels Algorithmen Klassifizierungsverfahren oder Clusteranalysen, bei denen die Eingabedaten als Punkte in einem Vektorraum dargestellt werden, anzuwenden. Bei der Klassifizierung handelt es sich beispielsweise um einen halbüberwachten Ansatz, da die Klassifizierungsaufgabe überwacht ist, die Darstellung der Eingabedaten jedoch auf nicht überwachte Weise gewonnen wurde, wobei die textuelle Semantik weiterhin eingebettet ist.

Dann folgte die Vektorisierung auf Zeichenebene, um mit nicht im ursprünglichen Wortschatz enthaltenen Wörtern umzugehen (zum Beispiel neuen Wörtern, Slang, Emojis, Fremdwörtern oder Personennamen).

Diese Beschreibung kann als frühe Form des Transferlernens angesehen werden, da das vortrainierte Vektorisierungsmodell die Semantik bzw. die Bedeutung von Wörtern, Sätzen etc. bereits zu einem bestimmten Grad einbauen kann.

Im Jahr 2018 gab es eine echte Revolution im CL-Bereich, als Forscherinnen und Forscher begannen, Transferlernen auf einer abstrakteren Ebene einzusetzen. Dabei stellten sie nicht nur vortrainierte Vektorisierungsmodelle, sondern ganze neuronale Netzwerke, die auf einer höheren Ebene mit generischen, unüberwachten Aufgaben vortrainiert wurden, bereit. Beispiele dafür sind neuronale Netzwerke, die Sprachmodelle zur Anwendung bringen, oder statistische Modelle, die darauf trainiert wurden, das nächste Wort oder die nächste Wortgruppe anhand der vorherigen Begriffe vorherzusagen. Mithilfe der sogenannten Feineinstellung kann man mit einem dieser vortrainierten Modelle ein kurzes zusätzliches Training, das sich auf die Optimierung des Modells für eine bestimmte zu trainierende Aufgabe konzentriert, durchführen, wobei die Gewichtung des Netzwerks angepasst wird. Diese Entwicklung wird sogar als „ImageNet“-Moment bezeichnet – in Anlehnung an die weitverbreitete Anwendung von vortrainierten neuronalen Netzwerken auf die ImageNet-Datenbank für verschiedenste Anwendungen in der Computer Vision.

Beim Transferlernen in der CL ist der generative vortrainierte Transformer (generative pre-trained transformer; GPT) von OpenAI unter den bahnbrechenden Innovationen hervorzuheben. Es basiert auf dem Neuronalen-Netzwerk-Modell Transformer (Vaswani et al., 2017), das besseren Parallelismus und bessere Leistung ermöglicht. Vorherige Architekturen hatten nicht das gleiche Maß an Parallelismus sowie Schwierigkeiten bei der Verarbeitung langer Texte. Seine neueste Auflage – GPT-4 – ist in der Lage, realistische Texte, die jenen von Menschen gleichen, automatisch zu generieren.

ChatGPT, große Sprachmodelle und generative KI

Im November 2022 lies OpenAI ChatGPT vom Stapel und führte künstliche Intelligenz auf eine neue Stufe: Innerhalb weniger Tage wurde der Chatbot aufgrund seiner beeindruckenden Fähigkeiten, Texte zu verstehen und zu generieren, zur berühmtesten Errungenschaft der jüngeren Technologiegeschichte.

Trotz seiner „Intelligenz“ und Beliebtheit beruht ChatGPT im Grunde auf einer alten Methode: der Sprachmodellierung. Einfach definiert geht es bei der Sprachmodellierung um die Verwendung statistischer Modelle zur Vorhersage der häufigsten Wortfolgen einer Sprache. Es handelt sich also um Modelle, die anhand einer gegebenen Wortfolge in der Lage sind, das nächstwahrscheinliche Wort vorherzusagen. Jedes von dem Modell vorhergesagte Element kann wiederverwendet werden, um ein weiteres Wort vorherzusagen. Dieser Vorgang wird weitergesponnen, bis wir zu ganzen Absätzen und Texten gelangen.

In den letzten Jahren begannen Forscherinnen und Forscher damit, neuronale Sprachmodelle zu verwenden. Einfach ausgedrückt handelt es sich dabei um Sprachmodelle, die als neuronale Netzwerke ausgeführt werden. Nehmen wir an, wir haben einen riesigen Datensatz bestehend aus Texten. In diesem Fall können wir ihn verwenden, um ein neuronales Netzwerk zu trainieren, dessen Optimierungsziel darin besteht, das wahrscheinlichste Wort anhand einer Wortfolge, die ihm bis zur aktuellen Iteration gegeben wurde, zu generieren. Diese Idee wurde ursprünglich bei rekurrenten neuronalen Netzwerken angewendet. Dennoch wies die Transformerachitektur – eine neue Modellfamilie, die auf Aufmerksamkeitsmodellen und neuronalen Feedforward-Netzwerken beruht – im Jahr 2018 sogar noch bessere Ergebnisse auf.

Als die Anzahl der Parameter in diesen neuronalen Sprachmodellen von Millionen auf Milliarden oder Billiarden stieg, wurden sie in weiterer Folge große Sprachmodelle genannt.

Ein wesentlicher Vorteil beim Training von Sprachmodellen liegt im Datensatz: Er erfordert keine Kennzeichnung durch Menschen. Denn ein Textkorpus ist bereits in dem Sinne „annotiert“, dass wir das nächste Wort stets kennen. Die Kennzeichnungen sind bereits vorhanden, auch in Situationen mit etwas anderen Optimierungszielen (zum Beispiel: Wörter ausblenden und das Modell darauf trainieren, die ausgeblendeten Wörter vorherzusagen). Diese Technik heißt Selbstüberwachung, kann jedoch auch als eine Art unüberwachtes Lernen angesehen werden (zumindest aus der Perspektive der menschlichen Annotation).

Uns sind derzeit nicht viele Einzelheiten über das Innenleben von ChatGPT bekannt. Wir wissen nur, dass es sich neben der herkömmlichen Sprachmodellierung noch zusätzlicher Techniken aus dem Bereich des bestärkenden Lernens bedient. Dank seiner Einführung wurden jedoch bereits mehrere leistungsfähige Open-Source-Sprachmodelle auf den Markt gebracht. Diese Modelle sind für Forscherinnen und Forscher sowie staatliche Einrichtungen von besonderem Interesse, da sie eine kostengünstige Alternative zu den OpenAI-Modellen darstellen. Darüber hinaus haben wir die komplette Kontrolle über das Modell und können es an unsere Anforderungen anpassen (zum Beispiel auf das Verstehen von Rechtstexten).

Letztendlich haben wir in der ORKB Brasilien (TCU) eine auf ChatGPT beruhende Software mit dem Namen ChatTCU eingeführt. Die aktuelle Version funktioniert wie eine „Sicherheitshülle“ über dem zugrunde liegenden OpenAI-Modell, da es den Prüferinnen und Prüfern einen sicheren Nachrichtenverkehr ohne die Weiterleitung vertraulicher Daten an OpenAI ermöglicht. In künftigen Versionen werden wir die Funktionen von ChatTCU mit Daten über die Rechtsprechung des TCU sowie einigen anderen öffentlichen und nicht öffentlichen Daten im Eigentum der Institution erweitern.

Fazit

Die Einbindung von KI in die Prüftätigkeit bietet ORKB eine einzigartige Gelegenheit, die Leistungsfähigkeit und Effizienz ihres Betriebs zu steigern. Durch die automatisierte Analyse großer Datenmengen kann KI komplexe Muster, Anomalien sowie Trends in Echtzeit ermitteln, wodurch Prüferinnen und Prüfer wertvolle Einblicke erhalten. Darüber hinaus kann KI Kontroll- und Analyseverfahren glätten und somit die für eine vollständige Prüfung benötigte Zeit wesentlich verkürzen. KI befreit Prüfungsfachleute von Routine- und repetitiven Aufgaben und ermöglicht ihnen, ihr Fachwissen auf Spitzenanalysen sowie strategische Entscheidungen zu fokussieren. Schlussendlich sind ORKB durch den Einsatz von KI in der Lage, die Treffsicherheit, Vollständigkeit sowie Verlässlichkeit ihrer Prüfungstätigkeiten zu steigern, wodurch das Vertrauen der Öffentlichkeit in Finanzinstitutionen und geprüfte Stellen gestärkt wird.

Back To Top