Évolution et Applications de l’intelligence artificielle dans les ISC

Source: Adobe Stock Images,

Auteurs: Diego Oliveira Farias (oliveiraf@tcu.gov.br); Eric Hans Messias da Silva (erichm@tcu.gov.br);  Erick Muzart Fonseca dos Santo (erickmf@tcu.gov.br); Monique Louise de Barros Monteiro (moniquebm@tcu.gov.br); Tibério Cesar Jocundo Loureiro (tiberio.loureiro@tcu.gov.br)

Qu’est-ce que l’intelligence artificielle ?

Au fil du temps, de nombreuses définitions ont été données au terme « intelligence artificielle » (IA), et l’association de ce terme avec d’autres, tels que l’apprentissage automatique et le « deep learning », a entraîné des difficultés pour une meilleure compréhension du sujet.

L’aspect artificiel de l’IA est relativement simple. Il s’agit de toute chose non naturelle créée par l’homme. L’utilisation de termes tels que machines, ordinateurs ou systèmes peut également la représenter. L’intelligence, en revanche, est un concept beaucoup plus large et contesté, ce qui explique pourquoi un accord sur la définition de l’IA n’a pas encore été trouvé (Miaihle et Hodes, 2017).

L’IA peut être définie comme l’utilisation de la technologie numérique pour créer des systèmes capables de réaliser des tâches habituellement considérées comme nécessitant de l’intelligence. 

Dans ce contexte, on peut citer la définition de l’Organisation de coopération et de développement économiques (OCDE), qui considère l’IA comme un système basé sur une machine qui peut, pour un ensemble spécifique d’objectifs définis par l’homme, faire des prédictions, des recommandations ou des décisions qui influencent des environnements réels ou virtuels.

L’IA actuelle implique principalement des machines qui utilisent des statistiques pour trouver des modèles dans de grandes quantités de données et effectuer des tâches répétitives sans avoir besoin d’être constamment guidées par l’homme. Ainsi, l’IA n’est pas liée à une solution technologique appliquée à tous les cas, car elle ne fournit généralement de bonnes performances qu’avec des données significatives, pertinentes et de haute qualité.

Réseaux neuronaux artificiels

Les algorithmes traditionnels d’apprentissage automatique s’appuient fortement sur la représentation des données pour créer des relations entre les données et les prédictions qui en découlent. Par exemple, imaginez la différence entre un système de diagnostic qui dépend des informations sur le patient fournies par un médecin (par exemple, l’interface cerveau-machine – l’IMC, le groupe sanguin, le niveau de glucose dans le sang) pour proposer un diagnostic et un système capable d’identifier des tumeurs à partir d’une image radiographique. Alors que les algorithmes traditionnels peuvent extraire des corrélations entre le premier groupe d’informations fournies par le médecin, appelées caractéristiques ou attributs, et un diagnostic potentiel, dans le second exemple, ces systèmes ont des limites dans l’analyse de données non structurées comme les images, car ils ne peuvent pas extraire le sens d’un simple ensemble de pixels. 

Une solution à ce problème consiste à utiliser des techniques pour apprendre les relations entre les attributs et la sortie (prédiction) et la meilleure façon de représenter les données d’entrée.

Dans ce contexte, la technique de l’apprentissage par transfert se distingue. Elle est de plus en plus utilisée, en particulier dans les domaines de la vision artificielle et du traitement du langage naturel (NLP), où les connaissances acquises par un modèle pré-entraîné dans un domaine/tâche spécifique sont « transférées » à un autre domaine/tâche. Il permet de « démocratiser » l’utilisation des modèles d’IA puisque de nouveaux modèles peuvent être formés avec seulement une fraction des données et des ressources informatiques qui seraient utilisées si un modèle devait être appris « à partir de zéro ». L’apprentissage par transfert s’inspire de la manière dont les humains apprennent, car nous apprenons rarement quelque chose à partir de zéro, mais souvent par analogie, en incorporant une expérience précédemment acquise dans de nouveaux contextes.

Il ne fait aucun doute que les architectures et les stratégies d’apprentissage des réseaux neuronaux adoptées ces dernières années ont permis des avancées considérables dans des tâches telles que la traduction de textes, la réponse à des questions et les chatbots, même dans des tâches formées à partir de zéro. Toutefois, des changements importants dans la distribution des échantillons de données ont entraîné une dégradation des performances, ce qui indique que les modèles se sont spécialisés pour ne donner de bons résultats qu’avec des données d’entrée spécifiques (par exemple, des langues ou des types de texte spécifiques).

Des défis restent à relever pour les langues moins populaires que l’anglais ou pour des tâches encore plus spécifiques ou inexplorées. Dans le cas des langues, un problème se pose avec les langues moins parlées qui ont une disponibilité limitée de corpus étiquetés pour l’entraînement des modèles de NLP.

Dans les années 1960, la première étape de l’apprentissage par transfert a consisté à utiliser des espaces vectoriels pour représenter les mots sous forme de vecteurs numériques. Au milieu des années 2010, des modèles tels que word2vec, sent2vec et doc2vec ont été introduits. Ces modèles ont été entraînés à exprimer les mots, les phrases et les documents dans des espaces vectoriels de sorte que la distance entre les vecteurs soit liée à la différence de signification entre les entités correspondantes. L’entraînement visait à associer la signification d’un mot à son contexte, c’est-à-dire aux mots adjacents dans le texte, ce qui représente un exemple d’apprentissage non supervisé.

Une fois que les mots, les phrases ou les paragraphes sont représentés sous forme de vecteurs, il est possible d’utiliser des algorithmes de classification ou de regroupement (clustering), dans lesquels les données d’entrée sont représentées sous forme de points dans un espace vectoriel. Par exemple, dans le cas de la classification, il s’agit d’une approche semi-supervisée puisque la tâche de classification est supervisée, mais la représentation des données d’entrée a été obtenue de manière non supervisée tout en intégrant la sémantique textuelle.

Par la suite, la vectorisation au niveau des caractères a commencé à être utilisée pour traiter les mots ne figurant pas dans le vocabulaire initial (par exemple, les nouveaux mots, l’argot, les emojis, les mots étrangers ou les noms de personnes). 

Cette description peut être considérée comme une forme précoce d’apprentissage par transfert, puisque le modèle de vectorisation pré-entraîné peut déjà intégrer un certain niveau de sémantique ou de signification aux mots, aux phrases, etc.

En 2018, une véritable révolution s’est produite dans le domaine du NLP lorsque les chercheurs ont commencé à appliquer l’apprentissage par transfert à un niveau plus abstrait, en fournissant non seulement des modèles de vectorisation pré-entraînés, mais aussi des réseaux neuronaux entiers pré-entraînés sur des tâches génériques et non supervisées à un niveau plus élevé. Les exemples incluent les réseaux neuronaux mettant en œuvre des modèles linguistiques, des modèles statistiques entraînés à prédire le mot ou l’ensemble de mots suivants en fonction des termes précédents. Grâce à un processus connu sous le nom de réglage fin, il est possible de prendre l’un de ces modèles pré-entraînés et d’effectuer un bref entraînement supplémentaire axé sur l’optimisation du modèle pour la tâche spécifique à entraîner, en ajustant les poids du réseau. Ce mouvement est même appelé le « moment ImageNet », en raison de l’utilisation généralisée de réseaux neuronaux pré-entraînés sur la base de données ImageNet pour diverses applications dans le domaine de la vision par ordinateur.

Le transformateur génératif pré-entraîné (GPT) de l’OpenAI se distingue parmi les innovations pionnières en matière d’apprentissage par transfert pour le NLP. Basé sur le modèle de réseau neuronal appelé Transformer (Vaswani et al, 2017), qui permet un plus grand parallélisme et de meilleures performances par rapport aux architectures précédentes qui n’avaient pas le même degré de parallélisme et avaient des difficultés à traiter les textes longs. Dans sa formulation la plus récente – GPT-4 – il est capable de générer automatiquement des textes réalistes, similaires à ceux écrits par des humains.

ChatGPT, les grands modèles de langage et l’IA générative

En novembre 2022, l’OpenAI ChatGPT a été lancé, conduisant l’intelligence artificielle à une nouvelle étape : en quelques jours, le chatbot est devenu la réalisation la plus célèbre de l’histoire récente de la technologie en raison de ses capacités impressionnantes de compréhension et de génération de textes.

Malgré son « intelligence » et sa popularité, le cœur de ChatGPT s’appuie sur une technique ancienne : la modélisation du langage. Dans une définition simple, la modélisation linguistique consiste à utiliser des modèles statistiques pour prédire les séquences de mots les plus courantes dans une langue. Il s’agit donc de modèles capables de prédire le mot suivant le plus probable à partir d’une série de mots. Chaque élément prédit par le modèle peut être réutilisé pour prédire un autre mot, et ce processus se poursuit jusqu’à ce que nous obtenions des paragraphes et des textes complets.

Au cours des années écoulées, les chercheurs ont commencé à utiliser des modèles de langage neuronaux. En termes simples, il s’agit de modèles de langage mis en œuvre sous forme de réseaux neuronaux. Supposons que nous disposions d’un vaste ensemble de textes. Dans ce cas, nous pouvons l’utiliser pour entraîner un réseau neuronal dont l’objectif d’optimisation est de générer le mot le plus probable à partir de la séquence de mots qui lui a été donnée jusqu’à l’itération actuelle. Cette idée a d’abord été mise en œuvre avec des réseaux neuronaux récurrents. Toujours est-il qu’en 2018, l’architecture Transformer – une nouvelle famille de modèles basés sur des modèles d’attention et des réseaux neuronaux feed-forward – a démontré des résultats encore meilleurs.

Ensuite, lorsque le nombre de paramètres de ces modèles neuronaux est passé de millions à des milliards ou des trillions, ils ont été appelés « grands modèles de langage ».

L’un des principaux avantages de la formation de modèles de langage réside dans l’ensemble de données : il n’est pas nécessaire qu’il soit étiqueté par des humains. En effet, si nous disposons d’un corpus de textes, il est déjà « annoté » dans le sens où nous connaissons toujours le mot suivant. Les étiquettes sont déjà présentes, même dans des contextes où les objectifs d’optimisation sont légèrement différents (par exemple, en masquant certains mots et en entraînant le modèle à prédire les mots masqués). Cette technique est appelée auto-supervision mais peut également être considérée comme une sorte d’apprentissage non supervisé (du moins du point de vue des annotateurs humains).

Nous n’avons pas beaucoup de détails sur la matière en soi de ChatGPT – nous savons seulement qu’il utilise des techniques supplémentaires d’apprentissage par renforcement en plus de la modélisation linguistique traditionnelle. Cependant, plusieurs modèles de langage à source ouverte ont été lancés grâce à son avènement. Ces modèles sont particulièrement intéressants pour les chercheurs et les institutions gouvernementales car ils sont moins coûteux que les modèles OpenAI. Par ailleurs, nous possédons un contrôle total sur le modèle, ce qui nous permet de le personnaliser en fonction de nos besoins (par exemple, la compréhension de textes juridiques). 

Enfin, à la Cour fédérale des comptes du Brésil (TCU), nous avons lancé un outil appuyé sur ChatGPT appelé ChatTCU. La version actuelle est une enveloppe sécurisée sur le modèle OpenAI sous-jacent car elle permet aux auditeurs d’échanger des messages en toute sécurité sans envoyer de données classifiées à OpenAI. Dans les versions futures, nous étendrons les fonctionnalités de ChatTCU aux données relatives à la jurisprudence de la TCU, ainsi qu’à plusieurs autres données publiques ou non publiques appartenant à l’institution.

Conclusions

Intégrer l’IA dans l’activité d’audit offre aux ISC une occasion unique d’améliorer l’efficacité et l’efficience de leurs opérations. Grâce à l’analyse automatisée de grands volumes de données, l’IA peut identifier des modèles complexes, des anomalies et des tendances en temps réel, fournissant ainsi des informations précieuses aux auditeurs. En outre, l’IA peut rationaliser les processus d’examen et d’analyse, réduisant ainsi considérablement le temps nécessaire pour réaliser un audit complet. En libérant les professionnels de l’audit des tâches routinières et répétitives, l’IA leur permet de concentrer leur expertise sur l’analyse de haut niveau et la prise de décision stratégique. Enfin, grâce à l’utilisation de l’IA, les ISC peuvent renforcer l’exactitude, l’exhaustivité et la fiabilité de leurs activités d’audit, consolidant ainsi la confiance du public dans les institutions financières et les organismes audités.

Back To Top