Evolución y aplicaciones de la inteligencia artificial en las EFS

Source: Adobe Stock Images,

Autores: Diego Oliveira Farias (oliveiraf@tcu.gov.br); Eric Hans Messias da Silva (erichm@tcu.gov.br);  Erick Muzart Fonseca dos Santo (erickmf@tcu.gov.br); Monique Louise de Barros Monteiro (moniquebm@tcu.gov.br); Tibério Cesar Jocundo Loureiro (tiberio.loureiro@tcu.gov.br)

¿Qué es la Inteligencia Artificial?

A lo largo del tiempo, se han dado muchas definiciones al término Inteligencia Artificial (IA), y la asociación del término con otros, como aprendizaje automático y aprendizaje profundo, ha dado lugar a dificultades para una mejor comprensión del tema.

El aspecto artificial de la IA es relativamente sencillo. Se refiere a cualquier cosa no natural creada por humanos. El uso de términos como máquinas, ordenadores o sistemas también puede representarla. La inteligencia, sin embargo, es un concepto mucho más amplio y cuestionado, lo que explica por qué aún no se ha llegado a un acuerdo para definir la IA (Miaihle y Hodes, 2017).

La IA puede definirse como el uso de la tecnología digital para crear sistemas capaces de llevar a cabo tareas que normalmente se considera que requieren Inteligencia.

En este contexto, podemos mencionar la definición de la Organización para la Cooperación y el Desarrollo Económicos (OCDE), que considera la IA como un sistema basado en una máquina que puede, para un conjunto específico de objetivos definidos por humanos, hacer predicciones, recomendaciones o decisiones que influyen en entornos reales o virtuales.

La IA actual consiste principalmente en máquinas que utilizan la estadística para encontrar patrones en grandes cantidades de datos y realizar tareas repetitivas sin necesidad de una guía humana constante. Así pues, la IA no tiene nada que ver con una solución tecnológica aplicada a todos los casos, ya que por lo general sólo ofrece un buen rendimiento con datos significativos, pertinentes y de alta calidad.

Redes neuronales artificiales

Los algoritmos tradicionales de aprendizaje automático se basan en gran medida en la representación de los datos para crear relaciones entre ellos y las predicciones a las que pueden conducir. Por ejemplo, consideremos la diferencia entre un sistema de diagnóstico que depende de la información sobre el paciente que le proporciona un médico (por ejemplo, la interfaz cerebro-máquina: IMC, grupo sanguíneo, nivel de glucosa en sangre) para proponer un diagnóstico y un sistema capaz de identificar tumores a partir de una imagen radiográfica. Mientras que los algoritmos tradicionales pueden extraer correlaciones entre el primer grupo de información proporcionada por el médico, denominada características o atributos, y un posible diagnóstico, en el segundo ejemplo, estos sistemas tienen limitaciones a la hora de analizar datos no estructurados como las imágenes, ya que no pueden extraer el significado de un simple conjunto de píxeles.

Una solución a este problema es utilizar técnicas para aprender las relaciones entre los atributos y la salida (predicción) y la mejor forma de representar los datos de entrada.

En este contexto, destaca la técnica del aprendizaje por transferencia. Se emplea cada vez más, especialmente en visión por ordenador y procesamiento del lenguaje natural (PLN), donde el conocimiento adquirido por un modelo preentrenado en un dominio/tarea específico se “transfiere” a otro dominio/tarea. Esto permite “democratizar” el uso de modelos de IA, ya que se pueden entrenar nuevos modelos con sólo una fracción de los datos y recursos computacionales que se utilizarían si hubiera que enseñar un modelo “desde cero”. El aprendizaje por transferencia se inspira en cómo aprenden los humanos, ya que rara vez aprendemos algo desde cero, sino que a menudo lo hacemos por analogía, incorporando la experiencia adquirida previamente a nuevos contextos.

No cabe duda de que las arquitecturas y estrategias de entrenamiento de redes neuronales adoptadas en los últimos años han dado lugar a avances considerables en tareas como la traducción de textos, la respuesta a preguntas y los chatbots, incluso en tareas entrenadas desde cero. Sin embargo, los cambios significativos en la distribución muestral de los datos provocaron una degradación del rendimiento, lo que indica que los modelos se habían especializado en rendir bien solo con entradas específicas (por ejemplo, idiomas o tipos de texto concretos).

Quedan retos por superar para lenguas menos populares que el inglés o incluso para tareas más específicas o inexploradas. En el caso de las lenguas, existe un problema con las lenguas menos habladas que tienen una disponibilidad limitada de corpus etiquetados para entrenar modelos de PNL.

En la década de 1960, el primer paso hacia el aprendizaje por transferencia fue utilizar espacios vectoriales para representar palabras como vectores numéricos. A mediados de la década de 2010, se introdujeron modelos como word2vec, sent2vec y doc2vec. Estos modelos se entrenaron para expresar palabras, frases y documentos en espacios vectoriales de forma que la distancia entre vectores estuviera relacionada con la diferencia de significado entre las entidades correspondientes. El objetivo del entrenamiento era asociar el significado de una palabra con su contexto, es decir, las palabras adyacentes en el texto, lo que representa un ejemplo de aprendizaje no supervisado.

Una vez que las palabras, frases o párrafos se representan como vectores, es posible utilizar algoritmos de clasificación o agrupación, en los que los datos de entrada se representan como puntos en un espacio vectorial. Por ejemplo, en el caso de la clasificación, se trata de un enfoque semisupervisado, ya que la tarea de clasificación está supervisada, pero la representación de los datos de entrada se obtuvo de forma no supervisada sin dejar de incorporar la semántica textual.

Posteriormente, la vectorización a nivel de caracteres empezó a utilizarse para tratar palabras que no aparecían en el vocabulario inicial (por ejemplo, palabras nuevas, argot, emojis, extranjerismos o nombres de personas).

Esta descripción puede entenderse como una forma temprana de aprendizaje de transferencia, ya que el modelo de vectorización preentrenado ya puede incrustar un cierto nivel de semántica o significado a las palabras, frases, etc.

En 2018, se produjo una verdadera revolución en el campo de la PNL cuando los investigadores comenzaron a aplicar el aprendizaje de transferencia a un nivel más abstracto, proporcionando no solo modelos de vectorización preentrenados, sino redes neuronales enteras preentrenadas en tareas genéricas no supervisadas a un nivel superior. Algunos ejemplos son las redes neuronales que implementan modelos lingüísticos, modelos estadísticos entrenados para predecir la siguiente palabra o conjunto de palabras dados los términos anteriores. A través de un proceso conocido como ajuste fino, se puede tomar uno de estos modelos preentrenados y realizar un breve entrenamiento adicional centrado en optimizar el modelo para la tarea específica a entrenar, ajustando los pesos de la red. Este movimiento se conoce incluso como el “momento ImageNet”, a propósito del uso generalizado de redes neuronales preentrenadas en la base de datos ImageNet para diversas aplicaciones en visión por computador.

El OpenAI Generative Pretrained Transformer (GPT) destaca entre las innovaciones pioneras en aprendizaje de transferencia para PNL. Se basa en el modelo de red neuronal denominado Transformer (Vaswani et al, 2017), que permite un mayor paralelismo y rendimiento en comparación con arquitecturas anteriores que carecían del mismo grado de paralelismo y tenían dificultades para tratar textos largos. En su formulación más reciente – GPT-4 – es capaz de generar automáticamente textos realistas, similares a los escritos por humanos.

ChatGPT, grandes modelos lingüísticos e IA generativa

En noviembre de 2022, se lanzó OpenAI ChatGPT, llevando a la Inteligencia Artificial a una nueva etapa: en pocos días, el chatbot se convirtió en el logro más famoso de la historia reciente de la tecnología debido a sus impresionantes capacidades de comprensión y generación de textos.
A pesar de su “inteligencia” y popularidad, el núcleo de ChatGPT se basa en una vieja técnica: el modelado del lenguaje. En una definición sencilla, el modelado del lenguaje se ocupa de utilizar modelos estadísticos para predecir las secuencias de palabras más comunes en un idioma. Por tanto, no son más que modelos capaces de predecir la siguiente palabra más probable dada una serie de palabras. Cada elemento predicho por el modelo puede reutilizarse para predecir otra palabra, y así continúa este proceso hasta obtener párrafos y textos completos.

En los últimos años, los investigadores han empezado a utilizar modelos lingüísticos neuronales. En términos sencillos, se trata de modelos lingüísticos implementados como redes neuronales. Supongamos que disponemos de un enorme conjunto de datos de textos. En ese caso, podemos utilizarlo para entrenar una red neuronal cuyo objetivo de optimización es generar la palabra más probable a partir de la secuencia de palabras que se le ha dado hasta la iteración actual. Esta idea se implementó inicialmente con redes neuronales recurrentes. Aun así, en 2018, la arquitectura Transformer -una nueva familia de modelos basada en modelos de atención y redes neuronales feed-forward- demostró resultados aún mejores.

Después, a medida que el número de parámetros de estos modelos neuronales aumentaba de millones a miles o billones, pasaron a denominarse grandes modelos lingüísticos.

Una ventaja significativa del entrenamiento de modelos lingüísticos proviene del conjunto de datos: no es necesario que sea etiquetado por humanos. Esto ocurre porque, si tenemos un corpus de textos, ya está “anotado” en el sentido de que siempre conocemos la siguiente palabra. Las etiquetas ya están ahí, incluso en entornos con objetivos de optimización ligeramente diferentes (por ejemplo, enmascarar algunas palabras y entrenar el modelo para predecir las palabras enmascaradas). Esta técnica se denomina autosupervisión, pero también puede considerarse un tipo de aprendizaje no supervisado (al menos desde el punto de vista de los anotadores humanos).

Actualmente no disponemos de muchos detalles sobre el funcionamiento interno de ChatGPT: sólo sabemos que utiliza técnicas adicionales del aprendizaje por refuerzo, además del modelado lingüístico tradicional. Sin embargo, gracias a su aparición se han lanzado varios modelos lingüísticos de código abierto muy hábiles. Estos modelos resultan especialmente interesantes para los investigadores y las instituciones gubernamentales porque son económicos en comparación con los modelos OpenAI Además, poseemos un control total sobre el modelo, lo que nos permite personalizarlo en función de nuestras necesidades (por ejemplo, la comprensión de textos jurídicos).

Por último, en el Tribunal Federal de Cuentas de Brasil (TCU), lanzamos una herramienta basada en ChatGPT llamada ChatTCU. La versión actual es una envoltura segura sobre el modelo OpenAI subyacente, ya que permite a los auditores traficar mensajes de forma segura sin enviar datos clasificados a OpenAI. En futuras versiones, ampliaremos las funciones de ChatTCU con datos relacionados con la jurisprudencia del TCU, además de otros datos públicos o no públicos propiedad de la institución.

Conclusiones

La incorporación de la IA a la actividad fiscalizadora ofrece a las EFS una oportunidad única para mejorar la eficacia y eficiencia de sus operaciones. A través del análisis automatizado de grandes volúmenes de datos, la IA puede identificar patrones complejos, anomalías y tendencias en tiempo real, proporcionando valiosos conocimientos a los auditores. Además, la IA puede agilizar los procesos de revisión y análisis, reduciendo significativamente el tiempo necesario para realizar una auditoría completa. Al liberar a los profesionales de la auditoría de tareas rutinarias y repetitivas, la IA les permite centrar su experiencia en el análisis de alto nivel y la toma de decisiones estratégicas. Por último, con el uso de la IA, las EFS pueden reforzar la precisión, exhaustividad y fiabilidad de sus actividades de auditoría, fortaleciendo así la confianza pública en las instituciones financieras y los organismos auditados.

Back To Top