La Ciencia de Datos Como Catalizador Para la Transformación de la Auditoría
Authors: Colombo Gardey Julieta and Kugler María Paula, Auditoría General de la Nación Argentina
Introducción
“En un mundo inundado de información irrelevante, la claridad es poder”
Yuval Noah Harari, 2018
En el contexto de la sociedad de la información, la transformación digital ha conducido a un crecimiento exponencial en la producción y el almacenamiento de datos, originando lo que se ha dado en llamar ciencia de datos para responder a la necesidad de nuevas herramientas capaces de tratar de forma inteligente grandes volúmenes de datos y transformarlos en información procesable apta para la toma de decisiones en múltiples entornos.
Este escenario sugiere que el antiguo adagio de Hobbes (1651), “La información es poder” pronto será sustituido por el más reciente “La claridad es poder” (Noah Harari, 2018), a fin de transmitir con mayor precisión las implicaciones de un nuevo modelo que engloba la gestión de los datos, la información y el conocimiento.
Esto supone una oportunidad única para las Entidades Fiscalizadoras Superiores (EFS) de explotar el potencial que ofrecen las nuevas tecnologías y el gran volumen de datos generados en el seno de los organismos públicos, e integrarlos en sus procesos de fiscalización para asegurar una mejor gestión de los fondos públicos. La ciencia de datos funciona como un catalizador para la transformación de la auditoría, lo que refuerza la independencia de las EFS a la par que incrementa la confianza pública y la rendición de cuentas.
Las metodologías de la ciencia de datos pueden optimizar los procesos de auditoría, dando lugar a informes de auditoría de mayor valor, precisión y alcance, así como a recomendaciones más oportunas y relevantes. Los informes de alta calidad fomentan una administración pública más eficaz y eficiente, con un impacto significativo en la mejora de la calidad de vida de la ciudadanía. La integración de la ciencia de datos en los procesos de auditoría requiere una hoja de ruta que pueda guiar a las EFS en el uso de estas nuevas herramientas.
La ciencia de datos en el proceso de auditoría
La ciencia de datos, sus herramientas y sus técnicas se pueden integrar en cualquier instancia del proceso de auditoría. El análisis que figura a continuación se basa en las orientaciones de la INTOSAI sobre la auditoría de rendimiento y en el modelo del proceso estándar intersectorial para la minería de datos, CRISP-DM (Cross-Industry Standard Process for Data Mining). Ambos procesos se retroalimentan continuamente y de manera iterativa. Sus etapas son comparables y es posible combinarlas a medida que se introduce la ciencia de datos en la actividad fiscalizadora:
FIGURA 1
El modelo CRISP-DM incluye las tres dimensiones núcleo de la ciencia de datos: 1) Gestión de bases de datos; 2) Creación de modelos de aprendizaje automático mediante algoritmos que permiten a los ordenadores aprender una tarea, por ejemplo, reconocer automáticamente patrones complejos y mejorar su rendimiento a lo largo del tiempo mediante el uso de datos y; 3) Analítica de datos, para explorar, limpiar y transformar datos a fin de extraer y ofrecer información útil para una toma de decisiones inteligente.
FIGURA 2
- Gestión de bases de datos
En la fase de planificación, tanto la selección del tema como el diseño de la auditoría son fundamentales, ya que ambos determinan cuál será el objeto de la misma.
En este sentido, la ciencia de datos constituye una herramienta clave que asegura que los temas a incluir en la planificación del informe sean seleccionados de forma estratégica y eficiente. También hace posible realizar una evaluación inicial exhaustiva del universo de posibles objetos de auditoría mediante modelos estadísticos aplicados a grandes volúmenes de datos. Esto permite a las EFS identificar con mayor precisión los puntos y riesgos críticos de la auditoría, así como seleccionar los objetos auditables más relevantes en línea con el mandato de la EFS.
El diseño de un plan de auditoría comienza con una búsqueda rigurosa de información relevante, por lo que el acceso a los datos resulta vital. Hoy en día es posible acceder a datos abiertos en múltiples plataformas públicas y privadas (scraping/crawling, API, GPT). Estas y otras herramientas facilitan y aceleran el acceso a la información necesaria para las auditorías.
La planificación comienza con una evaluación inicial de la estructura y composición de la base de datos, y a partir de esta evaluación se determina cómo se procederá a su limpieza y transformación para ajustarla a los objetivos del proyecto de auditoría. Esto implica estimar el número de registros, los tipos de variables, las medidas de resumen y la presencia de valores atípicos, ruido (caracteres erróneos) y datos duplicados, así como los datos que puedan faltar. La presentación visual de esta evaluación exploratoria permite una mejor interpretación de los datos brutos. Las herramientas de visualización son un recurso excelente para crear resúmenes, gráficos e informes con rapidez y en una amplia variedad de diseños.
La calidad de los datos influye en los resultados de los modelos, en su análisis y en las conclusiones extraídas. Si bien las organizaciones han avanzado en la digitalización, normalización y estructuración de los datos, lo habitual es que las entidades reciban bases de datos que necesitan una limpieza para poder ser utilizadas. Así, en una primera etapa, los datos en bruto se limpian y refinan mediante diversas técnicas, con el fin de obtener un conjunto de datos adecuado para realizar el trabajo en función de los objetivos de la auditoría. La estructura y las características de los datos son aspectos vitales a la hora de definir los modelos estadísticos pertinentes.
En cuanto al muestreo, por regla general se considera todo el universo de datos debido al gran potencial de las herramientas de ciencia de datos. Se obtienen una o varias muestras para crear y entrenar los algoritmos. De este modo, se utiliza un conjunto de datos para crear y entrenar el algoritmo, y otros diferentes para evaluar la capacidad predictiva del modelo.
Las opciones de software disponibles para cada proceso relacionado con la ciencia de datos son virtualmente infinitas. Se recomienda utilizar herramientas que permitan la interacción con el pensamiento computacional y que no limiten al usuario. Los programas más completos y utilizados para el procesamiento y el análisis de los datos son Python y R. Ambos son de código abierto, gratuitos y su lenguaje es de alto nivel. Ofrecen conjuntos de herramientas conocidas como bibliotecas, así como funciones que se utilizan en todas las etapas de la ciencia de datos, desde la simple visualización hasta la construcción de los algoritmos más complejos. Una de las principales ventajas que ofrecen estas opciones de software de alto nivel es que uno se puede crear su propia función, con todos sus elementos de acción y reglas para aplicar a una base de datos, y luego utilizar esta misma función con otros conjuntos de datos sin necesidad de duplicar procesos manualmente ni reescribir ningún código.
FIGURA 3
- Creación de modelos de aprendizaje automático
Durante la etapa de ejecución y modelización, se crean y evalúan modelos para encontrar evidencia que respalde los futuros hallazgos. Los modelos elegidos dependerán del objetivo de la auditoría, del volumen de datos disponibles y del tipo de cuestión a tratar. Se pueden clasificar en dos tipos, según el grado de dependencia entre sus variables y las peculiaridades de la cuestión abordada: los modelos de aprendizaje supervisado, que se utilizan para predecir nuevos casos (regresión) o los modelos de aprendizaje no supervisado (usados para ordenar y agrupar casos). El cuadro que sigue contiene ejemplos de estos nodos de aprendizaje en función del tipo de tarea a realizar:
FIGURA 4
Cada modelo debe evaluarse con respecto a los datos de validación para determinar su capacidad de predicción o clasificación. Con tal fin, existen diversas técnicas para medir la varianza, el sesgo, los errores y el coste que supone detectar esos errores. A continuación, el modelo se aplica a los datos restantes para encontrar evidencia relevante y precisa que respalde las recomendaciones.
FIGURA 5
- Analítica de datos
En la etapa de elaboración de informes, las herramientas de visualización desempeñan un papel extremadamente relevante. La variedad y el número de opciones de visualización que ofrece la ciencia de datos representan una mejora significativa, puesto que transmiten la información de forma clara a través de gráficos de alta calidad y vídeos, con la posibilidad de seleccionar diferentes parámetros estéticos y crear informes fácilmente. Además, están disponibles varias herramientas intuitivas (Power BI y Tableau) que permiten crear tableros o dashboards, para fundamentar la toma de decisiones (lo que se conoce como inteligencia empresarial o business intelligence).
FIGURA 6
Las técnicas de ciencia de datos hacen posible una automatización de los procesos de auditoría. Manteniendo los criterios sin cambios, y agregando o sustituyendo datos (entradas), el modelo puede detectar la continuidad y/o las interrupciones (anomalías) en la información analizada.
FIGURA 7
FIGURA 8
Actuaciones estratégicas
FIGURA 9
Conclusión
El despliegue estratégico y progresivo de las tecnologías de la información para las actividades de fiscalización tiene el potencial de impulsar cambios significativos en los procesos de auditoría.
Las ventajas de integrar la ciencia de datos superan, con creces, los riesgos. Es por ello que se recomienda encarecidamente que las EFS comiencen a reimaginar sus actividades de auditoría y supervisión a fin de incluir dicha práctica.
Se han esbozado una serie de orientaciones estratégicas para asegurar que se comprenda que la integración de la ciencia de datos en los procesos de auditoría no debería considerarse como una medida aislada, sino como un paso más hacia la cima en una escalada por etapas.
Especial énfasis se ha puesto en la oportunidad única que tienen las EFS para potenciar su papel y capitalizar sus actividades transversales y multidisciplinares a efectos de encabezar el cambio de cultura que requiere la transformación digital. Se trata de un desafío, cuya superación, sin embargo, no solo resulta necesaria y oportuna, sino también viable y factible. Más que considerar la tecnología como una limitación o como un fin en sí mismo, es importante saber entender el impacto positivo de la ciencia de datos, para evitar “poner el carro delante del caballo”, o la tecnología delante del conocimiento.
La transformación digital debería abordarse a través de medidas específicas y una firme voluntad política orientada hacia la lucha contra la corrupción. Para ello, la gobernanza de datos ha de ser tratada de forma generalizada y eficaz.
Un control gubernamental oportuno, preciso y eficiente basado en la ciencia de datos añade valor a la administración, pues optimiza el gasto público. Además, aprovechar el potencial de la tecnología para implementar la ciencia de datos puede contribuir a la reducción de las brechas de desarrollo y sentar las bases para un crecimiento más sólido y sostenible en todo el mundo.