Conocer la trayectoria residencial de personas con discapacidad mediante el método de emparejamiento óptimo
Author: Robin Kreling, Data Scientist in the Data Analysis and Science Department, Cour Des Comptes, France
En Francia, el número de personas mayores de 50 años que reciben subsidios por discapacidad aumentó un 36 % entre 2011 y 2019. El Tribunal de Cuentas francés quiso comprobar si las necesidades de los colectivos afectados estaban siendo atendidas adecuadamente.
Para ello, el Tribunal de Cuentas empleó el método de emparejamiento óptimo (optimal matching). Esta técnica, propia de la ciencia de datos, muestra similitudes en las secuencias de eventos y, por tanto, una hipotética causalidad entre ellos. Mediante la adaptación de un algoritmo derivado de la genética, el Tribunal de Cuentas procedió a verificar posibles discontinuidades en la trayectoria residencial y administrativa, en función de las diferentes situaciones encontradas, tales como el acceso o no a atención especializada o al reconocimiento de su discapacidad, el hecho de recibir o no cuidados a domicilio, etc.
El equipo de científicos de datos se inspiró, en particular, en el enfoque utilizado por el Hospital Universitario de Toulouse para una encuesta anterior. Esta metodología saca a relucir el valor de disponer de una memoria de trabajos efectuados y de una continuidad de las actividades en el equipo, para capitalizar métodos, prácticas e innovaciones. La labor de adaptación del algoritmo a los datos utilizados por el Tribunal en esta investigación consistió en la elección de métodos de cálculo destinados a limitar el tiempo de cálculo.
Los datos se extrajeron de la plataforma digital de servicios ViaTrajectoire, que conecta a las personas con las instituciones y les ayuda a gestionar las listas de espera. La información disponible indicaba si las personas tenían derecho o no a atención médica o social específica. Los datos se seudonimizaron con claves de cifrado diferentes para cada departamento.
Cabe señalar que, como resultado de este trabajo inicial, el Tribunal está estudiando la posibilidad de emparejar dichos datos con otros datos administrativos de otras encuestas, siempre de forma anónima, sacando así partido de los conocimientos adquiridos a partir de este tipo de bases de datos.
Un algoritmo para confirmar y objetivar las suposiciones del equipo de auditoría
La técnica del emparejamiento óptimo aplicada a estos datos consistió en definir una métrica de similitud entre las secuencias, es decir, calcular un número que indicara la distancia entre dos secuencias de datos: en tanto que se necesitan muchos cambios para transformar una secuencia dada en otra, se consideran muy disímiles y alejadas. Si requieren pocos cambios o ninguno, están muy próximas. Esta métrica se utiliza después para agrupar las secuencias en clústeres de proximidad.
La agrupación en clústeres tipológicos de las trayectorias administrativas y residenciales confirmó las suposiciones de los investigadores y afinó su conocimiento de la trayectoria administrativa, asistencial y residencial individual. Por ejemplo, el 12% de las personas de la muestra de 45 a 50 años se agrupan en el clúster 2. Los integrantes de este grupo tienen reconocida una discapacidad desde el punto de vista administrativo, pero llevan mucho tiempo sin presentar ninguna solicitud conocida a una institución: puede tratarse de personas que rechazan el acompañamiento recomendado o que hayan tramitado el reconocimiento como medida de precaución ante posibles necesidades futuras de asistencia formal. Conocer y cuantificar la existencia de este tipo de actitudes preventivas resulta útil a efectos de calcular indicadores de demanda (excesiva o no) en materia de soluciones de acomodo.
La colaboración entre el equipo de auditoría y los científicos de datos es esencial para el éxito de una auditoría
Los intercambios entre el equipo de auditoría y los científicos de datos del Departamento de Ciencia y Análisis de Datos del Tribunal comenzaron tan pronto como se había redactado la nota de viabilidad, es decir, antes del propio inicio de la investigación. Esto facilitó la colaboración y agilizó la operación de las bases de datos durante las indagaciones. En particular, el equipo de auditoría había logrado delimitar con mucha precisión las bases de datos útiles para llevar a cabo el estudio. El cruce de información con los científicos de datos se produjo con periodicidad semanal y permitió generar los indicadores solicitados por los auditores, poner de relieve situaciones imprevistas (como la preponderancia de algunas discapacidades menos visibles) y señalar las deficiencias de las bases de datos administrativas.
Lectura de gráficos: en el eje X figuran los meses y los años (secuencias de 5 años completas, de 0-01 hasta 5-12); en el eje Y figura la proporción de observaciones de clústeres, que oscila entre 0 y 1. Cada clúster tiene un tamaño diferente (el tamaño se indica mediante “Frec. (ponderado n=[número]”). Por ejemplo, en el clúster 6 vemos que casi el 60% de las 3.228 personas de este clúster no experimentan ningún cambio en su situación durante un período de 5 años.
In diesem Zusammenhang ist es wichtig zu betonen, dass die Prüfung der Daten selbst zur Prüfung der Steuerung der betreffenden öffentlichen Politik beiträgt: Diese von den Datenwissenschaftlern festgestellten Mängel führten zu ausdrücklichen Empfehlungen in dem im September veröffentlichten Bericht 2023, auf Französisch hier abrufbar.
La base de datos resultante es, en efecto, muy reciente, pero será útil para futuras investigaciones sobre discapacidad y dependencia. Con el tiempo, su profundidad histórica aumentará y representará secuencias más largas y representativas de una trayectoria vital. Asimismo, permitirá realizar análisis causales de los efectos de futuras reformas en las políticas públicas sobre la autonomía y la inclusión de las personas con discapacidad.
Robin Kreling, Científico de Datos en el Departamento de Ciencia y Análisis de Datos
Para más información:
Contacte con el Departamento de Ciencia y Análisis de Datos del Tribunal.