Comment l’appariement optimal permet de suivre les parcours de résidence des personnes handicapées
L’Auteur : Robin Kreling, Data Scientist au Département Analyse et Science des Données, Cour Des Comptes, France
Le nombre de personnes de plus de 50 ans bénéficiaires d’allocations pour le handicap a augmenté de 36 % en France entre 2011 et 2019. La Cour des comptes a voulu vérifier si les besoins des populations concernées étaient bien couverts.
À cette fin, la technique de l’appariement optimal, consistant à faire apparaître des similitudes dans la succession d’événements et donc une éventuelle causalité entre eux, a été utilisée, en adaptant un algorithme issu de la génétique, afin de vérifier les éventuelles ruptures dans le parcours de résidence et le parcours administratif, en fonction des différentes situations rencontrées (selon que les gens disposent ou non d’un accueil spécialisé ou d’une reconnaissance du handicap, reçoivent ou non des soins à domicile, etc.).
L’équipe de data scientists s’est notamment inspirée de l’approche employée par le CHU de Toulouse pour une précédente enquête. Cela met en avant l’intérêt d’avoir une mémoire des travaux passés et une continuité d’activité dans l’équipe, pour capitaliser sur les méthodes, les pratiques et les innovations. L’effort d’ajustement de l’algorithme aux données utilisées par la Cour dans le cadre de la présente enquête a consisté en des choix de méthode de calcul destinés à limiter le temps de calcul.
Les données ont été extraites de la plateforme de services numériques ViaTrajectoire, qui met en relation les personnes et les établissements et aide ces derniers à gérer les files d’attente. L’information disponible indiquait si les personnes disposaient de droits ouverts pour un accueil médicalisé ou non. Les données étaient pseudonymisées, avec des clés différentes pour chaque département. Il faut souligner qu’à la suite de ces premiers travaux, la Cour envisage de réaliser des appariements, toujours anonymes, avec d’autres données administratives pour d’autres enquêtes, en capitalisant sur les connaissances ainsi acquises sur ces bases de données.
Un algorithme pour confirmer et objectiver les intuitions de l’équipe d’audit
La technique de l’appariement optimal appliquée à ces données a consisté à définir une métrique de similarité entre les séquences, c’est-à-dire à calculer un nombre donnant une indication sur la distance entre deux séquences de données : si de nombreuses modifications sont nécessaires pour transformer une séquence donnée en une autre, elles sont considérées comme très dissemblables et éloignées. Si elles ne nécessitent que peu ou pas de modifications, elles sont très proches. Cette métrique est ensuite utilisée pour regrouper les séquences en grappes de proximité.
Le regroupement en clusters de typologie de parcours administratifs et résidentiels a permis de confirmer les intuitions des enquêteurs et d’affiner leur compréhension des parcours administratifs, de soins et résidentiels individuels. Par exemple, 12 % des individus de l’échantillon de 45 à 50 ans sont regroupés dans le cluster n°2. Il s’agit de personnes ayant une reconnaissance administrative d’un handicap mais qui ne déposent aucune demande connue auprès d’une institution pendant une longue période : il peut notamment s’agir de personnes qui refusent l’orientation préconisée ou mènent la procédure de reconnaissance comme une mesure de précaution en vue de besoins futurs d’assistance formelle. Connaître et quantifier l’existence de telles démarches de précaution est utile pour calculer des indicateurs de tension de solutions d’hébergement.
Lecture des graphes : en abscisse, les mois et années (séquences de 5 ans complets, de 0-01 à 5-12) ; en ordonnées : la proportion des observations du cluster, qui va de 0 à 1. Chaque cluster a une taille différente (la taille est indiquée par « Freq. (weighted n=[nombre]) ». Par exemple, cluster 6, on voit que près de 60 % des 3 228 personnes de ce cluster ne connaissent pas d’évolution de leur situation sur une période de 5 ans.
Une collaboration entre l’équipe de contrôle et les data scientists essentielle pour la réussite de l’enquête
Les échanges entre l’équipe de contrôle et les data scientists du département « Analyse et sciences des données » de la Cour sont intervenus dès la rédaction de la note de faisabilité, préalable au déclenchement de l’enquête. Cela a permis de fluidifier la collaboration et a facilité l’exploitation des bases pendant l’enquête.
L’équipe de contrôle avait notamment très bien identifié les bases de données utiles pour l’enquête. Ses échanges avec les data scientists étaient hebdomadaires et ont permis de produire des indicateurs demandés par les rapporteurs, de mettre en exergue des situations non-anticipées (prépondérance de certains handicaps moins visibles) et de souligner les lacunes dans des bases de données administratives. Il est à cet égard important de signaler que l’audit de la donnée participe en lui-même à l’audit du pilotage de la politique publique en question : ces lacunes, constatées par les data scientists, ont donné lieu à des recommandations explicites dans le rapport de la Cour.
La base de données ainsi constituée est très récente, mais elle sera utile aux enquêtes ultérieures sur le handicap et la dépendance. Avec le temps, sa profondeur historique augmentera et permettra de représenter des séquences plus longues et plus représentatives d’un parcours de vie. Elle permettra également des analyses causales sur les effets des futures réformes en matière d’autonomie et d’inclusion des personnes handicapées.
Robin Kreling, data scientist au département « Analyse et sciences des données »
Pour aller plus loin :
Contacter les analystes de la Cour.
Lisez le rapport en français ou un résumé en anglais.
Accédez aux données.