Séminaire du 30 janvier 2013

Outils de constitution de données : bases de données, nouvelles technologies

Kamel GADOUCHE
, Professeur à l’ENSAE, Directeur du CASD

L’accès aux données individuelles très détaillées, donc confidentielles, par le Centre d’Accès Sécurisé aux données (CASD).

Présentation K.Gadouche (pdf)

Résumé :
Le CASD est un équipement permettant aux chercheurs de travailler à distance, de manière hautement sécurisée, sur des bases de données individuelles très détaillées, dans le respect des lois, des exigences de la CNIL et des règles éthiques les plus rigoureuses.

L’accès des chercheurs en sciences humaines, sociales et économiques à des données statistiques très détaillées est un enjeu scientifique majeur. Ces données sont relatives à toutes les catégories d’agents du monde économique et social, que ce soient des individus, des ménages, ou des entreprises et couvrent des informations aussi diverses que les revenus, le patrimoine, la santé, les données à caractère social et démographiques, la localisation géographique, les parcours scolaires, les trajectoires professionnelles etc.

Ces données peuvent donc être extrêmement sensibles et sont naturellement protégées par un dispositif de lois visant à garantir leur confidentialité et leur conformité au respect des libertés individuelles.

Ce principe de protection des données entre en conflit avec leur utilisation par le plus grand nombre de chercheurs. Pour résoudre ce problème, certains pays (USA, Canada, Allemagne…) ont d’abord mis en place des centres d’accès sécurisé sous forme de locaux isolés où les chercheurs se rendent physiquement. Pour protéger la confidentialité des données, les chercheurs ne peuvent récupérer, après vérification par des opérateurs, que des tableaux suffisamment agrégés assurant le respect du secret statistique. Depuis les années 2000, d’autres pays (Danemark, NL…) ont mis en place des solutions d’accès sécurisé à distance pour les chercheurs. Ces solutions reposent sur l’installation sur l’ordinateur du chercheur de logiciels particuliers d’accès distant. Et en cela, ces solutions sont vite apparues comme peu sécurisées, complexes à mettre en œuvre et très coûteuses. Face à ce constat, en 2009, le Genes et ses partenaires ont cherché un autre moyen de donner un accès réellement sécurisé tout en étant simple à mettre en œuvre. L’idée a été d’imaginer et de concevoir un boitier totalement sécurisé et autonome ayant pour unique fonction de donner un accès distant à des moyens de traitement sur les données confidentielles. Et ceci, sans qu’à aucun moment, le chercheur ne puisse extraire des données détaillées via par exemple un copier/coller, une clé USB ou une imprimante.

Le projet est dans sa phase de production réelle depuis le début de l’année 2010. Le CASD accueille déjà une centiane de projets de recherche, menés en France (Amiens, Lyon, Marseille, Dijon, Paris, etc.) et à l’étranger (Londres). Ce sont donc, en tout, plus de 300 chercheurs en sciences humaines et sociales qui peuvent aujourd’hui travailler sur des données individuelles très détaillées. Ces recherches s’intéressent par exemple aux conséquences d’une politique d’allègement de charge à un niveau local, les liens entre la réussite scolaire et le marché du travail, l’évaluation des politiques de performance énergétique, l’analyse de la sensibilité au climat des différents groupes sociaux… Ainsi qu’une étude actuellement menée à Londres sur la comparaison de la distribution des hauts revenus entre le Royaume-Uni et la France.

Animatrice de la séance : Virginie ALBE
, Professeur à l’ENS Cachan (UMR STEF ENS Cachan – IFÉ-UniverSud Paris) et directrice du Centre d’Alembert