POUR UN "EDUCATION DATA HUB" AU SERVICE DE L’OUVERTURE DES DONNÉES ÉDUCATIVES

06/04/2021

Constat
Comme le souligne le rapport sur la politique publique de la donnée du député Éric Bothorel de décembre 2020, si la France fait partie des trois premiers pays des deux classements internationaux de référence en matière d’ouverture des données, l’essentiel des progrès réalisés dans ces classements est intervenu avant 2017 et la dynamique d’ouverture a depuis nettement ralenti. Alors que la crise sanitaire souligne à la fois le déficit et l’intérêt de l’ouverture des données en matière de santé, un autre domaine devrait faire l’objet d’une attention particulière dans la conduite de ce chantier : l’éducation.


Enjeu
L’ouverture des données et codes sources en matière d’éducation se heurte à plusieurs freins. D’une part, les données aujourd’hui disponibles sur la plateforme « data.education.gouv.fr » sont partielles puisqu’elles ne proviennent que du ministère de l’éducation nationale, alors même que les collectivités locales, des opérateurs du ministère ainsi que des acteurs privés sont aussi producteurs de données dans ce champ. D’autre part, l’ouverture des données dans le domaine éducatif pose un véritable enjeu « culturel » et de résistance au changement par la crainte d’un usage dévoyé des données mises à disposition du public.


Propositions
La création d’un Education Data Hub, à savoir une plateforme de données pour bâtir un service public performant, faire avancer la recherche et éclairer les décisions en matière d’éducation, permettrait de relancer la politique d’ouverture des données en matière éducative. Ce hub éducatif contribuerait à massifier les données et en favoriserait la réutilisation par le biais d’algorithmes permettant de les recouper de façon intelligente, de les tester et de proposer des modèles d’analyse prédictive. La réussite d’un tel projet est conditionnée à une mise en œuvre rigoureuse, s’agissant notamment de la qualité des données, de leur sécurité et du respect de la vie privée.

Comme le souligne le rapport sur la politique publique de la donnée du député Éric Bothorel 1 de décembre 2020, si la France fait partie des trois premiers pays des deux classements internationaux de référence en matière d’ouverture des données 2, l’essentiel des progrès réalisés dans ces classements est intervenu avant 2017 et la dynamique d’ouverture a depuis nettement ralenti, seule une minorité d’acteurs publics se conformant à la loi pour une République numérique du 7 octobre 2016. Le rapport identifie avec précision les différents facteurs stratégiques, techniques, organisationnels et humains expliquant ce ralentissement et formule des propositions pour une nouvelle dynamique de la politique publique de la donnée et des codes sources.

À l’occasion du cinquième comité interministériel de la transformation publique, le 5 février 2021, le Gouvernement a donné une première traduction à ces recommandations, avec l’ouverture annoncée de nouveaux jeux de données et codes sources, ainsi qu’avec la formalisation à venir d’une feuille de route interministérielle pour donner un nouveau souffle à cette politique publique. Dans ce contexte, alors que la crise sanitaire souligne à la fois le déficit et l’intérêt de l’ouverture des données en matière de santé, un autre domaine devrait faire l’objet d’une attention particulière dans la conduite de ce chantier : l’éducation.

L’ouverture des données engagée en matière d’éducation est encore inachevée

L’open data n’est pas étranger au domaine de l’éducation. Depuis 2016, la plateforme « data.education.gouv.fr » 3 permet d’ouvrir et de partager des données sur l’enseignement scolaire 4. La plateforme propose 56 jeux de données relatifs aux cursus et aux programmes, à l’orientation des élèves (vœux sur Parcoursup par exemple), à la gestion des établissements (données en équipements informatiques, temps scolaire, établissements de l’éducation prioritaire) et du ministère (budget, effectifs), en même temps que des données sur les résultats au brevet et au baccalauréat. Pour ce dernier examen, en plus du taux de succès brut de chaque établissement, des « indicateurs de valeur ajoutée » tenant compte des caractéristiques des élèves et des établissements sont proposés visant à évaluer plus finement la valeur ajoutée apportée par chaque établissement aux élèves.

Pour autant, l’ouverture des données et codes sources en matière d’éducation se heurte à plusieurs freins. D’abord, la plateforme « data.education.gouv.fr », qui ne concerne que les données et ne comprend pas de codes sources, n’est alimentée que par le ministère de l’éducation nationale, de la jeunesse et des sports, alors même que les collectivités locales, des opérateurs du ministère comme le centre national d’enseignement à distance ainsi que des acteurs privés sont aussi producteurs de données dans ce champ 5. De plus, la dispersion et l’actualisation des données publiées ne facilite pas leur lisibilité : la plateforme interministérielle « data.gouv.fr » propose ainsi 308 jeux de données publiés par le ministère (près de 70 % desquels n’ont pas été actualisés depuis 2016), et la tentative de répliquer la plateforme au niveau des régions académiques n’a pas eu le succès escompté 6.

Deux problématiques spécifiques restent alors à traiter. D’une part, les « traces numériques », c’est-à-dire les données générées par les élèves et les enseignants lors de l’utilisation de services numériques (livres électroniques, espaces numériques de travail, exercices en ligne), sont nombreuses mais seuls les éditeurs privés peuvent aujourd’hui y accéder ainsi que les chefs d’établissement, comme c’est le cas aujourd’hui avec le logiciel Pronote par exemple – et ce alors même que les infrastructures numériques utilisées peuvent avoir été financées par l’État et des collectivités locales. D’autre part, l’ouverture des données dans le domaine éducatif pose un véritable enjeu « culturel ».
Le rapport du député Éric Bothorel souligne ainsi que « certaines administrations vont jusqu’à évoquer le risque d’un usage néfaste des données mises à disposition du public. Par exemple, le ministère de l’éducation nationale souligne le risque d’utilisation des données de résultats scolaires à des fins de classements des établissements sur le seul critère de réussite au baccalauréat. […] La mission note toutefois que la presse reconstitue chaque année des classements sur les établissements scolaires, phénomène qui préexiste largement à l’open data, et ce, malgré l’absence de publication des données brutes par le ministère de l’éducation nationale ».

À ce titre, si l’annonce lors du cinquième comité interministériel de la transformation publique de l’ouverture des données relatives à la carte scolaire des collèges doit être saluée, il convient désormais de matérialiser le changement de méthode et d’échelle qu’appelle de ses vœux le rapport du député Éric Bothorel en centrant l’ouverture des données et codes sources dans l’éducation sur les utilisateurs et la diversité des réutilisations.

La création d’un Education Data Hub permettrait de relancer la politique d’ouverture des données en matière éducative

Par les inégalités d’accès à l’éducation qu’elle a révélées, la crise sanitaire a souligné la nécessité d’accélérer la transformation numérique en matière éducative. C’est dans ce cadre que les États généraux du numérique pour l’éducation de novembre 2020 ont formulé la proposition de créer un Education Data Hub, à savoir une plateforme de données pour bâtir un service public performant, faire avancer la recherche et éclairer les décisions en matière d’éducation 7.

Ce hub éducatif permettrait d’aller plus loin que les plateformes existantes en rassemblant les données des différentes parties prenantes publiques et privées. Les collectivités locales, les associations, les éditeurs privés ainsi que les startups seraient ainsi appelés à contribuer à la politique ambitieuse d’ouverture de données éducatives. L’Education Data Hub aurait aussi pour ambition d’enrichir les jeux de données mis à disposition, en ouvrant l’accès aux « traces numériques » et en encourageant l’utilisation de logiciels et de ressources éducatives libres.

Sur cette base, le hub devrait contribuer à massifier les données et en favoriser la réutilisation par le biais d’algorithmes permettant de les recouper de façon intelligente, de les tester et de proposer des modèles d’analyse prédictive. Les acteurs de la filière EdTech auraient ainsi accès à un jeu de données plus riche pour nourrir leurs offres et proposer des services personnalisés et adaptés aux besoins des élèves et des enseignants. En contrepartie, l’analyse des données disponibles permettrait d’évaluer les solutions numériques proposées, pour permettre aux décideurs de ne retenir que celles qui font leur preuve et qui sont les plus utilisées 8.

La réussite d’un tel projet est conditionnée à trois facteurs principaux, à savoir la qualité des données, leur sécurité et le respect de la vie privée. En premier lieu, la qualité des données fournies doit être suffisante pour permettre leur exploitation, en même temps que l’interopérabilité des systèmes doit être assurée pour garantir la réutilisation et la portabilité des données au profit de l’ensemble des parties prenantes dans la sphère éducative.
En second lieu, s’agissant de la sécurité des données, le hub éducatif pourrait s’inscrire dans le projet de cloud GaïaX, qui a pour objectif de fournir une infrastructure européenne de données sécurisée, évitant ainsi les inquiétudes relatives à un hébergement auprès d’une société américaine telles qu’elles étaient apparues pour le Health Data Hub. Enfin, la protection des données à caractère personnel, s’agissant qui plus est de données relatives à des mineurs, devra être garantie dans le cadre du règlement général européen sur la protection des données. Les enseignants, les chefs d’établissement et les élèves devront être formés aux enjeux de l’utilisation de leurs données et des délégués à la protection des données gagneraient à être systématiquement désignés 9. C’est dans cette perspective qu’un comité d’éthique pour les données d’éducation a été installé par le ministre de l’éducation nationale en octobre 2020 pour réfléchir aux enjeux éthiques associés aux données d’éducation 10.

En dépit des blocages et des résistances au changement, la création d’un Education Data Hub permettrait de relancer la dynamique d’ouverture des données en France. Initié et financé par le secteur public, ce hub éducatif permettrait de rallier l’ensemble des parties prenantes publiques et privées autour d’un projet d’avenir pour améliorer la qualité de l’offre éducative et construire une infrastructure numérique souveraine au profit des élèves et des enseignants. Car comme le soulignait Jules Michelet : « Quelle est la première partie de la politique ? L’éducation. La seconde ? L’éducation. Et la troisième ? L’éducation » 11.

  1. Mission Bothorel, décembre 2020, « Pour une politique publique de la donnée ».
  2. L’OURdata Index de l’OCDE (2ème place) et l’Open Data Maturity du Portail européen des données (3ème place).
  3. https://data.education.gouv.fr/pages/accueil/
  4. https://data.enseignementsup-recherche.gouv.fr/pages/home/
  5. Un seul jeu de données provient d’un opérateur sous tutelle du ministère, l’Office national d’information sur les enseignements et les professions.
  6. Deux plateformes ont été mises en place, pour la région académique de Normandie, qui compte six jeux de données, et d’Occitanie, qui est hors service.
  7. États généraux du numérique pour l’éducation, 2020, présentation synthétique des propositions, proposition n° 37.
  8. Marie-Christine Levet, Digital New Deal Foundation, 2019, « Préserver notre souveraineté éducative : soutenir l’EdTech française ».
  9. Inspection générale de l’éducation nationale et Inspection générale de l’administration de l’éducation nationale et de la recherche, 2018, « Données numériques à caractère personnel au sein de l’éducation nationale ».
  10. https://www.education.gouv.fr/installation-par-jean-michel-blanquer-du-comite-d-ethique-pour-les-donnees-d-education-11549
  11. Jules Michelet, 1846, “Le Peuple”.

ÉDITO

Nothing found.