banner
Centre d'Information
Articuler et maîtriser son expertise.

La modélisation partagée peut aider les écoles à prévoir et à éviter les abandons

Aug 02, 2023

Une équipe de recherche codirigée par Cornell a découvert que pour les écoles qui n'ont pas les ressources nécessaires pour effectuer des analyses d'apprentissage pour aider les élèves à réussir, la modélisation basée sur les données d'autres institutions peut fonctionner aussi bien que la modélisation locale, sans sacrifier l'équité.

"Pour utiliser des modèles basés sur les données, vous avez besoin de données", a déclaré Rene Kizilcec, professeur adjoint de sciences de l'information au Cornell Ann S. Bowers College of Computing and Information Science. "Et dans de nombreuses écoles, en particulier les écoles aux ressources limitées qui bénéficieraient le plus des applications d'analyse d'apprentissage, les données sont rarement accessibles."

Kizilcec est l'un des principaux auteurs de "Cross-Institutional Transfer Learning for Educational Models: Implications for Model Performance, Fairness, and Equity", qui sera présenté à la conférence de l'Association for Computing Machinery sur l'équité, l'accessibilité et la transparence (ACM FAccT), le 12 juin -15 à Chicago. L'auteur principal est Josh Gardner, doctorant en informatique à l'Université de Washington.

Kizilcec et son équipe ont utilisé des données anonymisées de quatre universités américaines et les ont converties en une structure commune dans le but de modéliser les étudiants susceptibles d'abandonner leurs études. Seuls les modèles spécifiques à l'université - aucune donnée individuelle sur les étudiants, ce qui soulève des problèmes de confidentialité - ont été partagés entre les membres de l'équipe de recherche.

Plus d'un million d'étudiants abandonnent leurs études chaque année aux États-Unis ; ils sont 100 fois plus susceptibles de ne pas rembourser leurs prêts étudiants que ceux qui obtiennent leur diplôme. Cela a conduit le gouvernement fédéral à imposer des réglementations qui incitent les collèges et les universités à réduire les abandons en les obligeant à déclarer les taux d'abandon, ainsi que les classements qui tiennent compte des taux de diplomation.

Kizilcec a déclaré que les grandes institutions ont les ressources nécessaires pour effectuer des analyses de données prédictives. Mais les établissements qui pourraient le plus bénéficier de ces données – les petits collèges ou les établissements de deux ans – ne le font généralement pas.

"Ils doivent s'appuyer sur les services de quelques entreprises qui proposent des produits d'analyse de l'éducation." il a dit. "Les institutions peuvent soit créer leurs propres modèles - un processus très coûteux - soit acheter une "solution" d'analyse, avec une modélisation qui est généralement effectuée en externe sur les données d'autres institutions. La question est de savoir si ces modèles externes peuvent fonctionner aussi bien que les modèles locaux, et s'ils introduisent des biais."

L'objectif des travaux des chercheurs était une prédiction précise de la «rétention» - si chaque étudiant qui entre dans un établissement pour la première fois à l'automne s'inscrirait dans ce même établissement l'automne suivant.

Pour évaluer le succès de l'apprentissage par transfert - en prenant des informations d'un établissement et en les utilisant pour prédire les résultats dans un autre - l'équipe a utilisé trois approches :

Les chercheurs ont utilisé les trois méthodes de transfert, ainsi que la modélisation locale dans chacun des quatre établissements, afin d'évaluer la validité de l'apprentissage par transfert. Comme on pouvait s'y attendre, la modélisation locale a mieux réussi à prédire les taux d'abandon, "mais pas autant que nous l'aurions pensé, franchement, étant donné la différence de taille, de taux de diplomation et de démographie des étudiants entre les quatre établissements", a déclaré Kizilcec.

Et en termes d'équité - la capacité d'obtenir des performances prédictives équivalentes pour tous les sous-groupes de sexe et de race - la modélisation a bien fonctionné sans sacrifier l'équité.

Kizilcec a déclaré que les résultats de son équipe indiquent une plus grande équité dans la prédiction du décrochage, ce qui pourrait aider les écoles à faibles ressources avec une intervention plus précoce et empêcher les départs d'étudiants, ce qui coûte à l'établissement et peut entraîner de moins bons résultats pour les étudiants.

"Il n'est peut-être pas nécessaire après tout d'allouer des ressources pour créer des modèles locaux dans chaque école", a-t-il déclaré. "Nous pouvons utiliser les informations des écoles qui disposent d'une infrastructure et d'une expertise en matière de données pour offrir des analyses précieuses aux écoles sans ces ressources et sans sacrifier l'équité. C'est un résultat prometteur pour les chefs d'établissement et les décideurs."

Les autres contributeurs sont Christopher Brooks, professeur adjoint à la School of Information de l'Université du Michigan ; Renzhe Yu, professeur adjoint d'analyse de l'apprentissage et d'exploration de données éducatives à l'Université de Columbia ; et Quan Nguyen, chargé de cours en science des données à l'Université de la Colombie-Britannique.

Le support pour ce travail est venu de Google et Microsoft.

Recevez les nouvelles de Cornell directement dans votre boîte de réception.