❌

Reading view

There are new articles available, click to refresh the page.

IA gĂ©nĂ©ratives : la fin des exercices rĂ©dactionnels Ă  l’université ?

StĂ©phane Crozat est membre de Framasoft, auteur de « Traces » et de « Les libres », et surtout, enseignant Ă  l’UniversitĂ© de Technologie de CompiĂšgne (UTC). Il nous livre ci-dessous une rĂ©flexion personnelle – initialement publiĂ©e sur son blog – au sujet de l’usage des LLM (ChatGPT ou autre) dans les travaux des Ă©tudiant⋅es.

IA gĂ©nĂ©ratives : la fin des exercices rĂ©dactionnels Ă  l’université ?

visage de StĂ©phane CrozatEn dĂ©cembre 2022 le magazine États-unien The Atlantic titre : « The College Essay Is Dead » ( Marche, 2022 [1] ). L’auteur de l’article, Ă©crivain, attribue un B+ Ă  une rĂ©daction produite avec le LLM [2] GPT-3 dans le cadre du cours de Mike Sharples, enseignant en sciences humaines. J’ai moi mĂȘme attribuĂ© la note de 14/15 Ă  un exercice rĂ©dactionnel rĂ©alisĂ© avec ChatpGPT en fĂ©vrier 2023 Ă  l’UTC ( Turcs mĂ©caniques ou magie noire ? ). Une enseignante de philosophie lui a attribuĂ© une note de 11/20 au baccalaurĂ©at ( Lellouche, 2023 [3] ).

J’ai depuis observĂ© plusieurs cas de « triche » avec des LLM Ă  l’UTC en 2023.

Se pose donc la question de la réaction à court terme pour les enseignants concernant les exercices rédactionnels qui sont réalisés par les étudiants à distance.

Je parlerai de LLM

Je parlerai de LLM [2] dans cet article plutĂŽt que de ChatGPT.

ChatGPT est un outil de l’entreprise OpenIA basĂ© sur un LLM [2] Ă  vocation de conversation gĂ©nĂ©raliste (capable d’aborder n’importe quel sujet) et le premier Ă  avoir introduit une rupture d’usage dans ce domaine. Le problĂšme abordĂ© ici concerne bien cette classe d’outils, mais pas seulement ceux d’OpenIA : des outils concurrents existent Ă  prĂ©sent (certains pourront devenir plus puissants), des outils plus spĂ©cialisĂ©s existent (pour la traduction par exemple), d’autres sont probablement amenĂ©s Ă  voir le jour (orientĂ©s vers la production de textes universitaires, pourquoi pas ?).

On pourra lire, par exemple, Bortzmeyer, 2023 [4] ou Tiernan, 2020 [5] pour plus d’informations.

Je ne parlerai pas de


Les LLM [2] ne gĂ©nĂšrent pas que des textes Ă  la demande, ils gĂ©nĂšrent aussi de nombreuses opinions parmi les spĂ©cialistes et les usagers ; j’essaierai de me borner aux faits prĂ©sents, Ă  ce que l’on peut raisonnablement anticiper Ă  court terme (sans faire de science-fiction) et Ă  la seule question de l’évaluation en contexte pĂ©dagogique (mais je n’y arriverai pas totalement
).

Je ne parlerai donc pas :

  • des autres enjeux pĂ©dagogiques : quel est le rĂŽle de l’universitĂ© face au dĂ©veloppement des LLM ? doit-on former Ă  leurs usages ? les enseignants doivent-il utiliser des LLM eux-mĂȘmes ? est-ce que ça a du sens d’apprendre Ă  rĂ©diger Ă  l’ùre des LLM ?
  • des enjeux technico-fonctionnels : qu’est-ce que les LLM ne savent pas faire aujourd’hui ? qu’est-ce qu’on pense qu’ils ne seront jamais capables de faire ?
  • des enjeux politiques et Ă©thiques : est-ce un progrĂšs ? est-ce qu’on peut arrĂȘter le progrĂšs ? que penser de la dĂ©pendance croissante aux entreprises de la tech États-uniennes ? du dĂ©ploiement du capitalisme de surveillance ?
  • des enjeux socio-Ă©cologiques : Ă  quoi ça sert ? quels humains ça remplace ? quel est l’impact environnemental des LLM ?
  • des enjeux philosophiques : les LLM sont-ils neutres ? est-ce que ça dĂ©pend comment on s’en sert ? ou bien l’automatisation introduite change-t-elle radicalement notre rapport au langage et Ă  la raison ? complĂ©ter des textes en utilisant des fonctions statistiques, est-ce penser ? qu’est-ce que l’intelligence ?
  • des enjeux juridiques : est-ce que les LLM respectent le droit d’auteur ? un texte produit avec un LLM est-il une crĂ©ation originale ?
  • 


TL;DR

Cet article Ă©tant un peu long, cette page en propose un rĂ©sumĂ© (TL;DR signifiant : « Too Long ; Didn’t Read ») : RĂ©sumĂ© du prĂ©sent article.

Problématique et hypothÚse

Problématique

Peut-on continuer à faire faire des exercices rédactionnels « à la maison » comme avant ?

Sans statuer sur la dimension de rupture des LLM — est-ce une nouvelle Ă©volution liĂ©e au numĂ©rique qui percute le monde de la pĂ©dagogie, comme les moteurs de recherche ou WikipĂ©dia avant elle, ou bien une rĂ©volution qui va changer radicalement les rĂšgles du jeu — il parait nĂ©cessaire de rĂ©interroger nos pratiques : « sans sombrer dans le catastrophisme, il serait tout aussi idiot de ne pas envisager que nous sommes une nouvelle fois devant un changement absolument majeur de notre maniĂšre d’enseigner, de transmettre, et d’interagir dans un cadre Ă©ducatif, a fortiori lorsque celui-ci est asynchrone et/ou Ă  distance. ( Ertzscheid, 2023 [6]) »

HypothĂšse

L’automatisation permise par les LLM rend raisonnable une triche automatisĂ©e dont le rapport coĂ»t/bĂ©nĂ©fice est beaucoup plus avantageux qu’une triche manuelle.

De nombreux modules universitaires comportent des exercices rĂ©dactionnels Ă  rĂ©aliser chez soi. Ces travaux sont gĂ©nĂ©ralement Ă©valuĂ©s et cette Ă©valuation compte pour la validation du module et donc in fine, pour l’attribution d’un diplĂŽme.

  • Dans certains contextes, il n’y a pas d’évaluation en prĂ©sentiel sans ordinateur et donc la totalitĂ© de la note peut bĂ©nĂ©ficier d’une « aide extĂ©rieure ».
  • Souvent Ă  l’universitĂ© la prĂ©sence et/ou la participation effective des Ă©tudiants lors des cours et TD n’est pas elle-mĂȘme Ă©valuĂ©e, et parfois il n’y a pas d’examen classique, en consĂ©quence un Ă©tudiant a la possibilitĂ© de valider un cours sans y assister en produisant des rendus Ă©crits qualitatifs Ă  domicile.

Cette situation prĂ©-existe Ă  l’arrivĂ©e des LLM, mais nous faisons l’hypothĂšse suivante :

  • sans LLM il reste un travail significatif pour se faire aider par un humain ou copier des contenus glanĂ©s sur le Web ;
  • sans LLM il reste un risque important d’une production de qualitĂ© insuffisante (l’humain qui a aidĂ© ou fait Ă  la place n’est pas assez compĂ©tent, les contenus Web copiĂ©s ont Ă©tĂ© mal sĂ©lectionnĂ©s, ou mal reformulĂ©s, etc.) ;
  • avec un LMM il est possible de produire un Ă©crit standard sans aucun effort, pour exemple la copie de philo Ă©valuĂ©e Ă  11 a Ă©tĂ© produite en 1,5 minute ( Lellouche, 2023 [3]).

Triche ?

J’utilise le terme de triche car si la consigne est de produire un texte original soi-mĂȘme alors le faire produire par un tiers est de la triche. L’existence d’un moyen simple pour rĂ©aliser un exercice n’est pas en soi une autorisation Ă  l’utiliser dans un contexte d’apprentissage. C’est similaire Ă  ce qu’on peut trouver dans un contexte sportif par exemple, si vous faites une course Ă  vĂ©lo, vous ne devez pas ĂȘtre aidĂ© d’un moteur Ă©lectrique.

LLM et moteurs de recherche : différence de degré ou de nature ?

J’écrivais en 2015 Ă  propos de l’usage des moteurs de recherche ( Le syndrome de la BibliothĂšque de Babel) : « La question intĂ©ressante qui se pose aux pĂ©dagogues n’est tant de savoir si l’élĂšve va copier ou pas, s’il va « tricher ». La question est de savoir comment maintenir un travail d’élaboration d’une dĂ©marche et de production sensĂ©ment originale et personnelle qui repose explicitement sur une recherche – donc une recherche sur le web – alors que la rĂ©ponse Ă  la question posĂ©e s’invite sur l’écran, formulĂ©e trĂšs exactement telle qu’attendue. C’est Ă  peine une simplification en l’espĂšce de dire que la rĂ©ponse a Ă©tĂ© jointe Ă  la question, par celui mĂȘme qui a posĂ© cette question. »

Les LLM font sauter cette barriĂšre : lĂ  oĂč les moteurs de recherche permettaient une rĂ©ponse facile Ă  une question rĂ©currente, les LLM permettent une rĂ©ponse immĂ©diate Ă  une question originale.

L’évaluation de tout travail avec un ordinateur

Notons que le problĂšme se pose pour tous les travaux rĂ©dactionnels avec ordinateur, mĂȘme en prĂ©sentiel ou en synchrone. En effet dĂšs lors que l’on veut que nos exercices s’appuient sur un accĂšs Ă  un traitement de texte, des recherches Web ou d’autres outils numĂ©riques, alors ils ouvrent l’accĂšs aux LLM.

Il existe des solutions humaines ou techniques de surveillance des examens pour ouvrir l’accĂšs Ă  certains outils seulement, mais d’une part elles posent des problĂšmes pratiques, Ă©thiques et juridiques, et d’autre part les LLM s’introduisent progressivement au sein des autres outils, ainsi par exemple le moteur de recherche.

Les LLM et les étudiants

Les LLM sont utilisés par les étudiants

Lors de mes cours du semestre dernier (mars Ă  juillet 2023), j’ai rencontrĂ© plusieurs cas d’usage de LLM.

  • Ces cas s’apparentent Ă  de la triche.
  • Les Ă©tudiants n’ont pas facilement admis leur usage (allant dans certains cas jusqu’à nier des Ă©vidences).
  • Ce sont des cas d’usages stupides de la part des Ă©tudiants, car non nĂ©cessaires pour la validation du cours, sans intĂ©rĂȘt du point de vue pĂ©dagogique, et facilement dĂ©tectables.

On peut retenir les arguments principaux revendiqués par les étudiants :

  • Le gain de temps (mĂȘme si je sais faire, « flemme » ou « retard »).
  • La nĂ©cessitĂ© de ne pas Ă©chouer et la peur d’ĂȘtre pĂ©nalisĂ© sur le niveau d’expression Ă©crite.
  • Le fait de ne pas ĂȘtre « sĂ»r » de tricher (ce n’est pas explicitement interdit).

Des Ă©tudiants qui n’utilisent pas encore les LLM pour les exercices rĂ©dactionnels les utilisent plus facilement pour la traduction automatique.

UTC : Un premier étudiant utilise ChatGPT (IS03)

Au sein du cours de l’UTC IS03 («  Low-technicisation et numĂ©rique »), les Ă©tudiants doivent rĂ©aliser des notes de lecture sur la base d’articles scientifiques. Un Ă©tudiant Ă©tranger non-francophone utilise grossiĂšrement un LLM (probablement ChatGPT) pour produire en une semaine le rĂ©sumĂ© de plusieurs dizaines de pages de lectures d’articles scientifiques difficiles et de rapports longs. J’avais donnĂ© une liste de plusieurs lectures possibles, mais n’attendais Ă©videmment des notes que concernant un ou deux documents.

Il faut plusieurs minutes de discussion pour qu’il reconnaisse ne pas ĂȘtre l’auteur des notes. Mon premier argument Ă©tant sur le niveau de langue obtenue (aucune faute, trĂšs bonne expression
) l’étudiant commencera par reconnaĂźtre qu’il utilise des LLM pour corriger son français (on verra que cette « excuse » sera souvent mobilisĂ©e). Sur le volume de travail fournit, il reconnaĂźt alors utiliser des LLM pour « rĂ©sumer ».

In fine, il se justifiera en affirmant qu’il n’a pas utilisĂ© ChatGPT mais d’autres outils (ce qui est trĂšs probablement faux, mais en l’espĂšce n’a pas beaucoup d’importance).

C’était un cas tout Ă  fait « stupide », l’étudiant avait produit des notes sur prĂšs d’une dizaine de rapports et articles, sous-tendant plusieurs heures de lectures scientifiques et autant de rĂ©sumĂ©s, et avait produit des Ă©noncĂ©s sans aucune faute, tout cela en maĂźtrisant mal le français.

UTC : 6 cas identifiĂ©s lors de l’Api Libre Culture

Une ActivitĂ© PĂ©dagogique d’Intersemestre (Api) est un cours que les Ă©tudiants choisissent au lieu de partir en vacances, en gĂ©nĂ©ral par intĂ©rĂȘt, dont les conditions d’obtention sont faciles : les Ă©tudiants sont en mode stage pendant une semaine (ils ne suivent que l’Api) et leur prĂ©sence rĂ©guliĂšre suffit en gĂ©nĂ©ral pour valider le cours et obtenir les 2 crĂ©dits ECTS associĂ©s. Un devoir individuel Ă©tait Ă  rĂ©aliser sur machine pour clĂŽturer l’Api Libre Culture de juillet 2023. Il consistait essentiellement en un retour personnel sur la semaine de formation.

Lors de ce devoir de fin d’Api, 6 Ă©tudiantes et Ă©tudiants (parmi 20 participants en tout) ont mobilisĂ© de façon facilement visible un LLM (ChatGPT ou un autre). Pour 4 d’entre eux c’était un usage partiel (groupe 1), pour 2 d’entre eux un usage massif pour rĂ©pondre Ă  certaines questions (groupe 2). J’ai communiquĂ© avec ces 6 personnes par mail.

3 des Ă©tudiants du groupe 1 ont avouĂ© spontanĂ©ment, en s’excusant, conscients donc d’avoir certainement transgressĂ© les rĂšgles de l’examen. La 4e personne a reconnu les faits aprĂšs que j’ai insistĂ© (envoi d’un second mail en rĂ©ponse Ă  un premier mail de dĂ©ni).

Pour les 2 étudiants du groupe 2 :

  • le premier n’a reconnu les faits qu’aprĂšs plusieurs mails et que je lui aie montrĂ© l’historique d’un pad (traitement de texte en ligne) qui comportait un copie/coller Ă©vident de ChatGPT.
  • le second, Ă©tudiant Ă©tranger parlant trĂšs bien français, n’a jamais vraiment reconnu les faits, s’en tenant Ă  un usage partiel « pour s’aider en français » (loin de ce que j’ai constatĂ©).

À noter qu’aucun Ă©tudiant ne niait avoir utilisĂ© un LLM, leur dĂ©fense Ă©tait un usage non dĂ©terminant pour s’aider Ă  formuler des choses qu’ils avaient produites eux-mĂȘmes.

Pour les deux Ă©tudiants du groupe 2, j’ai dĂ©cidĂ© de ne pas valider l’Api, ils n’ont donc pas eu les crĂ©dits qu’ils auraient eu facilement en me rendant un travail de leur fait, mĂȘme de faible niveau. Ils n’ont pas contestĂ© ma dĂ©cision, l’un des deux prĂ©cisera mĂȘme : « d’autant plus que j’ai dĂ©jĂ  les compĂ©tences du fait du cours suivi dans un semestre prĂ©cĂ©dent ».

Un étudiant en Nouvelle-Zélande reconnaßt utiliser ChatGPT

« In May, a student in New Zealand confessed to using AI to write their papers, justifying it as a tool like Grammarly or spell-check : “I have the knowledge, I have the lived experience, I’m a good student, I go to all the tutorials and I go to all the lectures and I read everything we have to read but I kind of felt I was being penalised because I don’t write eloquently and I didn’t feel that was right,” they told a student paper in Christchurch. They don’t feel like they’re cheating, because the student guidelines at their university state only that you’re not allowed to get somebody else to do your work for you. GPT-3 isn’t “somebody else”—it’s a program. » ( Marche, 2022 [1] )

On note les deux arguments principaux produits :

  • je l’utilise car je ne suis pas trĂšs fort Ă  l’écrit et je ne trouve pas normal que cela ma pĂ©nalise ;
  • ce n’est pas clairement interdit Ă  l’universitĂ©.

J’ai interviewĂ© des collĂ©giens et lycĂ©ens

  • ChatGPT est dĂ©jĂ  utilisĂ© au collĂšge et au lycĂ©e : surtout par les « mauvais » Ă©lĂšves (selon les bons Ă©lĂšves)

  • 
et par les bons Ă©lĂšves occasionnellement, mais pour une « bonne raison » : manque de temps, difficultĂ©s rencontrĂ©es, etc.
  • Des outils d’IA dĂ©diĂ©s Ă  la traduction sont plus largement utilisĂ©s, y compris par les bons Ă©lĂšves.
  • À l’école « l’échec c’est mal » donc le plus important est de rendre un bon devoir (voire un devoir parfait).

Interviews de 6 collégiens et lycéens à propos des LLM

Les LLM sont capables d’avoir de bonnes notes

A Ă  un exercice rĂ©dactionnel Ă  l’UTC

Cet article fait suite Ă  «  Turcs mĂ©caniques ou magie noire ? » un autre article Ă©crit en janvier sur la base d’un test de ChatGPT Ă  qui j’avais fait passer un de mes examens. Pour mĂ©moire ChatGPT obtenait selon ma correction 14/15 Ă  cet examen second, Ă©galitĂ© donc avec les meilleurs Ă©tudiants du cours.

B+ à un exercice rédactionnel en Grande-Bretagne

En mai 2022, Mike Sharples utilise le LLM [2] GPT-3 pour produire une rĂ©daction dans le cadre de son cours de pĂ©dagogie ( Sharples, 2022 [7] ). Il estime qu’un Ă©tudiant qui aurait produit ce rĂ©sultat aurait validĂ© son cours. Il en conclut que les LLM sont capables de produire des travaux rĂ©dactionnels du niveau attendu des Ă©tudiants et qu’il faut revoir nos façons d’évaluer (et mĂȘme, selon lui, nos façons d’enseigner).

Le journaliste et Ă©crivain qui rapport l’expĂ©rience dans The Antlantic attribue un B+ Ă  la rĂ©daction mise Ă  disposition par Mike Sharples ( Marche, 2022 [1] ).

11 au bac de philo

ChatGPT s’est vu attribuĂ© la note de 11/20 par une correctrice (qui savait qu’elle corrigeait le produit d’une IA) au bac de philosophie 2023. Le protocole n’est pas rigoureux, mais le plus important, comme le note l’article de Numerama ( Lellouche, 2023 [3] ) c’est que le texte produit est loin d’ĂȘtre nul, alors mĂȘme que le LLM n’est pas spĂ©cifiquement programmĂ© pour cet exercice. Un « GPTphilo » aurait indubitablement obtenu une meilleure note, et la version 2024 aura progressĂ©. Probablement pas assez pour ĂȘtre capable de rĂ©aliser de vraie productions de philosophe, mais certainement assez pour ĂȘtre capable de rendre caduque un tel exercice d’évaluation (s’il Ă©tait rĂ©alisĂ© Ă  distance avec un ordinateur).

66 % de rĂ©ussite dans le cadre d’une Ă©tude comparative

Farazouli et al. ( 2023 [8] ) ont menĂ© un travail plus rigoureux pour Ă©valuer dans quelle mesure ChatGPT est capable de rĂ©ussir dans le cadre de travaux rĂ©alisĂ©s Ă  la maison, et quelles consĂ©quences cela a sur les pratiques d’évaluation. 22 enseignants ont eu Ă  corriger 6 copies dont 3 Ă©taient des copies ChatGPT et 3 des copies d’étudiants ayant prĂ©alablement obtenu les notes A, C et E (pour 4 de ces enseignants, ils n’avaient que 5 copies dont 2 Ă©crites avec ChatGPT).

« ChatGPT achieved a high passing grade rate of more than 66 % in home examination questions in the fields of humanities, social sciences and law. »

Dont :

  • 1 travail notĂ© A sans suspicion que c’était une copie ChatGPT ;
  • 4 rendus notĂ©s B, dont 1 seul Ă©tait suspectĂ© d’avoir Ă©tĂ© rĂ©alisĂ© avec ChatGPT.

On observe des disparités assez importantes en fonction des domaines :

Les notes obtenues par ChatGPT ont été meilleures en philosophie et en sociologie et moins bonnes en droits et en éducation
F E D C B A
Philosophie 3 2 7 6 3 0
Droit 9 4 0 2 0 0
Sociologie 6 6 1 1 3 1
Éducation 5 2 0 1 0 0

Remarque

On observe une grande disparitĂ© dans les Ă©valuations d’un mĂȘme travail (humain ou ChatGPT) par des Ă©valuateurs diffĂ©rents (de F Ă  A), ce qui interroge sur le protocole suivi et/ou sur la nature mĂȘme de l’évaluation.

Corriger c’était dĂ©jĂ  chiant


La plupart des enseignants s’accordent sur le fait que le plus ennuyeux dans leur mĂ©tier est la correction des travaux Ă©tudiants. Savoir que l’on corrige potentiellement des travaux qui n’ont mĂȘme pas Ă©tĂ© produits par les Ă©tudiants est tout Ă  fait dĂ©mobilisant


« La question c’est celle d’une dilution exponentielle des heuristiques de preuve. Celle d’une loi de Brandolini dans laquelle toute production sĂ©miotique, par ses conditions de production mĂȘme (ces derniĂšres Ă©tant par ailleurs souvent dissimulĂ©es ou indiscernables), poserait la question de l’énergie nĂ©cessaire Ă  sa rĂ©futation ou Ă  l’établissement de ses propres heuristiques de preuve. » ( Ertzscheid, 2023 [6] ).

Il est coûteux pour un évaluateur de détecter du ChatGPT

Prenons un exemple, Devereaux ( 2023 [9] ) nous dit qu’il devrait ĂȘtre facile pour un Ă©valuateur de savoir si une source existe ou non. Il prend cet exemple car ChatGPT produit des rĂ©fĂ©rences bibliographiques imaginaires.

  1. C’est en effet possible, mais ce n’est pas « facile », au sens oĂč si vous avez beaucoup de rĂ©dactions avec beaucoup de rĂ©fĂ©rences Ă  lire, cela demande un travail important et a priori inutile ; lors de la correction de l’exercice de ChatGPT ( Turcs mĂ©caniques ou magie noire ?), je me suis moi-mĂȘme « fait avoir » y compris avec un auteur que je connaissais trĂšs bien : je ne connaissais pas les ouvrages mentionnĂ©s, mais les titres et co-auteurs Ă©tait crĂ©dibles (et l’auteur prolifique !).
  2. C’est aussi un bon exemple de limite conjoncturelle de l’outil, il paraĂźt informatiquement assez facile de coupler un LLM avec des bases de donnĂ©es bibliographiques pour produire des rĂ©fĂ©rences Ă  des sources qui soient existantes. La dĂ©tection ne supposera pas seulement de vĂ©rifier que la rĂ©fĂ©rence existe mais qu’on soit capable de dire Ă  quel point elle est utilisĂ©e Ă  propos. Le correcteur se retrouve alors plus proche d’une posture de rĂ©vision d’article scientifique, ce qui suppose un travail beaucoup plus important, de plusieurs heures contre plusieurs minutes pour la correction d’un travail d’étudiant.

À quoi sert la rĂ©daction Ă  l’école ?

À quoi sert la rĂ©daction Ă  l’école ?

L’exercice rĂ©dactionnel est un moyen pour faire travailler un contenu, mais c’est surtout un moyen pour les Ă©tudiants d’apprendre Ă  travailler leur raisonnement.

On peut penser que la gĂ©nĂ©ralisation de l’usage de LLM conduise Ă  la perte de compĂ©tences Ă  l’écrit, mais surtout Ă  la perte de capacitĂ©s de raisonnement, pour lesquelles l’écrit est un mode d’entraĂźnement

Pourquoi faire écrire ?

Bret Devereaux ( 2023 [9] ) s’est posĂ© la mĂȘme question — Ă  quoi sert un exercice rĂ©dactionnel ( « teaching essay ») — dans le mĂȘme contexte de l’arrivĂ©e de ChatGPT ? Il propose trois fonctions pour cet exercice.

  1. L’exercice est un moyen pour travailler (chercher, lire, explorer, Ă©tudier
) un contenu tiers (histoire, idĂ©e
) : l’usage de ChatGPT rend l’exercice totalement inutile, mais on peut assez facilement imaginer d’autres façon de faire travailler le contenu.
  2. L’exercice est un moyen d’apprendre Ă  faire des rĂ©dactions : l’usage de ChatGPT rend aussi l’exercice inutile, mais une part importante des Ă©tudiants n’aura plus Ă  produire de rĂ©daction en dehors de l’école.
  3. L’exercice est un moyen d’apprendre Ă  mettre en forme des idĂ©es par Ă©crit. Ici encore l’usage de ChatGPT rend l’exercice inutile, puisque bien entendu, le rĂ©sultat final obtenu n’a aucune importance (le contenu sera dĂ©truit aprĂšs usage), et que seul compte le processus suivi (analyse des idĂ©es, organisation
). On peut considĂ©rer que l’usage d’un LLM est ici plus dommageable en ce sens qu’apprendre Ă  penser via l’exercice rĂ©dactionnel est un processus d’apprentissage assez fondamental.

Exemple

Un Ă©tudiant qui a utilisĂ© ChatGPT pour un exercice rĂ©dactionnel Ă  l’UTC m’a transmis un de ses exemples d’usage, pour me montrer qu’il n’avait pas « triché » puisque le contenu venait de lui.

Il a ainsi donnĂ© en entrĂ©e Ă  ChatGPT le texte suivant : « Le droit d’auteur, est une licence qui protĂšge les Ɠuvres artistiques et intellectuelles, genre les bouquins, les musiques, les films ou les tableaux. Ça donne aux crĂ©ateurs le pouvoir de dĂ©cider comment on peut utiliser, copier ou diffuser leur travail, et ça leur assure d’ĂȘtre reconnus comme ceux qui l’ont créé. »

Si l’on demande une reformulation Ă  ChatGPT on obtient : « Le droit d’auteur est une forme de protection lĂ©gale qui s’applique aux Ɠuvres artistiques et intellectuelles, telles que les livres, la musique, les films et les Ɠuvres d’art. Il accorde aux crĂ©ateurs le pouvoir de contrĂŽler l’utilisation, la reproduction et la diffusion de leur travail, tout en garantissant qu’ils soient reconnus en tant que crĂ©ateurs de ces Ɠuvres. »

On observe une correction de style, mais aussi une correction de fond. Le droit d’auteur n’est pas une « licence » (cette phrase n’a pas de sens) comme l’écrit l’étudiant, mais bien « une forme de protection lĂ©gale » . En outre le mĂȘme texte Ă©crit avec beaucoup de fautes ressortira parfaitement Ă©crit en français (l’étudiant qui m’écrivait avait certainement dĂ©jĂ  corrigĂ© prĂ©alablement son texte car le mail qui l’accompagnait comportait beaucoup de fautes d’orthographe et de formulation).

Si ChatGPT peut l’écrire, ça ne sert Ă  rien ?

Un argument que produit Bret Devereaux et pas mal d’autres commentateurs devant les rĂ©sultats obtenus par ChatGPT est le suivant : si une machine y arrive c’est que l’exercice est sans intĂ©rĂȘt. « If your essay prompt can be successfully answered using nothing but vague ChatGPT generated platitudes, it is a bad prompt » ( Devereaux, 2023 [9] ).

C’est discutable :

  • Cette assertion suppose que l’exercice n’avait pas de sens en soi, mĂȘme s’il Ă©tait pratiquĂ© avec intĂ©rĂȘt avant, et la preuve qui est donnĂ©e est qu’une machine peut le faire. On peut faire l’analogie avec le fait de s’entraĂźner Ă  faire de la course Ă  pied Ă  l’ùre de la voiture (des arts martiaux Ă  l’ùre du fusil, du jardinage Ă  l’ùre de l’agriculture industrielle, etc.), ce n’est pas parce qu’une machine peut rĂ©aliser une tĂąche qu’il est inutile pour un humain de s’entraĂźner Ă  la rĂ©aliser.
  • Farazouli et al. ( 2023 [8]) relĂšvent que les qualitĂ©s mise en avant par les Ă©valuateurs aprĂšs correction de copies produites par ChatGPT Ă©taient notamment : la qualitĂ© du langage, la cohĂ©rence, et la crĂ©ativitĂ©. Dans certains contextes les productions de ChatGPT ne sont donc pas Ă©valuĂ©es comme mĂ©diocres.

Ce que ChatGPT ne fait pas bien

À l’inverse Farazouli et al. ( 2023 [8] ) ont identifiĂ© des lacunes dans l’argumentation, le manque de rĂ©fĂ©rences au cours et au contraire la prĂ©sence de contenus extĂ©rieurs au cours.

La faiblesse argumentative est peut-ĂȘtre un dĂ©faut intrinsĂšque au sens oĂč la mĂ©canique statistique des LLM ne serait pas capable de simuler certains raisonnements. En revanche on note que le manque de rĂ©fĂ©rences au cours et la prĂ©sence de rĂ©fĂ©rences extĂ©rieures est discutable (ça peut rester un moyen de dĂ©tecter, mais c’est un assez mauvais objectif en soi).

  • En premier cycle universitaire on ne souhaite pas en gĂ©nĂ©ral cette relation Ă©troite au cours (il existe plusieurs approches, et un Ă©tudiant qui ferait le travail par lui-mĂȘme serait tout Ă  fait dans son rĂŽle).
  • En second cycle, cela peut ĂȘtre le cas lorsque le cours porte sur un domaine en lien avec la recherche de l’enseignant typiquement. Mais la recherche est en gĂ©nĂ©ral publiĂ©e et le LLM peut tout Ă  fait ĂȘtre entraĂźnĂ© sur ces donnĂ©es et donc « connaĂźtre » ce domaine.

À quoi servent les Ă©valuations Ă  l’école ?

L’évaluation joue un double rĂŽle : l’évaluation formative sert Ă  guider l’apprenant (elle a vocation Ă  lui rendre service), tandis que l’évaluation sommative joue un rĂŽle de certification (elle a vocation Ă  rendre service Ă  un tiers).

Or on est souvent en situation de confusion de ces deux fonctions et cela conduit l’apprenant Ă  se comporter comme s’il Ă©tait en situation d’évaluation sommative et Ă  chercher Ă  maximiser ses rĂ©sultats.

On note en particulier :

  • la fonction de classement entre les Ă©lĂšves des notes ;
  • la confusion entre l’exercice rĂ©dactionnel comme moyen (c’est le processus qui compte) ou comme fin (c’est le rĂ©sultat qui compte).

Certifier ou réguler ? (confusion des temps)

L’évaluation peut poursuivre trois fonctions ( Hadji, 1989 [10]) :

  • Certifier (Ă©valuation sommative) afin de statuer sur les acquis, valider un module de cours, dĂ©livrer un diplĂŽme ; cette Ă©valuation se situe aprĂšs la formation.
  • RĂ©guler (Ă©valuation formative) afin de guider l’apprenant dans son processus d’apprentissage ; cette Ă©valuation se situe pendant la formation.
  • Orienter (Ă©valuation diagnostique) afin d’aider Ă  choisir les modalitĂ©s d’étude les plus appropriĂ©es en fonction des intĂ©rĂȘts, des aptitudes et de l’acquisition des prĂ©-requis ; cette Ă©valuation se situe avant la formation (et en cela l’évaluation diagnostique se distingue bien de l’évaluation sommative en ce qu’elle se place avant la formation du point de vue de l’évaluateur).

« L’évaluation survient souvent Ă  un moment trop prĂ©coce par rapport au processus d’apprentissage en cours ( Astofi, 1992 [11]) ».

C’est un dĂ©faut du contrĂŽle continu, arrivant tĂŽt, dĂšs le dĂ©but du cours mĂȘme, il nous place d’emblĂ©e en posture sommative. Celui qui ne sait pas encore faire est donc potentiellement stressĂ© par l’évaluation dont il refuse ou minore la dimension formative.

Entraßner ou arbitrer ? (confusion des rÎles)

« Les fonctions d’entraĂźneur et d’arbitre sont trop souvent confondues. C’est toujours celle d’entraĂźneur dont le poids est minorĂ©. ( Astofi, 1992 [11]) »

« Il reste Ă  articuler les deux logiques de l’évaluation, dont l’une exige la confiance alors que l’autre oppose Ă©valuateur et Ă©valuĂ© ( Perrenoud, 1997 [12]) ».

Cette confusion des temps entraĂźne une confusion des rĂŽles : l’enseignant est toujours de fait un certificateur, celui qui permet la validation du cours, la poursuite des Ă©tudes, l’orientation


Se faire confiance

La question de la confiance au sein de la relation apprenant-enseignant était également relevée par Farazouli et al. ( 2023 [8] ) qui insistait sur la dégradation potentielle introduite par les LLM :

« The presence of AI chatbots may prompt teachers to ask “who has written the text ?” and thereby question students’ authorship, potentially reinforcing mistrust at the core of teacher–student relationship »

Évaluation des compĂ©tences

Philippe Perrenoud ( 1997 [12]) dĂ©fend une approche par compĂ©tences qui s’écarte d’une « comparaison entre les Ă©lĂšves » pour se diriger vers une comparaison entre « ce que l’élĂšve a fait, et qu’il ferait s’il Ă©tait plus compĂ©tent ». L’auteur souligne que ce systĂšme est moins simple et moins Ă©conomique : « l’évaluation par les compĂ©tences ne peut qu’ĂȘtre complexe, personnalisĂ©e, imbriquĂ©e au travail de formation proprement dit ». Il faut, nous dit-il, renoncer Ă  organiser un « examen de compĂ©tence en plaçant tous les concurrents sur la mĂȘme ligne ».
Cet Ă©loignement Ă  la fonction de classement est intĂ©ressante Ă  interroger. La fonction de classement des Ă©valuations n’est pas, en gĂ©nĂ©ral, revendiquĂ©e comme telle, mais elle persiste Ă  travers les notes (A, B, C, D, E), la courbe de Gauss attendue de la rĂ©partition de ces notes, le taux de rĂ©ussite, d’échec, de A. Ces notes ont Ă©galement une fonction de classement pour l’accĂšs Ă  des semestres d’étude Ă  l’étranger par exemple, ou pour des stages.

Il ne s’agit donc pas seulement de la fonction formative et de l’apprenant face à sa note.

La tĂąche n’est qu’un prĂ©texte

« La tĂąche n’est qu’un prĂ©texte », nous rappelle Philippe Meirieu ( Meirieu, 2004 [13]), pour s’exercer en situation d’apprentissage ou pour vĂ©rifier qu’on a acquis certaines habiletĂ©s.

Il est déterminant de différencier les deux situations :

  • dans le premier cas on peut travailler Ă  apprendre avec l’apprenant sans se focaliser sur ce qu’on produit ;
  • dans le second, en revanche, cas l’énergie de l’apprenant est concentrĂ©e sur le rĂ©sultat, il cherche Ă  se conformer aux attentes de l’évaluation.

On oublie que la tĂąche n’est qu’un prĂ©texte, le « livrable » qu’on demande est un outil et non un objectif, dans l’immense majoritĂ© des cas la dissertation ne sera pas lue pour ce qu’elle raconte, mais uniquement pour produire une Ă©valuation. La rĂ©solution du problĂšme de mathĂ©matique ou le compte-rendu d’expĂ©rience de chimie ne revĂȘt aucun intĂ©rĂȘt en soi, puisque, par construction, le lecteur connaĂźt dĂ©jĂ  la rĂ©ponse. C’est Ă  la fois une Ă©vidence et quelque chose que le processus Ă©valuatif fait oublier, et in fine, c’est bien au rĂ©sultat qui est produit que l’étudiant, comme souvent l’enseignant, prĂȘte attention, plutĂŽt qu’au processus d’apprentissage.

Évaluation des moyens mis en Ɠuvre et non d’un niveau atteint

À travers l’étude des travaux de Joseph Jacotot, Jacques RanciĂšre ( 1987 [14]) propose que ce qui compte n’est pas ce qu’on apprend mais le fait qu’on apprenne et qu’on sache que l’on peut apprendre, avec sa propre intelligence. Le « maĂźtre ignorant » n’est pas celui qui transmet le savoir, il est celui qui provoque l’engagement de l’apprenant, qui s’assure qu’il y a engagement. Selon ce dispositif, la notion mĂȘme d’évaluation sommative n’est pas possible, puisque le maĂźtre est ignorant de ce que l’élĂšve apprend (Jacotot enseigne ainsi les mathĂ©matiques ou la musique dont il n’a pas la connaissance).

Cette approche pourrait inspirer Ă  l’évaluation un rĂŽle de suivi de l’engagement (prĂ©sence, travail
) dĂ©corrĂ©lĂ© de toute Ă©valuation de rĂ©sultat : prĂ©sence et participation en cours et en TD. Notons que le systĂšme ECTS [15] est dĂ©jĂ  basĂ© sur une charge de travail requise (25 Ă  30 heures pour 1 crĂ©dit).

Remise en question de l’évaluation sommative

L’évaluation via des examens et des notes est un processus peu fiable, en tĂ©moignent les variations que l’on observe entre diffĂ©rents Ă©valuateurs, et les variations dans le temps observĂ©es auprĂšs d’un mĂȘme Ă©valuateur ( Hadji, 1989 [10]). On peut donc minorer l’importance de la fonction certifiante de certaines notes. Or les notes coĂ»tent cher Ă  produire par le temps et l’attention qu’elles exigent des enseignants et des apprenants.

On peut donc se poser la question du supprimer, ou diminuer, l’évaluation sommative. Cela pour une partie des enseignements au moins, quitte Ă  garder des espaces sommatifs pour rĂ©pondre Ă  des nĂ©cessitĂ©s de classement ou certification.

Qu’est-ce qu’on peut faire maintenant ?

  • Interdire l’usage des LLM par dĂ©faut dans le rĂšglement des Ă©tudes (en sachant que ça va devenir difficile d’identifier quand ils sont mobilisĂ©s) ?
  • Utiliser des moyens techniques de dĂ©tection de fraude (et entrer dans une « course Ă  l’armement ») ?
  • AmĂ©liorer nos exercices rĂ©dactionnel pour « échapper aux LLM » tout en restant en veille sur ce qu’ils savent adresser de nouveau ?
  • Renoncer aux travaux rĂ©dactionnels Ă©valuĂ©s Ă  la maison ?
  • Évaluer uniquement en fin de module, voire en dehors des modules et/ou procĂ©der Ă  des Ă©valuations de compĂ©tence individuelles ?
  • Organiser des Ă©valuations certifiantes en dehors des cours (Ă©valuation de compĂ©tences, examens transversaux
) ?
  • Diminuer la pression sur les Ă©tudiants et modifier le contrat pĂ©dagogique passĂ© avec eux ?
  • Simplifier la notation, ne conserver que les rĂ©sultats admis ou non admis, pour Ă©vacuer toute idĂ©e de classement ?
  • Passer d’une obligation de rĂ©sultat Ă  une obligation de moyen, c’est Ă  dire valider les cours sur la base de la prĂ©sence ?
  • Ne plus du tout Ă©valuer certains cours (en rĂ©flĂ©chissant contextuellement Ă  la fonction de l’évaluation sommative) ?

Interdire ChatGPT ?

« And that’s the thing : in a free market, a competitor cannot simply exclude a disruptive new technology. But in a classroom, we can absolutely do this thing ( Devereaux, 2023 [9]) »

C’est vrai, et le rĂšglement des Ă©tudes peut intĂ©grer cette interdiction a priori. Mais les LLM vont s’immiscer au sein de tous les outils numĂ©riques, a commencer par les moteurs de recherche, et cela va ĂȘtre difficile de maintenir l’usage d’outils numĂ©riques sans LLM.

mÚme classique : Bernie Sanders, un vieil homme face caméra sous le titre "les profs" dit : "je vous demande une fois encore de ne pas utiliser chatGPT"

Utiliser des moyens techniques de détection de fraude ?

Des systĂšmes de contrĂŽle dans le contexte de l’évaluation Ă  distance ou des logiciels anti-plagiat existent, mais :

  • cela pose des problĂšmes de surveillance et d’intrusion dans les machines des apprenants ;
  • cela suppose une « course Ă  l’armement » entre les systĂšmes de dĂ©tection et les systĂšmes de triche.

Il faut des rĂ©sultats fiables pour ĂȘtre en mesure d’accuser un Ă©tudiant de fraude.

Adapter nos exercices et rester en veille ?

« Likewise, poorly designed assignments will be easier for students to cheat on, but that simply calls on all of us to be more careful and intentional with our assignment design ( Devereaux, 2023 [9]). »

Certains exercices pourront ĂȘtre en effet amĂ©nagĂ©s pour rendre plus difficile l’usage de LLM. On peut avoir une exigence argumentative plus Ă©levĂ©e et/ou poser des questions plus complexes (en rĂ©flĂ©chissant Ă  pourquoi on ne le faisait pas avant, ce qui doit ĂȘtre modifiĂ© pour atteindre ce nouvel objectif, etc.). On peut augmenter le niveau d’exigence demandĂ© (en rĂ©flĂ©chissant au fait que cela puisse exclure des Ă©tudiants, au fait qu’il faille relĂącher d’autres exercices par ailleurs
).

Mais pour certains exercices ce ne sera pas possible (thĂšme et version en langue par exemple). Et de plus cela implique une logique de veille active entre la conception de ces exercices et l’évolution rapide des capacitĂ©s des outils qui intĂ©greront des LLM.

Renoncer aux travaux à la maison (ou à leur évaluation)

On peut décider de ne plus évaluer les travaux réalisés à la maison.

On peut alors imaginer plusieurs formes de substitution : retour aux devoirs sur table et sans ordinateur, passage à l’oral


Évaluer en dehors des cours ?

On peut imaginer :

  • des Ă©valuations certifiantes totalement en dehors des cours (sur le modĂšle du TOEIC ou du baccalaurĂ©at, par exemple pour les langues donc, pour l’expression française, pour des connaissances dans certains domaines, des compĂ©tences rĂ©dactionnelles
) ;
  • des Ă©valuations certifiantes calĂ©es uniquement en fin d’UV (examen final de sortie de cours, avec Ă©ventuellement rattrapage, sans plus aucune note intermĂ©diaire) ;
  • des Ă©valuations de compĂ©tences individuelles (intĂ©ressantes pĂ©dagogiquement, mais coĂ»teuses Ă  organiser et demandant des compĂ©tences avancĂ©es de la part des Ă©valuateurs).

Diminuer la pression sur les étudiants ?

Le contrat ECTS est trĂšs exigeant. 30 crĂ©dits par semestre c’est 750 Ă  900 heures attendues de travail en 16 semaines, vacances comprises, soit 45h Ă  55h par semaine. Plus la pression sur le temps est importante plus la tentation de tricher est grande.

On peut imaginer de renouer un contrat pĂ©dagogique d’un autre ordre avec les Ă©tudiants, fondĂ© sur la confiance rĂ©ciproque et la recherche de leur intĂ©rĂȘt.

Simplifier la notation (pass or fail) ?

L’UTC a connu un systĂšme Ă  3 notes : « admis », « non admis » et « mention » (Ă©quivalent Ă  A). Dans ce systĂšme, on prĂȘte moins d’attention Ă  la fonction sommative des Ă©valuations. Si un apprenant obtient une note suffisante Ă  un premier examen par exemple, il sait qu’il validera le module et il n’a pas d’intĂ©rĂȘt particulier Ă  optimiser ses autres Ă©valuations sommatives.

Sauf Ă  viser un A, mais on peut aussi se passer du A : c’est le cas des ActivitĂ© PĂ©dagogiques d’Inter-semestre Ă  l’UTC qui sont Ă©valuĂ©es juste avec « reçu » ou « non reçu ».

MĂšme classique avec personnage dĂ©goĂ»tĂ© par "corriger des copies d'Ă©tudiant⋅es rĂ©digĂ©es par des IA", le mĂȘme ravi par "Demander Ă  des IA de corriger des copies d'Ă©tudiant⋅es rĂ©digĂ©es par des IA"

Passer d’une obligation de rĂ©sultat Ă  une obligation de moyen ?

De fait certains cours sont mobilisĂ©s pour la validation du diplĂŽme, voire la sĂ©lection et le classement des Ă©tudiants, et d’autres comptent trĂšs peu pour cet objectif en pratique.

Certains cours pourraient donc ĂȘtre exclus du processus d’évaluation sommative (comme en formation professionnelle). On Ă©conomiserait le temps de travail d’évaluation sommative qui pourrait ĂȘtre rĂ©investi ailleurs. Quelques Ă©tudiants en profiteraient certainement pour « passer au travers » de certains contenus, il faudrait pouvoir Ă©valuer dans quelle mesure cela serait pire qu’aujourd’hui.

Renoncer à noter ? (pourquoi note-t-on ?)

Certains cours, sinon tous, pourraient donc échapper totalement à la notation.

À quelle fin Ă©value-t-on les Ă©tudiants dans une Ă©cole qui a sĂ©lectionnĂ© Ă  l’entrĂ©e comme l’UTC ?

  • Pour valider que les Ă©tudiants ont Ă©tĂ© « bien » sĂ©lectionnĂ©s ?
  • Pour les « forcer » Ă  travailler ?
  • Pour faire « sĂ©rieux » ?
  • Pour rĂ©pondre aux demandes d’organismes de certification du diplĂŽme ?
  • 


 

rĂ©union de conseil d'administration d'universitĂ© — nous avons un grave problĂšme : comment allons-nous Ă©valuer les Ă©tudiants s'ils fraudent avec un LLM ? — on interdit tout sauf le stylo ? — on les punit ? — on arrĂȘte de noter ? Le jeune homme dĂ©contractĂ© qui faisait cette derniĂšre suggestion dĂ©clenche la fureur de l'animateur de la rĂ©union, qui le passe par la fenĂȘtre de l'immeuble.

Notes et références

[1] – Marche Stephen. 2022. The College Essay Is Dead. in The Atlantic. https://www.theatlantic.com/technology/archive/2022/12/chatgpt-ai-writing-college-student-essays/672371/

[2] – LLM (Large Language Model) : Les grands modĂšles de langage (ou LLM, pour « Large Language Model ») sont des mĂ©canismes d’Intelligence Artificielle. Une de leurs applications les plus connues est la gĂ©nĂ©ration de textes ou d’images. L’ouverture au public de ChatGPT, en novembre 2022, a popularisĂ© cette application. Chaque grande entreprise de l’informatique sort dĂ©sormais son propre modĂšle, son propre LLM.

https://framablog.org/2023/07/31/que-veut-dire-libre-ou-open-source-pour-un-grand-modele-de-langage/

[3] – Lellouche Nicolas. 2023. Oubliez Enthoven : ChatGPT a eu la moyenne au bac de philo et c’est ce qui compte, Oubliez Enthoven. in Numerama. https://www.numerama.com/tech/1415146-vous-navez-pas-besoin-de-neurone-pour-avoir-votre-bac-de-philo.html.

[4] – Bortzmeyer StĂ©phane. 2023. Que veut dire « libre » (ou « open source ») pour un grand modĂšle de langage ?. https://framablog.org/2023/07/31/que-veut-dire-libre-ou-open-source-pour-un-grand-modele-de-langage/.

[5] – Tiernan Ray. 2020. Qu’est-ce que GPT-3 ? Tout ce que votre entreprise doit savoir sur le programme de langage d’IA d’OpenAIQu’est-ce que GPT-3 ?. https://www.zdnet.fr/pratique/qu-est-ce-que-gpt-3-tout-ce-que-votre-entreprise-doit-savoir-sur-le-programme-de-langage-d-ia-d-openai-39908563.htm.

[6] – Ertzscheid Olivier. 2023. GPT-3 : c’est toi le Chat.GPT-3. https://affordance.framasoft.org/2023/01/gpt-3-cest-toi-le-chat/.

[7] – Sharples Mike. 2022. New AI tools that can write student essays require educators to rethink teaching and assessment. https://blogs.lse.ac.uk/impactofsocialsciences/2022/05/17/new-ai-tools-that-can-write-student-essays-require-educators-to-rethink-teaching-and-assessment/.

[8] – Farazouli Alexandra, Cerratto-Pargman Teresa, Bolander-Laksov Klara, McGrath Cormac. 2023. Hello GPT ! Goodbye home examination ? An exploratory study of AI chatbots impact on university teachers’ assessment practicesHello GPT ! Goodbye home examination ?. in Assessment & Evaluation in Higher Education. vol.0 n°0 pp1-13.https://doi.org/10.1080/02602938.2023.2241676.

[9] – Devereaux Bret. 2023. Collections : On ChatGPTCollections. in A Collection of Unmitigated Pedantry. https://acoup.blog/2023/02/17/collections-on-chatgpt/.

[10] – Hadji C.. 1989. L’évaluation, rĂšgles du jeu : des intentions aux outils. ESF.

[11] – Astolfi Jean-Pierre. 1992. L’école pour apprendre : l’élĂšve face aux savoirsL’école pour apprendre. ESF.

[12] – Perrenoud Philippe. 1997. Construire des compĂ©tences dĂšs l’école. ESF.

[13] – Meirieu Philippe. 2004. Faire l’école, faire la classe : dĂ©mocratie et pĂ©dagogieFaire l’école, faire la classe. ESF.

[14] – RanciĂšre Jacques. 1987. Le maĂźtre ignorant : cinq leçons sur l’émancipation intellectuelleLe maĂźtre ignorant. Fayard.

[15] – ECTS (European Credit Transfer and accumulation System). Le systĂšme europĂ©en de transfert et d’accumulation de crĂ©dits a pour objectif de faciliter la comparaison des programmes d’études au sein des diffĂ©rents pays europĂ©ens. Le systĂšme ECTS s’applique principalement Ă  la formation universitaire. Il a remplacĂ© le systĂšme des unitĂ©s de valeur (UV) jusque-lĂ  utilisĂ© en France. wikipedia.org

Zoom et les politiques de confidentialité

Cet article a Ă©tĂ© publiĂ© Ă  l’origine par THE MARKUP, il est traduit et republiĂ© avec l’accord de l’auteur selon les termes de la licence CC BY-NC-ND 4.0

 

Publication originale sur le site themarkup.org

 

Traduction Framalang : goofy, MO, Henri-Paul, Wisi_eu

 

Voilà ce qui arrive quand on se met à lire vraiment les politiques de confidentialité

Une rĂ©cente polĂ©mique sur la capacitĂ© de Zoom Ă  entraĂźner des intelligences artificielles avec les conversations des utilisateurs montre l’importance de lire les petits caractĂšres

par Aaron Sankin

 

Photo de l'extérieur du siÚge de Zoom le 07 février 2023 à San José, Californie. Les cÎtés droit et gauche de la photo sont masqués par deux zones sombres qui ne sont pas mises au point.

Justin Sullivan/Getty Images

 

photo de l'auteurBonjour, je m’appelle Aaron Sankin, je suis journaliste d’investigation Ă  The Markup. J’écris ici pour vous expliquer que si vous faites quelque chose de trĂšs pĂ©nible (lire les documents dans lesquels les entreprises expliquent ce qu’elles peuvent faire avec vos donnĂ©es), vous pourrez ensuite faire quelque chose d’un peu drĂŽle (piquer votre crise en ligne).

Au cours du dernier quart de siĂšcle, les politiques de protection de la vie privĂ©e – ce langage juridique long et dense que l’on parcourt rapidement avant de cliquer sans rĂ©flĂ©chir sur « J’accepte » – sont devenues Ă  la fois plus longues et plus touffues. Une Ă©tude publiĂ©e l’annĂ©e derniĂšre a montrĂ© que non seulement la longueur moyenne des politiques de confidentialitĂ© a quadruplĂ© entre 1996 et 2021, mais qu’elles sont Ă©galement devenues beaucoup plus difficiles Ă  comprendre.

Voici ce qu’a Ă©crit Isabel Wagner, professeur associĂ© Ă  l’universitĂ© De Montfort, qui a utilisĂ© l’apprentissage automatique afin d’analyser environ 50 000 politiques de confidentialitĂ© de sites web pour mener son Ă©tude :

« En analysant le contenu des politiques de confidentialitĂ©, nous identifions plusieurs tendances prĂ©occupantes, notamment l’utilisation croissante de donnĂ©es de localisation, l’exploitation croissante de donnĂ©es collectĂ©es implicitement, l’absence de choix vĂ©ritablement Ă©clairĂ©, l’absence de notification efficace des modifications de la politique de confidentialitĂ©, l’augmentation du partage des donnĂ©es avec des parties tierces opaques et le manque d’informations spĂ©cifiques sur les mesures de sĂ©curitĂ© et de confidentialité »

Si l’apprentissage automatique peut ĂȘtre un outil efficace pour comprendre l’univers des politiques de confidentialitĂ©, sa prĂ©sence Ă  l’intĂ©rieur d’une politique de confidentialitĂ© peut dĂ©clencher un ouragan. Un cas concret : Zoom.

En dĂ©but de semaine derniĂšre, Zoom, le service populaire de visioconfĂ©rence devenu omniprĂ©sent lorsque les confinements ont transformĂ© de nombreuses rĂ©unions en prĂ©sentiel en rĂ©unions dans de mini-fenĂȘtres sur des mini-Ă©crans d’ordinateurs portables, a rĂ©cemment fait l’objet de vives critiques de la part des utilisateurs et des dĂ©fenseurs de la vie privĂ©e, lorsqu’un article du site d’actualitĂ©s technologiques Stack Diary a mis en Ă©vidence une section des conditions de service de l’entreprise indiquant qu’elle pouvait utiliser les donnĂ©es collectĂ©es auprĂšs de ses utilisateurs pour entraĂźner l’intelligence artificielle.

version anglaise dĂ©but aoĂ»t, capturĂ©e par la Wayback Machine d’Internet Archive

le texte précise bien l'usage consenti par l'utilisateur de ses données pour l'apprentissage automatique et l'intelligence artificielle

version française fin juillet, capturĂ©e par la Wayback Machine d’Internet Archive

 

Le contrat d’utilisation stipulait que les utilisateurs de Zoom donnaient Ă  l’entreprise « une licence perpĂ©tuelle, non exclusive, libre de redevances, susceptible d’ĂȘtre cĂ©dĂ©e en sous-licence et transfĂ©rable » pour utiliser le « Contenu client » Ă  des fins diverses, notamment « de marketing, d’analyse des donnĂ©es, d’assurance qualitĂ©, d’apprentissage automatique, d’intelligence artificielle, etc. ». Cette section ne prĂ©cisait pas que les utilisateurs devaient d’abord donner leur consentement explicite pour que l’entreprise puisse le faire.

Une entreprise qui utilise secrĂštement les donnĂ©es d’une personne pour entraĂźner un modĂšle d’intelligence artificielle est particuliĂšrement controversĂ©e par les temps qui courent. L’utilisation de l’IA pour remplacer les acteurs et les scĂ©naristes en chair et en os est l’un des principaux points d’achoppement des grĂšves en cours qui ont paralysĂ© Hollywood. OpenAI, la sociĂ©tĂ© Ă  l’origine de ChatGPT, a fait l’objet d’une vague de poursuites judiciaires l’accusant d’avoir entraĂźnĂ© ses systĂšmes sur le travail d’écrivains sans leur consentement. Des entreprises comme Stack Overflow, Reddit et X (le nom qu’Elon Musk a dĂ©cidĂ© de donner Ă  Twitter) ont Ă©galement pris des mesures Ă©nergiques pour empĂȘcher les entreprises d’IA d’utiliser leurs contenus pour entraĂźner des modĂšles sans obtenir elles-mĂȘmes une part de l’activitĂ©.

La rĂ©action en ligne contre Zoom a Ă©tĂ© fĂ©roce et immĂ©diate, certaines organisations, comme le mĂ©dia Bellingcat, proclamant leur intention de ne plus utiliser Zoom pour les vidĂ©oconfĂ©rences. Meredith Whittaker, prĂ©sidente de l’application de messagerie Signal spĂ©cialisĂ©e dans la protection de la vie privĂ©e, a profitĂ© de l’occasion pour faire de la publicité :

« HUM : Les appels vidĂ©o de @signalapp fonctionnent trĂšs bien, mĂȘme avec une faible bande passante, et ne collectent AUCUNE DONNÉE SUR VOUS NI SUR LA PERSONNE À QUI VOUS PARLEZ ! Une autre façon tangible et importante pour Signal de s’engager rĂ©ellement en faveur de la vie privĂ©e est d’interrompre le pipeline vorace de surveillance des IA. »

Zoom, sans surprise, a éprouvé le besoin de réagir.

Dans les heures qui ont suivi la diffusion de l’histoire, le lundi mĂȘme, Smita Hashim, responsable des produits chez Zoom, a publiĂ© un billet de blog visant Ă  apaiser des personnes qui craignent de voir  leurs propos et comportements ĂȘtre intĂ©grĂ©s dans des modĂšles d’entraĂźnement d’IA, alors qu’elles souhaitent virtuellement un joyeux anniversaire Ă  leur grand-mĂšre, Ă  des milliers de kilomĂštres de distance.

« Dans le cadre de notre engagement en faveur de la transparence et du contrĂŽle par l’utilisateur, nous clarifions notre approche de deux aspects essentiels de nos services : les fonctions d’intelligence artificielle de Zoom et le partage de contenu avec les clients Ă  des fins d’amĂ©lioration du produit », a Ă©crit Mme Hashim. « Notre objectif est de permettre aux propriĂ©taires de comptes Zoom et aux administrateurs de contrĂŽler ces fonctions et leurs dĂ©cisions, et nous sommes lĂ  pour faire la lumiĂšre sur la façon dont nous le faisons et comment cela affecte certains groupes de clients ».

Mme Hashim Ă©crit que Zoom a mis Ă  jour ses conditions d’utilisation pour donner plus de contexte sur les politiques d’utilisation des donnĂ©es par l’entreprise. Alors que le paragraphe sur Zoom ayant « une licence perpĂ©tuelle, non exclusive, libre de redevances, pouvant faire l’objet d’une sous-licence et transfĂ©rable » pour utiliser les donnĂ©es des clients pour « l’apprentissage automatique, l’intelligence artificielle, la formation, les tests » est restĂ© intact [N de T. cependant cette mention semble avoir disparu dans la version du 11 aoĂ»t 2023], une nouvelle phrase a Ă©tĂ© ajoutĂ©e juste en dessous :

« Zoom n’utilise aucun Contenu client audio, vidĂ©o, chat, partage d’écran, piĂšces jointes ou autres communications comme le Contenu client (tels que les rĂ©sultats des sondages, les tableaux blancs et les rĂ©actions) pour entraĂźner les modĂšles d’intelligence artificielle de Zoom ou de tiers. »

Comment utilisons-nous vos donnĂ©es Ă  caractĂšre personnel ?Les employĂ©s de Zoom n’accĂšdent pas au Contenu client des rĂ©unions, des webinaires, des messageries ou des e-mails (en particulier, l’audio, la vidĂ©o, les fichiers, les tableaux blancs en rĂ©union et les contenus des messageries ou des e-mails), ni au contenu gĂ©nĂ©rĂ© ou partagĂ© dans le cadre d’autres fonctions de collaboration (comme les tableaux blancs hors rĂ©union), et ne les utilisent pas, Ă  moins que le titulaire du compte hĂ©bergeant le produit ou Service Zoom oĂč le Contenu client a Ă©tĂ© gĂ©nĂ©rĂ© ne le demande ou que cela ne soit nĂ©cessaire pour des raisons juridiques, de sĂ»retĂ© ou de sĂ©curitĂ©. Zoom n’utilise aucun Contenu client audio, vidĂ©o, chat, partage d’écran, piĂšces jointes ou autres communications comme le Contenu client (tels que les rĂ©sultats des sondages, les tableaux blancs et les rĂ©actions) pour entraĂźner les modĂšles d’intelligence artificielle de Zoom ou de tiers.

copie d’écran du 16/08/2023, page https://explore.zoom.us/fr/privacy/

 

Dans son billet de blog, Mme Hashim insiste sur le fait que Zoom n’utilise le contenu des utilisateurs que pour former l’IA Ă  des produits spĂ©cifiques, comme un outil qui gĂ©nĂšre automatiquement des rĂ©sumĂ©s de rĂ©unions, et seulement aprĂšs que les utilisateurs auront explicitement choisi d’utiliser ces produits. « Un exemple de service d’apprentissage automatique pour lequel nous avons besoin d’une licence et de droits d’utilisation est notre analyse automatisĂ©e des invitations et des rappels de webinaires pour s’assurer que nous ne sommes pas utilisĂ©s involontairement pour spammer ou frauder les participants », Ă©crit-elle. « Le client est propriĂ©taire de l’invitation au webinaire et nous sommes autorisĂ©s Ă  fournir le service Ă  partir de ce contenu. En ce qui concerne l’IA, nous n’utilisons pas de contenus audios, de vidĂ©os ou de chats pour entraĂźner nos modĂšles sans le consentement du client. »

La politique de confidentialitĂ© de Zoom – document distinct de ses conditions de service – ne mentionne l’intelligence artificielle ou l’apprentissage automatique que dans le contexte de la fourniture de « fonctions et produits intelligents (sic), tels que Zoom IQ ou d’autres outils pour recommander le chat, le courrier Ă©lectronique ou d’autres contenus ».

Pour avoir une idĂ©e de ce que tout cela signifie, j’ai Ă©changĂ© avec Jesse Woo, un ingĂ©nieur spĂ©cialisĂ© en donnĂ©es de The Markup qui, en tant qu’avocat spĂ©cialisĂ© dans la protection de la vie privĂ©e, a participĂ© Ă  la rĂ©daction de politiques institutionnelles d’utilisation des donnĂ©es.

M. Woo explique que, bien qu’il comprenne pourquoi la formulation des conditions d’utilisation de Zoom touche un point sensible, la mention suivant laquelle les utilisateurs autorisent l’entreprise Ă  copier et Ă  utiliser leur contenu est en fait assez standard dans ce type d’accord d’utilisation. Le problĂšme est que la politique de Zoom a Ă©tĂ© rĂ©digĂ©e de maniĂšre Ă  ce que chacun des droits cĂ©dĂ©s Ă  l’entreprise soit spĂ©cifiquement Ă©numĂ©rĂ©, ce qui peut sembler beaucoup. Mais c’est aussi ce qui se passe lorsque vous utilisez des produits ou des services en 2023, dĂ©solĂ©, bienvenue dans le futur !

Pour illustrer la diffĂ©rence, M. Woo prend l’exemple de la politique de confidentialitĂ© du service de vidĂ©oconfĂ©rence concurrent Webex, qui stipule ce qui suit : « Nous ne surveillerons pas le contenu, sauf : (i) si cela est nĂ©cessaire pour fournir, soutenir ou amĂ©liorer la fourniture des services, (ii) pour enquĂȘter sur des fraudes potentielles ou prĂ©sumĂ©es, (iii) si vous nous l’avez demandĂ© ou autorisĂ©, ou (iv) si la loi l’exige ou pour exercer ou protĂ©ger nos droits lĂ©gaux ».

Cette formulation semble beaucoup moins effrayante, mĂȘme si, comme l’a notĂ© M. Woo, l’entraĂźnement de modĂšles d’IA pourrait probablement ĂȘtre mentionnĂ© par une entreprise sous couvert de mesures pour « soutenir ou amĂ©liorer la fourniture de services ».

L’idĂ©e que les gens puissent paniquer si les donnĂ©es qu’ils fournissent Ă  une entreprise dans un but Ă©vident et simple (comme opĂ©rer un appel de vidĂ©oconfĂ©rence) sont ensuite utilisĂ©es Ă  d’autres fins (comme entraĂźner un algorithme) n’est pas nouvelle. Un rapport publiĂ© par le Forum sur le futur de la vie privĂ©e (Future of Privacy Forum), en 2018, avertissait que « le besoin de grandes quantitĂ©s de donnĂ©es pendant le dĂ©veloppement en tant que « donnĂ©es d’entraĂźnement » crĂ©e des problĂšmes de consentement pour les personnes qui pourraient avoir acceptĂ© de fournir des donnĂ©es personnelles dans un contexte commercial ou de recherche particulier, sans comprendre ou s’attendre Ă  ce qu’elles soient ensuite utilisĂ©es pour la conception et le dĂ©veloppement de nouveaux algorithmes. »

Pour Woo, l’essentiel est que, selon les termes des conditions de service initiales, Zoom aurait pu utiliser toutes les donnĂ©es des utilisateurs qu’elle souhaitait pour entraĂźner l’IA sans demander leur consentement et sans courir de risque juridique dans ce processus.

Ils sont actuellement liĂ©s par les restrictions qu’ils viennent d’inclure dans leurs conditions d’utilisation, mais rien ne les empĂȘche de les modifier ultĂ©rieurement.
Jesse Woo, ingénieur en données chez The Markup

« Tout le risque qu’ils ont pris dans ce fiasco est en termes de rĂ©putation, et le seul recours des utilisateurs est de choisir un autre service de vidĂ©oconfĂ©rence », explique M. Woo. « S’ils avaient Ă©tĂ© intelligents, ils auraient utilisĂ© un langage plus circonspect, mais toujours prĂ©cis, tout en proposant l’option du refus, ce qui est une sorte d’illusion de choix pour la plupart des gens qui n’exercent pas leur droit de refus. »

Changements futurs mis Ă  part, il y a quelque chose de remarquable dans le fait qu’un tollĂ© public rĂ©ussisse Ă  obtenir d’une entreprise qu’elle dĂ©clare officiellement qu’elle ne fera pas quelque chose d’effrayant. L’ensemble de ces informations sert d’avertissement Ă  d’autres sur le fait que l’entraĂźnement de systĂšmes d’IA sur des donnĂ©es clients sans leur consentement pourrait susciter la colĂšre de bon nombre de ces clients.

Les conditions d’utilisation de Zoom mentionnent la politique de l’entreprise en matiĂšre d’intelligence artificielle depuis le mois de mars, mais cette politique n’a attirĂ© l’attention du grand public que la semaine derniĂšre. Ce dĂ©calage suggĂšre que les gens ne lisent peut-ĂȘtre pas les donnĂ©es juridiques, de plus en plus longues et de plus en plus denses, dans lesquelles les entreprises expliquent en dĂ©tail ce qu’elles font avec vos donnĂ©es.

Heureusement, Woo et Jon Keegan, journalistes d’investigation sur les donnĂ©es pour The Markup, ont rĂ©cemment publiĂ© un guide pratique (en anglais) indiquant comment lire une politique de confidentialitĂ© et en  identifier rapidement les parties importantes, effrayantes ou rĂ©voltantes.

Bonne lecture !


Sur le mĂȘme thĂšme, on peut s’intĂ©resser à :

 

❌