L'évaluation des élèves : entre approximations et constantes macabres - Educavox, Ecole, pédagogie, enseignement, formation

lundi, Déc 17 2018

Analyses

Écrit par Torres Jean Christophe

La question de l’injustice scolaire renvoie inévitablement, comme à son socle inaugural, à la problématique de l’évaluation des élèves. Evaluer, c’est en effet littéralement attribuer une valeur, donner du sens et exprimer une reconnaissance à un engagement éducatif. L’évaluation est ainsi le miroir que l’institution tend à l’élève comme pour mieux estimer ce qu’il est, l’image qu’elle lui attribue et par laquelle se construit son identité propre « d’apprenant ».

Cette action de valorisation, de qualification, d’identification est donc bien essentielle, édifiante et centrale dans tout parcours scolaire.

C’est elle qui « marque » toute expérience scolaire. C’est par elle que l’élève est ce qu’il est, devient ce qu’il peut être. Pourtant, reposant prioritairement sur une approche par notation, cette assise se montre notablement source d’iniquités et d’approximations coupables.

Les bases de tout travail de notation sont friables, poreuses et offertes aux vents mauvais des épanchements affectifs, malléables sous les doigts agissants de ces sculpteurs improvisés de pâte humaine qui prennent, souvent à leur insu, des libertés avec la droite impartialité, avec la rectitude déontologique du correcteur patenté.

Instigatrice des destins éducatifs des élèves, l’évaluation de leurs performances reste ainsi bien imparfaite, sujette à de multiples inexactitudes, à des incorrections diverses. Drapé dans l’idéologie scolaire de l’objectivité, du haut d’une superbe instituée, l’évaluation traditionnelle perpétue dans ses modalités mêmes la plus sourde et la plus effective des injustices : faisant advenir la loi des privilèges et la règle non écrite des arbitraires. Oui, c’est tapis dans l’ombre masquée des détails de cette évaluation scolaire que gisent les diables les plus actifs de notre mal éducatif. C’est dans ces abysses de la notation que des injustices se perpétuent, que les oracles tombent comme autant de pluies verglaçantes qui gèlent irrémédiablement les mal-nés de notre école – scellant ainsi leurs ambitions potentielles sous le label décrété de leurs inaptitudes. Il convient donc de prendre l’exacte mesure de ce fléau que chacun sait et tait en même temps, de saisir avec gravité l’ampleur de ses conséquences et la véritable nature de cette idéologie évaluative qui sévit depuis tant d’années comme instrument principal de cette discrimination scolaire.

Car la notation adoube les nantis de l’école, consacre le « don » de ses élus – tout en vouant à l’errance éducative celles et ceux qui sont ainsi écartés par la justesse supposée impartiale d’une mesure comptable des performances.

Inconsistance et subjectivité de la notation : apports de la docimologie, théorie de la « constante macabre »

Les soupçons et les interrogations concernant la valeur objective des notations ne datent pas d’aujourd’hui.

Dès l’année 1932 eut en effet lieu l’une des premières enquêtes docimologiques. La Commission Carnégie effectua à cette époque une expérience de multi-corrections en prélevant, au hasard, cent copies dans les archives du baccalauréat à Paris. Ces copies furent distribuées à 6 groupes de 5 examinateurs. Les disciplines concernées étaient le français, la philosophie, le latin, les mathématiques et la physique. On demanda aux examinateurs sollicités de noter à nouveau les copies et de justifier leurs évaluations sur la base de plusieurs critères objectivement formulés. Les résultats de cette enquête montrèrent une forte dispersion des notes attribuées à chaque copie par les correcteurs. Aucune copie ne reçut deux fois la même note. L'écart maximum des notes dépassa toutes les prévisions : une copie de français est notée 3 et 16 ; en philosophie et en latin l'écart maximum est de 12 points. Et les mathématiques et la physique, réputées être des sciences exactes, ne sont pas épargnées par ces égarements évaluatifs : l'écart maximum est respectivement de 9 et 8 points.

Cette expérience initiale et marquante fut ensuite répétée dans de nombreuses occasions et procédures scientifiques, par différents groupes de recherche et instances universitaires : ne citons que l'Institut de Recherche sur l'Enseignement des Mathématiques de Grenoble qui reprend en 1975 un protocole quasiment identique d’expérimentation et qui enregistre alors une dispersion des notes atteignant près de 20 points. Mais on peut évoquer, plus récemment et parmi de nombreux autres, les travaux du Centre International d'Études Pédagogiques de Sèvres, ceux de l'Association des Professeurs de Français, du Centre Pédagogique Régional de Toulouse, de l'I.R.E.M. de Toulouse…

Le consensus sur le sujet semble désormais acquis : l’évaluation par notation est tout sauf fiable et impartiale.

Et l’ampleur de ses variations devrait en toute logique invalider absolument son usage légitime dans un système éducatif qui continue cependant à discriminer les élèves sur son fondement. Il convient de mesurer ici l’intensité du scandale : chacun sait aujourd’hui à quel point la notation des élèves est injuste, nul ne peut ni l’ignorer ni le contester. Mais l’école s’évertue à perpétuer en toute connaissance de cause une modalité de sélection et de distinction des élèves par le biais tacitement assumé d’une modalité inique de sélection. La « méritocratie républicaine » n’a sans doute jamais existé, elle n’est plus la doctrine officielle de notre orthodoxie éducative. Mais nous continuons cependant à en perpétuer les effets ravageurs sur nos classes massifiées.

André Antibi, directeur de l’IREM de Toulouse a ainsi identifié – et il faut lui rendre hommage – l’une des composantes majeures de ces biais évaluatifs à travers le concept désormais classique de « constante macabre ». Il entend par là « qu’inconsciemment les enseignants s’arrangent toujours, sous la pression de la société, pour mettre un certain pourcentage de mauvaises notes ». Il existerait donc une forme d’attente institutionnelle, de prérequis éducatif qui guiderait sourdement le travail des enseignants et selon lequel chaque classe, chaque lot de copie doit avoir sa norme de dispersion. La courbe de Gauss serait ici la règle, le schéma directeur de toute saine notation : il doit y avoir, partout et toujours, peu de bons élèves excellents et ainsi distingués de la masse des élèves moyens ou médiocres. Et à l’autre bout de la répartition on doit trouver une proportion à peu près équivalente d’élèves en difficulté.

Cette figuration idéelle est inconsciemment à l’œuvre dans tous les esprits. Et les travaux d’Antibi ont clairement établi qu’ils n’épargnent pas non plus les enseignants du primaire : qui n’utilisent pourtant pas la notation mais l’évaluation par compétences (acquis, en cours d’acquisition, non acquis). Un professeur « sérieux » se doit donc de trouver, par un travail pédagogique exact et rigoureux, la juste répartition de ses élèves en trois groupes – de préférence non homogènes puisque la majorité doit être, selon cette vision d’ancien régime, statistiquement indistincte – : ceux qui sont « doués », les médiocres et les « mauvais ». Le système exige donc de ses enseignants qu’il y ait un pourcentage à peu près constant d’élèves en échec. La juste indentification de ces situations de décrochage indiquant la justesse évaluative des pratiques éducatives.

Nous voici donc confrontés au cœur du mécanisme de la ségrégation scolaire, au centre du paradoxe agissant de notre système éducatif : la commande culturellement intégrée, qui vise à diagnostiquer des élèves en échec, génère par elle-même en partie ces situations qu’elle mesure – alors même qu’il existe par ailleurs une autre commande, contradictoire et institutionnelle celle-ci, invitant à tenir l’objectif de lutter contre le décrochage.

La schizophrénie scolaire est donc ici totale, patente, manifeste : entre d’une part la volonté officielle de lutter contre l’échec scolaire et d’autre part les pratiques culturellement consenties et partagées visant à les entretenir par régulation inconsciente et schéma dominant de la « juste » évaluation. Et chaque conseil de classe reconduit ainsi, en la modulant marginalement selon les cas, cette sempiternelle courbe de Gauss : véritable modèle universel de notre exigence éducative ânonnée et déclinée en tous lieux de notre école. Et dans les faits, chaque évaluation est alors pensée par les professeurs de manière à obtenir spontanément cette répartition des notes : notamment par des exercices scolairement conçus, non pour faire progresser les élèves dans leurs apprentissages, mais pour en mettre le plus grand nombre possible en difficulté – toujours dans l’objectif de distinguer les « bons » des « mauvais ». Ce qui est visé, ce n’est donc pas la mesure des compétences acquises, mais bien la classification de performances comparativement appréhendées.

La constante macabre permet ainsi de saisir la logique globale d’une culture éducative dont l’évaluation par notation constitue l’instrument central. Mais au-delà de ce caractère prédominant – ou plus exactement à travers lui – se déclinent une multiplicité de phénomènes plus aléatoires et accidentels par lesquels un autre arbitraire – moins idéologiquement marqué, davantage inscrit dans la part incidente des évènements – se joue et se conduit.

Car les diverses enquêtes mettent en évidence que les variations tiennent à trois facteurs distincts : celles qui sont liées à l’évaluateur, celles qui sont induites par le sujet et celles qui tiennent à l’élève lui-même.

Concernant la posture de l’évaluateur, il est non seulement établi que les correcteurs influent sur la mesure des performances, mais également qu’un même correcteur peut se déjuger facilement. De nombreuses expérimentations ont en effet consisté à redonner, dans des temps et des contextes différents, des copies identiques aux mêmes enseignants. Chaque fois le constat s’est imposé d’une variation – parfois très importante – des notes attribuées. Ainsi, pour les corrections du bac, la place de la copie et l’ordre de sa correction – en début ou en fin de paquet – comme le moment de la journée auquel elle était corrigée jouent un rôle dans la manière dont elle est appréciée.

On pourrait alors penser que le type d’exercice influe également sur la notation des copies : ainsi une évaluation encadrée par un barème devrait permettre une plus grande objectivité dans l’appréciation des résultats. Mais là encore les résultats des différentes expérimentations ont montré qu’il n’en était rien. L'IREM de Rennes a ainsi fait corriger 22 copies de mathématiques (c'est l'épreuve de mathématiques, où le barème a une place fondamentale, qui a le plus souvent été testée) du B.E.P.C. par 10 professeurs. Cinq d'entre eux l'ont fait avec barème, les autres sans barème. L'analyse des résultats a tout d’abord montré que les utilisateurs du barème ont corrigé plus sévèrement. Par ailleurs, l'écart entre les notes extrêmes est moindre quand on tient compte du barème. Mais pour autant et malgré cette réduction de l’amplitude des notes, le barème ne supprime pas leur dispersion.

Le Groupe de Recherche de Montauban dirigé par Cransac et Dauvisis s'est penché sur ce problème en 1975. Les conclusions de cette enquête sont alors très éclairantes : « pour une copie dont la note varie de 4 à 13 sur 20, chaque correcteur concerné a justifié sa notation et il a été impossible de donner raison à l'un ou à l'autre. Certains ont donné tour à tour raison à l'un puis à l'autre ». C’est alors l’appréciation des critères – et donc leur mise en œuvre quantitative – qui a souvent été sujette à variations. Ainsi, dans « une réponse peu claire, l'un voit un bon raisonnement, l'autre un raisonnement faux ; ce qui est inquiétant ». Tout barème imposé est donc, en dernier lieu soumis à l’interprétation subjective du correcteur qui arbitre ses notations selon une orientation qui reste en grande partie personnel.

Enfin, la troisième variable – et non la moindre – qu’il convient en toute rigueur d’intégrer dans la mesure de la performance tient à la posture de l’élève lui-même : « la réaction affective de chaque élève à la situation diffère selon sa stabilité émotionnelle du moment, son état de santé, la pression familiale ; en outre, du fait du temps limité, un incident mineur, même le bris d'une pointe de crayon, constitue un handicap inaperçu par le professeur. Dans des épreuves comme la dictée, la place occupée dans la salle peut fausser les résultats. De tels facteurs d'irrégularité sont spécialement actifs au cours des périodes de rapide évolution physique ou intellectuelle ; en particulier, plusieurs auteurs les ont mis en évidence au moment de la puberté »[1]. Ce qui peut sembler être une banalité mérite cependant d’être pris en compte : noter les élèves dans le cadre d’un « contrôle », c’est toujours estimer une performance qui n’est pas que scolaire mais possède des résonnances affectives et sociales, des habitus liés au contexte et à l’état émotionnel.

Il convient donc d’intégrer pleinement le caractère complexe de toute évaluation par notation, d’en relativiser très fortement la valeur de vérité et les qualités d’objectivité. Cette prise de conscience conduit nécessairement à reconsidérer les enjeux et les conséquences des pratiques évaluatives aujourd’hui en vigueur.

Les deux logiques de l’évaluation

Dès ses origines historiques – globalement celle de l’avènement des collèges aux environs du XVIIème siècle –, l’évaluation des élèves fut marquée par une logique restée exclusive jusqu’à – grosso modo – la fin des années 70 en France où il ne s’agissait que de sélectionner les plus aptes.

Evaluer, c’était alors classer, trier, sélectionner. Les exercices scolaires étaient conçus dans cet objectif central de mettre en difficulté les élèves afin de distinguer les plus « doués ». Tout change comme on l’a vu avec la massification qui impose progressivement ses exigences : celles de scolariser le plus grand nombre d’élèves, de les accompagner vers une réussite plurielle et ouverte. Face à ce nouveau défi pour l’école moderne, l’évaluation aurait donc dû changer fondamentalement de démarche et de nature : devenir, non plus l’instrument de la sélection des plus aptes, mais celui de la régulation maîtrisée des apprentissages.

De la discrimination à l’accompagnement, de l’élection des meilleurs à la prise en charge de tous : tel était, tel aurait dû être le tournant attendu et qui continue à l’être. Cette révolution qui est en cours, dont les échéances restent encore très largement à poser, peut être exprimée de manière synthétique : il faut passer d’une évaluation normative ou sommative intervenant en fin de processus d’acquisition de connaissance dans un objectif de contrôle, à une évaluation formative qui jalonne toutes les étapes de l’apprentissage des compétences et qui guide l’élève vers ces acquisitions. Deux logiques sont donc bien ici à l’œuvre, en contradiction, en cohabitation improbable : celle qui vise à sélectionner par les savoirs – eux-mêmes masquant le plus souvent des habitus socialement acquis – et celle qui cherche à accompagner la maîtrise et l’intégration des compétences.

Historiquement et culturellement, l’évaluation scolaire est d’abord l’instrument d’une méritocratie républicaine. Noter, c’est de manière évidente classer chaque élève dans une double perspective : à la fois ouverte à « l’universalité » des savoirs et refermée sur le groupe classe ou plus largement sur l’établissement – voire, pour l’examen du bac, sur l’ensemble des élèves d’une cohorte. La note situe ainsi l’élève au regard d’un attendu absolu qui est celui de la performance parfaite : le modèle type des résultats justes et des « bonnes réponses ». Mais la note mesure aussi les écarts existants entre chaque élève, les ordonnent les uns par rapport aux autres afin de distinguer les meilleurs et d’identifier les moins aptes. La constante macabre orchestre alors sourdement ces procédures, les agence et les organise comme autant d’attendus convenus pour une saine démarche évaluative.

De manière implicite, ces pratiques s’appuient sur une forme de contrat didactique par lequel les notes sont à la fois la sanction d’un résultat ponctuel – le contrôle – et l’expression d’une identification – d’une qualification quasi existentielle – de l’élève dans la classe : le « bon » ou le « mauvais » élève. Implicitement, il s’agit donc de situer sa position et également – implicitement – son comportement ; mais aussi et dans le même temps de prévenir sa destinée à moyen terme : redoublement, réorientation… ou consécration. La notation constitue ainsi une image publique de l’élève au sein de la communauté scolaire.

Elle édifie son identité scolaire et sert de fondement à toutes les décisions futures le concernant.

Cette approche par classification et personnification mérite alors d’être examinée pour elle-même. Un élève en difficulté se trouve ainsi stigmatisé par des résultats érigés en qualités absolues – au regard d’une norme d’excellence vis-à-vis de laquelle il déchoit – et en même temps déconsidéré au sein de ses propres pairs avec lesquels il est ainsi placé par l’institution scolaire elle-même en rupture de ban. Si l’on fait un parallèle avec la médecine, il ne viendrait à l’esprit d’aucun thérapeute de classifier ses malades les uns par rapport aux autres et de signaler les plus gravement atteints à l’attention de ceux qui le sont moins. Il ne serait par ailleurs, évidemment, d’aucun intérêt thérapeutique de le faire – bien au contraire. L’analyse de la constante macabre montre par ailleurs que la notation « surjoue » la difficulté en suscitant – comme par une forme d’effet placebo inversé – la pathologie scolaire qu’elle diagnostique. C’est en quelques sortes une prophétie autocréatrice du décrochage scolaire. La notation démultiplie le schéma gaussien en le généralisant à toutes les classes – organisant ainsi à grande échelle une difficulté de masse chez les élèves. Le chiffre clef de 10% d’une classe d’âge en situation de décrochage scolaire – chiffre relativement stable sur les 10 dernières années – correspond d’ailleurs très exactement à la proportion des élèves en difficulté selon l’augure de la courbe de Gauss. Tant que perdurera dans les esprits cette croyance en la constante macabre, il y a donc fort à parier qu’un tel chiffre restera d’actualité.

Ce qui semble donc fondamentalement induit par la notation, c’est ainsi une approche par nature négative de la performance scolaire.

La note est en effet obtenue, dans de nombreux cas, par soustraction des erreurs commises : chaque erreur coûtant un certain nombre de points. Et le résultat global marque un décompte des fautes commises davantage que des capacités exprimées. Le statut pédagogique de l’erreur, l’idée que l’on puisse apprendre de et par ses erreurs, n’est donc pas du tout intégré à une telle démarche pour laquelle chaque erreur est au contraire une faute. Elle est en tant que telle à sanctionner davantage qu’à comprendre, elle signe une perte de performance et non un support à de nouvelles acquisitions.

Le principe d’éducabilité de tous les élèves, la pédagogie positive se concilient donc difficilement avec de telles conceptions éducatives radicalement marquées par une culture de la méritocratie scolaire.

L’école n’est pas faite pour tous les élèves, de la même manière qu’une notation des élèves n’est pas faite pour donner des bonnes notes à tous. Bien au contraire, noter sert à différencier les bons et les mauvais, le bon grain pédagogique de l’ivraie des décrocheurs.

En se centrant exclusivement sur le résultat final attendu, en incitant les enseignant à concevoir des sujets de contrôle faits pour piéger les élèves, l’évaluation traditionnelle influe considérablement sur la pédagogie enseignée. Par elle, la fin justifie les moyens : car c’est au final l’évaluation elle-même qui donne corps et sens aux pratiques éducatives.

Loin qu’elle soit le simple moyen au service d’un objectif plus élevé qui serait celui de l’acquisition des apprentissages par les élèves, l’évaluation est ce pour quoi l’on enseigne. De même que le bac informe par ses exigences la totalité du cursus du lycée, de la même manière toute évaluation conditionne les modalités d’enseignement des élèves. Comme aux origines de notre système éducatif, nous continuons à prendre le sujet à l’envers : à inverser littéralement l’ordre des priorités en faisant de la classification des élèves par une notation discriminante la finalité dernière de chaque année scolaire dont la réussite se jaugera à cette aune, à ce verdict supposé inspirer la crainte.

Il importe tout particulièrement de mesurer à quel point la réussite et l’échec scolaire sont à cet égard des réalités socialement construites. L’évaluation par la notation, en elle-même profondément arbitraire et dépourvue de valeur éducative, produit statistiquement des décrocheurs par quotas gaussiens. Elle conditionne une pédagogie de la distinction scolaire en identifiant chaque erreur des élèves à des fautes sanctionnables, en appauvrissant les contenus enseignés à seule fin d’une simplification normative des apprentissages ainsi rendus aptes à des évaluations : couperets et simplistes pour les correcteurs, complexes et sélectives pour les élèves. Elle oblige par ailleurs chaque élève à développer des stratégies utilitaristes basées sur l’obtention des meilleures moyennes dans le « meilleur des mondes » éducatifs.

Face à un tel marasme pédagogique, une autre approche de l’évaluation est bien évidemment possible.

C’est celle des compétences et de l’évaluation formative : qui permet à chaque élève de comprendre ses erreurs, de savoir où sont exactement ses fragilités dans le seul souci de mieux entrer dans ses apprentissages, de s’en rendre auteur et acteur.

Cette approche est dans une certaine mesure celle de l’enseignement primaire ; c’est également celle de l’enseignement professionnel, davantage axé sur les modalités pratiques d’acquisition et dégagé – et pour cause… – de toute exigence d’excellence scolaire. La mise en place de l’école du socle commun et du livret personnel des compétences, qui sont supposés garantir à chaque enfant un droit opposable à l’acquisition de savoirs fondamentaux, vont incontestablement dans ce sens. L’école garantit à chaque élève la maîtrise d’un ensemble de savoirs et de savoir-faire, de savoir-être et de savoir-devenir par lesquels seuls il peut aspirer à une existence libre de citoyen.

Mais la réalisation d’un tel objectif donne lieu aux pires errances administratives et pédagogiques : le livret personnel des compétences est une véritable « usine à cases » dont les enseignants – et donc a fortiori les familles – peinent à trouver le moindre début de signification. L’évaluation par les compétences ne doit pas se réduire à un jeu stérile et vain de cases à cocher dans des tableaux préformatés. Elle se construit à l’inverse sur l’élaboration d’un diagnostic partagé avec l’élève, compris par lui et fondé sur l’identification positive de ses erreurs. Elle se développe de manière progressive dans la dynamique d’un parcours éducatif où il est lui-même sollicité pour mesurer ses résultats. Cette approche d’une évaluation formative s’inscrit donc dans une démarche plus globale de différenciation pédagogique dont elle nourrit la philosophie : accordant ainsi authentiquement à l’élève une place centrale.

Mais en l’état actuel de nos pratiques éducatives, l’évaluation traditionnelle constitue l’un des obstacles majeurs à la démocratisation scolaire. Elle reconduit immanquablement la logique méritocratique par simple effet mécanique de ses modalités d’application. Elle constitue le support de la culture dominante chez les enseignants, peu sensibles dans leur forte majorité à l’objectif de l’éducabilité de tous les élèves. Constante macabre aidant, l’école de tous ne pourra advenir tant que perdurera le principe d’une notation discriminante des élèves, d’une attente statistiquement orchestrée de décrocheurs en distribution marginale de cette évaluation. Toute justice scolaire passe ainsi nécessairement par une réestimation complète de ces pratiques évaluatives et par une remise en cause de sa dynamique historique de fonctionnement : non plus classification des performances mais accompagnement des apprentissages, non plus distinction par les mérites mais régulation et communication selon les besoins.

Jean-Christophe TORRES

https://www.linkedin.com/pulse/l%C3%A9valuation-par-la-notation-entre-approximations-coupables-torres?trk=portfolio_article-card_title

[1] Hotyat, Revue Française de Pédagogie, Janvier 1968

Torres Jean Christophe

Proviseur au lycée Léopold Sédar Senghor à Evreux (lycée campus des métiers et des qualifications - biotechnologies et bio-industries de Normandie). Agrégé de philosophie, auteur de plusieurs essais dans les domaines de la philosophie morale et politique, de la pédagogie et de la gestion éducative.

https://www.linkedin.com/in/jtorres5/