LES TESTS DE CONNAISSANCES

LES TESTS DE CONNAISSANCES

 

L'usage des tests, en France, est surtout le fait des psycho­logues. Depuis plusieurs décades, ceux-ci ont apporté à la connais­sance de l'enfant, par des méthodes qui leur sont propres, une contribution originale qui s'est souvent révélée d'autant plus effi­cace que la mise en évidence des aptitudes ou d'autres aspects de la personnalité peut expliquer, nuancer les observations prati­quées quotidiennement par les enseignants et aider à la formula­tion d'un pronostic.

Si les efforts des pédagogues et des psychologues concou­rent à un épanouissement plus complet de l'enfant, si leurs re­cherches ont un but commun, qui est une meilleure compréhension de celui-ci, il est cependant peu contestable que non seulement les uns et les autres utilisent des voies différentes, mais que leurs objectifs immédiats sont habituellement très distincts.

Les tests de connaissances font exception à cet état de cho­ses, précisément parce que ces épreuves ont un caractère mixte, mais l'apport mutuel des deux types de spécialistes n'a pas encore reçu tout le développement ni toute la coordination désirables. L'objet de ces tests est nettement d'ordre pédagogique, mais les techniques qu'ils mettent en œuvre — aussi bien dans leur cons­truction que dans leur utilisation — sont mieux connues des psy­chologues. L'initiative en ce domaine pouvait donc en principe revenir aussi bien aux uns qu'aux autres. Pour bien des raisons, et en France particulièrement, ce sont les psychologues qui dans l'ensemble ont été les premiers à établir et à utiliser des tests de connaissances.

L'une de ces raisons est certainement liée à la nécessité de faire face aux phénomènes associés à la démocratisation de l'en­seignement. Placés par leur fonction en dehors de l'école, aux carrefours des divers enseignements, les psychologues chargés de l'orientation des enfants ont été très vite confrontés aux pro­blèmes de répartition, d'évaluation des chances de réussite, pour lesquels il leur fallait une référence stable. Ils ne sont pas les seuls pour autant à devoir céder à la pression des circonstances, et les enseignants aussi sont contraints de participer à des opé­rations d'orientation qui dépassent très largement le cadre de leurs classes respectives. Mais alors que ceux-ci s'attachent à un système de « mesure appuyé sur des traditions », les premiers dénoncent le caractère incertain de cette mesure et lui préfèrent une échelle objective et un classement selon cette échelle.

L'idée de mesure dans le domaine des connaissances peut paraître théoriquement contestable. Selon que l'on veut davan­tage contrôler les processus dynamiques d'apprentissage qu'esti­mer la valeur de l'acquis, on peut se demander si l'évaluation du travail d'un élève à un moment donné et dans un contexte donné atteint le but recherché. Ces considérations soulèvent des pro­blèmes plus proprement pédagogiques, et nous nous bornerons à discuter ce qui a trait aux aspects plus formels des problèmes de mesure.

La note donnée en classe est un outil pédagogique. Elle a une dimension temporelle, que n'a pas la note d'examen ; elle condense et matérialise certains aspects des relations maître-élèves et, en tant que telle, il est légitime qu'elle reflète des variations person­nelles, qu'elle ait un caractère subjectif. On pourrait également soutenir qu'aucune nécessité autre que le besoin de se conformer à un règlement, ou la commodité de l'habitude, n'impose à cette note une échelle déterminée. C'est d'ailleurs ce qui se passe quel­quefois lorsque des élèves connaissent les exigences de leurs professeurs disent que le 8 de ce professeur vaut un 12 de la part d'un autre professeur. D'un point de vue strictement pédagogique, il n'y a là rien de choquant. Ce double caractère d'incertitude, à notre avis, grève plus lourdement la valeur de la note dès que celle-ci joue dans l'orientation des élèves un rôle déterminant.

Les tests de connaissance n'ont pas une place très large dans l'orientation des adolescents français. L'Angleterre, dont l'évolution dans le domaine de l'éducation est sensiblement parallèle à la nôtre, et pays traditionaliste aussi, entreprend maintenant de trai­ter certaines parties des examens dans un esprit très proche de celui des épreuves préconisées par les psychologues, et avec l'aide de ceux-ci. Cela ne se fera pas sans réticences ni sans re­gret. Il est difficile de se défaire d'habitudes de pensée qui se jus­tifiaient peut-être à une époque où l'enseignement s'adressait à une fraction restreinte et socialement définie de la population, où l'entrée à l'université s'accomplissait dans une atmosphère de cooptation. Actuellement, la demande croissante d'éducation et la multiplicité des voies par lesquelles elle est dispensée requièrent un système plus général. Encore une fois, on peut contester la nécessité de classer, de hiérarchiser les élèves, mais ce souhait est, peut-on dire, sur un autre plan. Dans la réalité telle qu'elle se présente aux adolescents au cours de la scolarité secondaire, il semble difficile de s'affranchir de tout principe de différenciation. La Suède, entre tous les pays qui ont tenté de donner corps à une conception vraiment démocratique de l'enseignement, s'est posé le problème sans pouvoir lui donner une solution qui satis­fasse pleinement à la fois au modèle théorique et aux exigences qui découlent de l'organisation sociale.

Le point de vue des partisans des tests de connaissances n'est pourtant pas une attitude de compromis ; il participe plutôt à des implications générales d'un nouvel humanisme. C'est le poids des dimensions sociales dans des problèmes qui autrefois appa­raissaient surtout dans leurs répercussions personnelles qui les amène à considérer comme importants les aspects métriques des symboles que nous utilisons.

Le plus évident peut-être de ces aspects entraîne l'obligation que l'indice par lequel on caractérise un élève soit fidèle. On peut exprimer par des méthodes statistiques, le degré de fidélité ou d'homogénéité d'une notation ou d'une classification. La notion de fidélité a donc un caractère précis et nettement défini. Mais, pour rester au niveau d'une explication simple, nous l'introdui­rons ici de manière intuitive, en disant qu'elle exprime, par exem­ple, le degré d'accord entre les deux séries de notes d'un pro­fesseur donné à un même ensemble de devoirs à quelques se­maines d'intervalle, ou encore la cohérence des appréciations don­nées à un même devoir par des professeurs différents. Il a été de nombreuses fois prouvé que les notes scolaires ont une fidélité faible, ce qui revient à dire que la valeur attribuée à telle compo­sition d'un élève aurait été différente si le correcteur avait noté à un autre moment, ou si le devoir avait été jugé par un autre cor­recteur. Une autre obligation entraînée par les examens est que les notes attribuées — ou plus exactement les processus de no­tation employés — soient valides. La notion de validité est complexe ; elle peut s'appliquer également à un indice mesurant le degré d'accord entre un système de notes et un critère exté­rieur, ou exprimer un niveau de signification de la note par rap­port à ce qu'on veut réellement atteindre par la notation. Dans le premier sens, on pourrait examiner par exemple s'il existe une relation nettement positive entre les notes obtenues au baccalau­réat, pour un élève donné, et sa réussite ultérieure dans l'ensei­gnement supérieur. Dans le second sens, on pourrait se deman­der si la note accordée à un élève, sur une copie d'Histoire, par exemple, exprime bien le niveau de l'élève en Histoire, autrement dit dans quelle mesure cette note particulière représente bien le niveau général de l'élève en cette matière.

C'est à partir de ces deux notions de fidélité et de validité que nous tenterons de justifier les tests de connaissances en tant que méthode d'examen (le mot examen étant pris dans le sens le plus large possible), en considérant la nature et les qualités de l'information qu'ils apportent sur l'élève, comparativement à celle que donne, dans les mêmes circonstances, la notation tradition­nelle.

Ce sont les efforts faits en vue d'une meilleure fidélité qui ont certainement déterminé les premières formes d'épreuves à correction objective. Le but des novateurs étant de restreindre au maximum la dispersion des notes accordées à un même de­voir, ceux-ci se sont appliqués à standardiser les devoirs proposés, à les découper en questions formulées de manière telle que les réponses fournies pouvaient être interprétées sans équivoque, à l'aide d'un barème exactement défini. Cette préoccupation a paru primordiale aux premiers constructeurs de tests, et si leur but était atteint — une notation beaucoup plus fidèle que celle des notes scolaires — ce gain était contrebalancé par une « atomisa­tion des connaissances. En dépit des améliorations introduites depuis lors, beaucoup de tests de connaissances établissent encore le classement des élèves à partir de leur niveau estimé sur l'acquisition d'éléments ou de mécanismes de base, plus que sur leurs capacités de synthèse d'un sujet donné. On peut alors se demander si dans ces conditions les tests de connaissances sont aussi valides que les notes traditionnelles.

Nous avons évoqué plus haut deux sens assez différents de la notion de validité. Au sens d'accord avec un critère de réussite scolaire d'ordre général, la validité des tests de connaissances n'est pas inférieure à celle des notes scolaires attribuées dans le même temps. Plusieurs études l'ont démontré : par exemple, une enquête menée sur les élèves du Loiret, du CM2 à la fin de la classe de cinquième[1] a mis en évidence une relation plus étroite entre le classement des élèves à partir des tests subis au CM2 et l'appréciation globale du chef d'établissement à la fin de la cinquième, qu'entre les appréciations des instituteurs de CM2 et le même critère.

Mais, si la valeur prédictive des notes scolaires à moyen ou long terme est relativement basse, celle des tests employés jus­qu'à présent n'est pas très élevée non plus. Sans doute, il serait vain d'attendre, par quelque moyen que ce soit, une méthode par­faitement prédictive en ce domaine ; mais la modestie des résul­tats enregistrés montre qu'il existe certainement une marge de progrès possible. Ces progrès, dussent-ils être entrepris par l'une ou l'autre méthode, ne passent peut-être pas par les mêmes impé­ratifs. On peut penser en effet que c'est la faible fidélité des notes scolaires qui limite leur validité prédictive ; ce n'est pas le cas des tests, et il est possible que ce soit leur nature trop ana­lytique qui aboutit à un résultat analogue. Ceci nous amène à discuter l'autre sens du mot validité.

C'est un reproche très habituel que l'on fait aux tests de connaissances, celui de ne s'attacher qu'aux aspects les moins élaborés de la pensée, de faire surtout appel à la mémoire, voire de n'utiliser dans celle-ci que des processus de reconnaissance. Cela est vrai dans certains cas. Par ailleurs, ce défaut s'assortit généralement d'un avantage, en ce sens que la brièveté des ques­tions et des réponses qu'il autorise est en quelque sorte compen­sée par le nombre élevé de celles-ci, ce qui permet une investi­gation des connaissances dans de plus larges champs, différents entre eux mais dépendant d'un même domaine. Par contraste, la composition de type traditionnel apparaît à certains comme beau­coup plus valide, parce que moins structurée, et par la liberté même laissée à l'élève de conduire son raisonnement comme il l'entend, de permettre au correcteur d'apprécier la rectitude et la puissance de la pensée. Mais tous les sujets proposés, ou propo­sables, sont loin de permettre des jugements comparables entre eux, et surtout, ils n'offrent pas, probablement, les mêmes oppor­tunités à tous les élèves. Dans la perspective continue de la classe, ce n'est pas un inconvénient, parce que l'opinion du pro­fesseur se fonde sur une pluralité d'observations. Dans la pers­pective d'un examen comme le baccalauréat, par exemple, il n'est pas sûr que la note donnée à un élève à partir d'une composition puisse être considérée comme nécessairement représentative de la valeur de cet élève dans la discipline où il a composé.

Cette controverse trouve un commun dénominateur dans l'effort réalisé par de nombreux groupes pédagogiques et psycho­logiques pour clarifier et préciser les objectifs de l'enseignement. Ce que vise tout examen, c'est de vérifier si ces objectifs sont atteints. Diverses taxonomies ont été élaborées ; elles aboutissent toutes à des conclusions pratiques voisines : lorsque l'effort est fait de définir dans ses aspects les plus fins les objectifs péda­gogiques, la nature des questions que l'on peut soumettre aux élèves se trouve par le fait même très clarifiée. Le choix du terme « taxonomie » souligne l'optique dans laquelle se font ces recher­ches et dénote le souci d'une organisation hiérarchique, qui est en elle-même favorable à la formulation explicite du travail de­mandé.

Le problème de la validité maximum d'une épreuve dans un domaine donné pourrait donc trouver une solution par cette voie, dans une confluence de la recherche pédagogique et de la doci­mologie. Le test de connaissances deviendrait un travail dans lequel l'élève prouverait qu'il a atteint le but essentiel que ses maîtres s'étaient assignés, et qui serait codifié de telle sorte que l'appréciation donnée en fonction de ce travail suivrait les règles d'une mesure convenable.

Ce projet n'est pas utopique. Un organisme comme The School Mathematics Study Group (U.S.A.) a entrepris la construc­tion de tests de connaissances en mathématiques basés sur une taxonomie qui cautionne la validité de contenu de ceux-ci. Le Projet International pour l'Evaluation du rendement scolaire (I.E.A.) a des préoccupations analogues. En Angleterre, en divers endroits et sous diverses égides, professeurs et psychologues ont entrepris la rédaction d'épreuves de ce type.

Cela ne signifie évidemment pas que ce renouveau dans la manière d'aborder ces problèmes résolve entièrement toutes les difficultés. Des critiques sont possibles, elles sont même souhai­tables dans la mesure où elles entraînent un progrès. En dehors des ambiguïtés liées à une terminologie, quelquefois obscure, il est certain que les inférences par lesquelles on passe d'une clas­sification théorique à des questions réelles ne sont pas sans dan­ger. Il faut ajouter aussi que la plus fondamentale des critiques demeure : une mesure basée sur un examen collectif rend-elle la même justice à tous ? N'y a-t-il pas dans les démarches intel­lectuelles des enfants des différences irréductibles à une concep­tion d'un comportement moyen ? La discussion du postulat im­pliqué dans cette critique dépasse de beaucoup la portée limitée de cet article. Nous nous bornerons à souligner que, si le problème existe, ses répercussions sur le plan de la mesure risquent d'être beaucoup plus importantes dans les examens traditionnels qu'au travers de tests bien construits. On avance souvent que les exa­mens oraux permettent d'adapter en quelque sorte l'outil de me­sure, c'est-à-dire l'interrogation, au type particulier de pensée examiné. Malheureusement, dans la pratique, on a pu constater que « l'examen oral » mérite une moindre confiance que l'examen écrit »[2].

Les tests de connaissances s'orientent donc actuellement vers l'utilisation de questions — il est habituel de parler en ce cas d'item — qui visent des processus hiérarchisés jusqu'aux plus élevés, synthèse, critique en termes d'évidence interne ou externe, invention ou créativité. Leur forme reste classique, les réponses pouvant être libres, ou à choisir parmi plusieurs éventualités. Dans le premier cas, la question doit être formulée de telle sorte que la réponse puisse être donnée de manière claire. Dans le second cas, même si la réponse est sollicitée sous la forme d'un repère simple, (un numéro, une lettre), elle peut recouvrir une élaboration complexe.

Il est facile d'en trouver des exemples dans les examens français de médecine, qui utilisent depuis quelques années les questionnaires à choix multiple. Parmi les plus typiques, citons celui dans lequel deux propositions sont faites, à propos des­quelles l'étudiant doit répondre :

A,            si les deux propositions sont vraies et qu'il existe une rela­tion de cause à effet dans le sens indiqué,

B,            si les deux propositions sont vraies sans qu'il y ait de rela­tion de cause à effet,

C,            si la première proposition est vraie mais si la deuxième est fausse,

D,            si la première proposition est fausse mais la deuxième est un fait ou un principe accepté,

E,            si les deux propositions sont fausses[3].

L'exemple qui correspond à ce type d'item est le suivant :

Dans un muscle en activité, la différence de teneur en oxy­gène entre l'artère afférente et la veine efférente est augmentée parce que l'augmentation des besoins énergétiques du muscle entraîne une vaso-dilatation importante. (Réponse B).

Plus qu'une compréhension d'un concept, on cherche souvent à vérifier si l'élève est capable d'appliquer ce concept. Ceci peut être estimé objectivement. Par exemple on pourra demander si une ou plusieurs propositions représentent une illustration de l'un de ces principes généraux, des deux pris simultanément, ou d'au­cun des deux[4] :

A.                            Toute particule de l'univers exerce une attraction sur une autre particule selon une force proportionnelle au produit des mas­ses divisé par le carré de leur distance.

B.                            Le mouvement apparent d'un objet relativement proche d'un observateur, par rapport à un objet lointain, varie avec le mouvement propre de l'observateur. (La réponse consiste à placer une croix soit sous A seul, soit sous B seul, soit sous A et B, soit dans la 3e  colonne) :

A

B

aucun

 

 

 

 

 

1 - La distance qui sépare la Terre des plus proches étoiles peut être mesurée.

 

 

 

 

 

2 - Le diamètre de l'orbite terrestre est quelquefois utilisé comme « base de départ » dans les calculs astrono­miques.

 

 

On peut approcher les qualités d'invention, enfin, par des questions du type suivant : on fournit deux données à partir des­quelles l'enfant doit trouver « quelque chose » ; puis ce « quelque chose » associé à « autre chose » peut le conduire ensuite à un autre résultat, et ainsi de suite (par exemple, à partir de la lon­gueur et de la largeur d'une brique, que peut-on trouver ? l'enfant peut indiquer ensuite qu'en connaissant la hauteur, on peut trou­ver le volume ; si de plus on connaît le poids spécifique, on peut trouver le poids, (ou l'inverse), etc.

Sur le plan de l'utilisation, on fait souvent le reproche aux tests de connaissances de permettre à !élève astucieux de de­viner la réponse exacte par un ensemble d'indications secondaires, souvent sans rapport avec la question elle-même ; nous ne pen­sons pas que cette « méthode » de travail soit réellement payante si le test est bien fait. On leur fait aussi le grief de favoriser le candidat qui raisonne par élimination des réponses inexactes. Ces défauts nous semblent être des défauts de technique et par conséquent réductibles. Enfin, on peut leur reprocher de faire une part très mince aux capacités d'expression personnelle. Cela est vrai, mais d'une part l'usage des tests n'implique pas que l'information globale fournie par l'examen exclue d'autres métho­des. D'autre part, le reproche inverse pourrait être fait aux exa­mens traditionnels, dans lesquels les capacités d'expression, en raison de la forme des compositions, entrent pour beaucoup dans le jugement de l'élève. Dans la mesure où le baccalauréat est autant un brevet de culture générale qu'un examen de niveau considéré sous l'angle de l'entrée en Faculté, on ne voit pas pourquoi des enfants intelligents mais limités dans leur expres­sion verbale seraient systématiquement défavorisés.

Les tests de connaissances présentent enfin une caractéris­tique particulière qui les distingue très nettement des notes sco­laires. Si les psychologues emploient quelquefois eux aussi le mot « note » à propos d'un résultat à un test, c'est par analogie avec la mesure scolaire, par facilité de langage. Mais à la différence de la notation scolaire, le critère de référence de la valeur attri­buée est indépendant de toute échelle absolue de valeurs, dont on a maintenant prouvé l'inconsistance en ce domaine. C'est la réussite de l'ensemble du groupe qui détermine l'échelle à laquelle la valeur de chaque travail individuel sera rapportée. Il existe plusieurs techniques d'étalonnage permettant de calculer cette valeur relative ; elles ne sont pas toutes équivalentes quant à l'in­formation qu'elles apportent mais celle-ci est cependant nette­ment définie à l'intérieur de chaque système de référence.

Dans les échelles les plus fréquemment employées, le chiffre qui exprime la valeur centrale (5 pour une échelle de 0 à 10 par exemple) correspond à la valeur médiane des notes brutes attri­buées à un ensemble défini d'élèves qui ont subi le test dans les mêmes conditions, ensemble pris aussi grand que possible. L'in­térêt de ce type de notation est double : il est indépendant de la difficulté de l'épreuve proposée, et c'est le seul qui permette de situer objectivement un élève par rapport à un groupe plus étendu que sa classe, en particulier de comparer les élèves de classes en principe équivalentes relevant d'établissements de types diffé­rents. Toute orientation, dès qu'elle est sélective, implique une référence commune, donc extérieure à chaque système particulier de valeurs. Si l'orientation des élèves telle qu'elle est habituelle­ment pratiquée à la fin du premier cycle paraît satisfaisante aux défenseurs du système actuel, c'est qu'elle tient compte essen­tiellement de vérités de moyennes. Il est vrai qu'en moyenne les enfants issus de certaines classes sont meilleurs que d'autres. C'est l'opinion générale des professeurs, fondée sur leur expé­rience professionnelle, qui se traduit très imparfaitement par les notes scolaires, du fait des fluctuations d'échelles, donc de moyen­nes, entre les classes. C'est aussi le résultat de comparaisons faites au moyen d'une métrique commune, qui confirme globale­ment cette opinion. Mais l'orientation intéresse des individus, et non des groupes. Le recouvrement des distributions de notes don­nées à partir de critères objectifs[5] sont trop importants pour qu'on puisse nier la nécessité d'unifier l'étalon de jugement, afin que celui-ci soit réellement équitable.

Les structures scolaires, la physionomie sociologique de la classe, la pédagogie subissent actuellement les contrecoups des constantes remises en question d'une évolution générale rapide. Il ne nous semble pas que des recherches visant à contrôler des phénomènes collectifs puissent se passer des méthodes qui jus­qu'à présent sont les seules à formuler les règles élémentaires de comparabilité, et sans doute les mieux adaptées à résoudre des difficultés qui sous cet angle sont parmi les plus importantes en psychologie.

Il est de fait que les tests de connaissances sont encore bien souvent un sujet d'opposition entre pédagogues et psychologues. Dans certains cas cette opposition est affaire de principe, l'apport révolutionnaire des tests, au meilleur sens du terme, apparaissant comme négatif à certains esprits nourris de tradition, en ce qu'ils détruisent à leurs yeux une certaine image de l'homme, et de leur mission d'éducateur. Les arguments avancés au long de ces quel­ques pages seront sans doute de peu de poids en face de ce type d'opposition. Celle qui relève par contre d'une irritation — légi­time — en face d'une situation bâtarde n'est peut-être pas aussi définitive. C'est en tout cas notre conviction qu'un réel progrès en termes de mesure ne peut être atteint qu'au travers d'une coopé­ration permanente. C'est déjà ce qui se passe en divers endroits, avec un bénéfice plus grand qu'une simple amélioration de la méthode : celui qu'apporte à chacun des membres de l'équipe une réflexion attentive sur ses propres idées, ses propres connais­sances, et ses propres objectifs.

Jacqueline PELNARD-CONSIDERE.



[1]  F. BACHER et M. REUCHLIN. Le cycle d'observation. Enquête sur l'ensemble des élèves d'un département - B.I.N.O.P., 1965, XXI, ri. 3.

 

[2] H. PIERON, M. REUCHLIN et F. BACHER. Une recherche expérimentale de docimologie sur les examens oraux de physique au niveau du baccalauréat de mathématiques. Biotypologie, 1962, XXIII, 1-2, 48-61.

 

[3] d'après Les examens par questions à choix multiple, brochure publiée par l'Institut Pédagogique National, section médicale.

[4] d'après l'exemple donné par P.E. Vernon. X\./ Congrès de Psychologie Appliquée, LJUBJANA, 1964.

 

[5] M. REUCHLIN et F. HACHER. Enquête sur l'orientation à la fin du premier cycle secondaire - Rapport ronéotypé, I.N.O.P.

 

aller à la page suivante du dossier

retour à l'introduction du dosier

retour à la page d'accueil