L'usage des tests, en
France, est surtout le fait des psychologues. Depuis plusieurs décades,
ceux-ci ont apporté à la connaissance de l'enfant, par des méthodes qui leur
sont propres, une contribution originale qui s'est souvent révélée d'autant
plus efficace que la mise en évidence des aptitudes ou d'autres aspects de la
personnalité peut expliquer, nuancer les observations pratiquées
quotidiennement par les enseignants et aider à la formulation d'un pronostic.
Si les efforts des
pédagogues et des psychologues concourent à un épanouissement plus complet de
l'enfant, si leurs recherches ont un but commun, qui est une meilleure
compréhension de celui-ci, il est cependant peu contestable que non seulement
les uns et les autres utilisent des voies différentes, mais que leurs objectifs
immédiats sont habituellement très distincts.
Les tests de connaissances
font exception à cet état de choses, précisément parce que ces épreuves ont un
caractère mixte, mais l'apport mutuel des deux types de spécialistes n'a pas
encore reçu tout le développement ni toute la coordination désirables. L'objet
de ces tests est nettement d'ordre pédagogique, mais les techniques qu'ils
mettent en œuvre — aussi bien dans leur construction que dans leur utilisation
— sont mieux connues des psychologues. L'initiative en ce domaine pouvait donc
en principe revenir aussi bien aux uns qu'aux autres. Pour bien des raisons, et
en France particulièrement, ce sont les psychologues qui dans l'ensemble ont
été les premiers à établir et à utiliser des tests de connaissances.
L'une de ces raisons est
certainement liée à la nécessité de faire face aux phénomènes associés à la
démocratisation de l'enseignement. Placés par leur fonction en dehors de
l'école, aux carrefours des divers enseignements, les psychologues chargés de
l'orientation des enfants ont été très vite confrontés aux problèmes de
répartition, d'évaluation des chances de réussite, pour lesquels il leur
fallait une référence stable. Ils ne sont pas les seuls pour autant à devoir
céder à la pression des circonstances, et les enseignants aussi sont contraints
de participer à des opérations d'orientation qui dépassent très largement le cadre
de leurs classes respectives. Mais alors que ceux-ci s'attachent à un système
de « mesure appuyé sur des traditions », les premiers dénoncent le
caractère incertain de cette mesure et lui préfèrent une échelle objective et
un classement selon cette échelle.
L'idée de mesure dans le
domaine des connaissances peut paraître théoriquement contestable. Selon que
l'on veut davantage contrôler les processus dynamiques d'apprentissage qu'estimer
la valeur de l'acquis, on peut se demander si l'évaluation du travail d'un
élève à un moment donné et dans un contexte donné atteint le but recherché. Ces
considérations soulèvent des problèmes plus proprement pédagogiques, et nous
nous bornerons à discuter ce qui a trait aux aspects plus formels des problèmes
de mesure.
La note donnée en classe
est un outil pédagogique. Elle a une dimension temporelle, que n'a pas la note
d'examen ; elle condense et matérialise certains aspects des relations
maître-élèves et, en tant que telle, il est légitime qu'elle reflète des variations
personnelles, qu'elle ait un caractère subjectif. On pourrait également
soutenir qu'aucune nécessité autre que le besoin de se conformer à un
règlement, ou la commodité de l'habitude, n'impose à cette note une échelle
déterminée. C'est d'ailleurs ce qui se passe quelquefois lorsque des élèves
connaissent les exigences de leurs professeurs disent que le 8 de ce professeur
vaut un 12 de la part d'un autre professeur. D'un point de vue strictement
pédagogique, il n'y a là rien de choquant. Ce double caractère d'incertitude, à
notre avis, grève plus lourdement la valeur de la note dès que celle-ci joue
dans l'orientation des élèves un rôle déterminant.
Les tests de connaissance
n'ont pas une place très large dans l'orientation des adolescents français.
L'Angleterre, dont l'évolution dans le domaine de l'éducation est sensiblement
parallèle à la nôtre, et pays traditionaliste aussi, entreprend maintenant de
traiter certaines parties des examens dans un esprit très proche de celui des
épreuves préconisées par les psychologues, et avec l'aide de ceux-ci. Cela ne
se fera pas sans réticences ni sans regret. Il est difficile de se défaire
d'habitudes de pensée qui se justifiaient peut-être à une époque où
l'enseignement s'adressait à une fraction restreinte et socialement définie de
la population, où l'entrée à l'université s'accomplissait dans une atmosphère
de cooptation. Actuellement, la demande croissante d'éducation et la
multiplicité des voies par lesquelles elle est dispensée requièrent un système plus
général. Encore une fois, on peut contester la nécessité de classer, de
hiérarchiser les élèves, mais ce souhait est, peut-on dire, sur un autre plan.
Dans la réalité telle qu'elle se présente aux adolescents au cours de la
scolarité secondaire, il semble difficile de s'affranchir de tout principe de
différenciation. La Suède, entre tous les pays qui ont tenté de donner corps à
une conception vraiment démocratique de l'enseignement, s'est posé le problème
sans pouvoir lui donner une solution qui satisfasse pleinement à la fois au
modèle théorique et aux exigences qui découlent de l'organisation sociale.
Le point de vue des
partisans des tests de connaissances n'est pourtant pas une attitude de
compromis ; il participe plutôt à des implications générales d'un nouvel
humanisme. C'est le poids des dimensions sociales dans des problèmes qui
autrefois apparaissaient surtout dans leurs répercussions personnelles qui les
amène à considérer comme importants les aspects métriques des symboles que nous
utilisons.
Le plus évident peut-être
de ces aspects entraîne l'obligation que l'indice par lequel on caractérise un
élève soit fidèle. On peut exprimer par des méthodes statistiques, le
degré de fidélité ou d'homogénéité d'une notation ou d'une classification. La
notion de fidélité a donc un caractère précis et nettement défini. Mais, pour
rester au niveau d'une explication simple, nous l'introduirons ici de manière
intuitive, en disant qu'elle exprime, par exemple, le degré d'accord entre les
deux séries de notes d'un professeur donné à un même ensemble de devoirs à
quelques semaines d'intervalle, ou encore la cohérence des appréciations données
à un même devoir par des professeurs différents. Il a été de nombreuses fois
prouvé que les notes scolaires ont une fidélité faible, ce qui revient à dire
que la valeur attribuée à telle composition d'un élève aurait été différente
si le correcteur avait noté à un autre moment, ou si le devoir avait été jugé
par un autre correcteur. Une autre obligation entraînée par les examens est
que les notes attribuées — ou plus exactement les processus de notation
employés — soient valides. La notion de validité est complexe ; elle
peut s'appliquer également à un indice mesurant le degré d'accord entre un
système de notes et un critère extérieur, ou exprimer un niveau de
signification de la note par rapport à ce qu'on veut réellement atteindre par
la notation. Dans le premier sens, on pourrait examiner par exemple s'il existe
une relation nettement positive entre les notes obtenues au baccalauréat, pour
un élève donné, et sa réussite ultérieure dans l'enseignement supérieur. Dans
le second sens, on pourrait se demander si la note accordée à un élève, sur
une copie d'Histoire, par exemple, exprime bien le niveau de l'élève en Histoire,
autrement dit dans quelle mesure cette note particulière représente bien le
niveau général de l'élève en cette matière.
C'est à partir de ces deux
notions de fidélité et de validité que nous tenterons de justifier les tests de
connaissances en tant que méthode d'examen (le mot examen étant pris dans le
sens le plus large possible), en considérant la nature et les qualités de
l'information qu'ils apportent sur l'élève, comparativement à celle que donne,
dans les mêmes circonstances, la notation traditionnelle.
Ce sont les efforts faits
en vue d'une meilleure fidélité qui ont certainement déterminé les premières
formes d'épreuves à correction objective. Le but des novateurs étant de
restreindre au maximum la dispersion des notes accordées à un même devoir,
ceux-ci se sont appliqués à standardiser les devoirs proposés, à les découper
en questions formulées de manière telle que les réponses fournies pouvaient
être interprétées sans équivoque, à l'aide d'un barème exactement défini. Cette
préoccupation a paru primordiale aux premiers constructeurs de tests, et si
leur but était atteint — une notation beaucoup plus fidèle que celle des notes
scolaires — ce gain était contrebalancé par une « atomisation des
connaissances. En dépit des améliorations introduites depuis lors, beaucoup de
tests de connaissances établissent encore le classement des élèves à partir de
leur niveau estimé sur l'acquisition d'éléments ou de mécanismes de base, plus
que sur leurs capacités de synthèse d'un sujet donné. On peut alors se demander
si dans ces conditions les tests de connaissances sont aussi valides que les
notes traditionnelles.
Nous avons évoqué plus
haut deux sens assez différents de la notion de validité. Au sens d'accord avec
un critère de réussite scolaire d'ordre général, la validité des tests de
connaissances n'est pas inférieure à celle des notes scolaires attribuées dans
le même temps. Plusieurs études l'ont démontré : par exemple, une enquête menée
sur les élèves du Loiret, du CM2 à la fin de la classe de cinquième[1] a mis en évidence une
relation plus étroite entre le classement des élèves à partir des tests subis
au CM2 et l'appréciation globale du chef d'établissement à la fin de la
cinquième, qu'entre les appréciations des instituteurs de CM2 et le même
critère.
Mais, si la valeur
prédictive des notes scolaires à moyen ou long terme est relativement basse,
celle des tests employés jusqu'à présent n'est pas très élevée non plus. Sans
doute, il serait vain d'attendre, par quelque moyen que ce soit, une méthode
parfaitement prédictive en ce domaine ; mais la modestie des résultats
enregistrés montre qu'il existe certainement une marge de progrès possible. Ces
progrès, dussent-ils être entrepris par l'une ou l'autre méthode, ne passent
peut-être pas par les mêmes impératifs. On peut penser en effet que c'est la
faible fidélité des notes scolaires qui limite leur validité prédictive ; ce
n'est pas le cas des tests, et il est possible que ce soit leur nature trop analytique
qui aboutit à un résultat analogue. Ceci nous amène à discuter l'autre sens du
mot validité.
C'est un reproche très
habituel que l'on fait aux tests de connaissances, celui de ne s'attacher
qu'aux aspects les moins élaborés de la pensée, de faire surtout appel à la
mémoire, voire de n'utiliser dans celle-ci que des processus de reconnaissance.
Cela est vrai dans certains cas. Par ailleurs, ce défaut s'assortit généralement
d'un avantage, en ce sens que la brièveté des questions et des réponses qu'il
autorise est en quelque sorte compensée par le nombre élevé de celles-ci, ce
qui permet une investigation des connaissances dans de plus larges champs,
différents entre eux mais dépendant d'un même domaine. Par contraste, la
composition de type traditionnel apparaît à certains comme beaucoup plus
valide, parce que moins structurée, et par la liberté même laissée à l'élève de
conduire son raisonnement comme il l'entend, de permettre au correcteur
d'apprécier la rectitude et la puissance de la pensée. Mais tous les sujets
proposés, ou proposables, sont loin de permettre des jugements comparables
entre eux, et surtout, ils n'offrent pas, probablement, les mêmes opportunités
à tous les élèves. Dans la perspective continue de la classe, ce n'est pas un
inconvénient, parce que l'opinion du professeur se fonde sur une pluralité
d'observations. Dans la perspective d'un examen comme le baccalauréat, par
exemple, il n'est pas sûr que la note donnée à un élève à partir d'une
composition puisse être considérée comme nécessairement représentative de la
valeur de cet élève dans la discipline où il a composé.
Cette controverse trouve
un commun dénominateur dans l'effort réalisé par de nombreux groupes
pédagogiques et psychologiques pour clarifier et préciser les objectifs de
l'enseignement. Ce que vise tout examen, c'est de vérifier si ces objectifs
sont atteints. Diverses taxonomies ont été élaborées ; elles aboutissent toutes
à des conclusions pratiques voisines : lorsque l'effort est fait de définir
dans ses aspects les plus fins les objectifs pédagogiques, la nature des
questions que l'on peut soumettre aux élèves se trouve par le fait même très
clarifiée. Le choix du terme « taxonomie » souligne l'optique dans
laquelle se font ces recherches et dénote le souci d'une organisation
hiérarchique, qui est en elle-même favorable à la formulation explicite du
travail demandé.
Le problème de la validité
maximum d'une épreuve dans un domaine donné pourrait donc trouver une solution
par cette voie, dans une confluence de la recherche pédagogique et de la docimologie.
Le test de connaissances deviendrait un travail dans lequel l'élève prouverait
qu'il a atteint le but essentiel que ses maîtres s'étaient assignés, et qui
serait codifié de telle sorte que l'appréciation donnée en fonction de ce
travail suivrait les règles d'une mesure convenable.
Ce projet n'est pas
utopique. Un organisme comme The School Mathematics Study Group (U.S.A.) a
entrepris la construction de tests de connaissances en mathématiques basés sur
une taxonomie qui cautionne la validité de contenu de ceux-ci. Le Projet
International pour l'Evaluation du rendement scolaire (I.E.A.) a des
préoccupations analogues. En Angleterre, en divers endroits et sous diverses
égides, professeurs et psychologues ont entrepris la rédaction d'épreuves de ce
type.
Cela ne signifie
évidemment pas que ce renouveau dans la manière d'aborder ces problèmes résolve
entièrement toutes les difficultés. Des critiques sont possibles, elles sont
même souhaitables dans la mesure où elles entraînent un progrès. En dehors des
ambiguïtés liées à une terminologie, quelquefois obscure, il est certain que
les inférences par lesquelles on passe d'une classification théorique à des
questions réelles ne sont pas sans danger. Il faut ajouter aussi que la plus
fondamentale des critiques demeure : une mesure basée sur un examen collectif
rend-elle la même justice à tous ? N'y a-t-il pas dans les démarches intellectuelles
des enfants des différences irréductibles à une conception d'un comportement
moyen ? La discussion du postulat impliqué dans cette critique dépasse de
beaucoup la portée limitée de cet article. Nous nous bornerons à souligner que,
si le problème existe, ses
répercussions sur le plan de la mesure risquent d'être beaucoup plus
importantes dans les examens traditionnels qu'au travers de tests bien
construits. On avance souvent que les examens oraux permettent d'adapter en
quelque sorte l'outil de mesure, c'est-à-dire l'interrogation, au type
particulier de pensée examiné. Malheureusement, dans la pratique, on a pu
constater que « l'examen oral » mérite une moindre confiance que l'examen
écrit »[2].
Les
tests de connaissances s'orientent donc actuellement vers l'utilisation de
questions — il est habituel de parler en ce cas d'item — qui visent des
processus hiérarchisés jusqu'aux plus élevés, synthèse, critique en termes
d'évidence interne ou externe, invention ou créativité. Leur forme reste
classique, les réponses pouvant être libres, ou à choisir parmi plusieurs
éventualités. Dans le premier cas, la question doit être formulée de telle
sorte que la réponse puisse être donnée de manière claire. Dans le second cas,
même si la réponse est sollicitée sous la forme d'un repère simple, (un numéro,
une lettre), elle peut recouvrir une élaboration complexe.
Il
est facile d'en trouver des exemples dans les examens français de médecine, qui
utilisent depuis quelques années les questionnaires à choix multiple. Parmi les
plus typiques, citons celui dans lequel deux propositions sont faites, à propos
desquelles l'étudiant doit répondre :
A,
si les deux propositions sont vraies et qu'il existe
une relation de cause à effet dans le sens indiqué,
B,
si les deux propositions sont vraies sans qu'il y ait
de relation de cause à effet,
C,
si la première proposition est vraie mais si la
deuxième est fausse,
D,
si la première proposition est fausse mais la deuxième
est un fait ou un principe accepté,
E,
si les deux propositions sont fausses[3].
L'exemple
qui correspond à ce type d'item est le suivant :
Dans
un muscle en activité, la différence de teneur en oxygène entre l'artère
afférente et la veine efférente est augmentée parce que l'augmentation des
besoins énergétiques du muscle entraîne une vaso-dilatation importante.
(Réponse B).
Plus qu'une compréhension d'un concept, on cherche
souvent à vérifier si l'élève est capable d'appliquer ce concept. Ceci peut
être estimé objectivement. Par exemple on pourra demander si une ou plusieurs
propositions représentent une illustration de l'un de ces principes généraux,
des deux pris simultanément, ou d'aucun des deux[4] :
A.
Toute
particule de l'univers exerce une attraction sur une autre particule selon une
force proportionnelle au produit des masses divisé par le carré de leur
distance.
B.
Le
mouvement apparent d'un objet relativement proche d'un observateur, par rapport
à un objet lointain, varie avec le mouvement propre de l'observateur. (La réponse consiste à placer une
croix soit sous A seul, soit sous B seul, soit sous A et B, soit dans la 3e colonne) :
|
A |
B |
aucun |
|
|
|
|
|
1 - La distance qui sépare la Terre des plus proches
étoiles peut être mesurée. |
|
|
|
|
2 - Le diamètre de l'orbite terrestre est quelquefois
utilisé comme « base de départ » dans les calculs astronomiques. |
On peut approcher les
qualités d'invention, enfin, par des questions du type suivant : on fournit
deux données à partir desquelles l'enfant doit trouver « quelque chose » ;
puis ce « quelque chose » associé à « autre chose » peut le conduire ensuite à
un autre résultat, et ainsi de suite (par exemple, à partir de la longueur et
de la largeur d'une brique, que peut-on trouver ? l'enfant peut indiquer
ensuite qu'en connaissant la hauteur, on peut trouver le volume ; si de plus
on connaît le poids spécifique, on peut trouver le poids, (ou l'inverse), etc.
Sur le plan de
l'utilisation, on fait souvent le reproche aux tests de connaissances de
permettre à !élève astucieux de deviner la réponse exacte par un ensemble
d'indications secondaires, souvent sans rapport avec la question elle-même ;
nous ne pensons pas que cette « méthode » de travail soit réellement payante
si le test est bien fait. On leur fait aussi le grief de favoriser le candidat
qui raisonne par élimination des réponses inexactes. Ces défauts nous semblent
être des défauts de technique et par conséquent réductibles. Enfin, on peut
leur reprocher de faire une part très mince aux capacités d'expression
personnelle. Cela est vrai, mais d'une part l'usage des tests n'implique pas
que l'information globale fournie par l'examen exclue d'autres méthodes.
D'autre part, le reproche inverse pourrait être fait aux examens
traditionnels, dans lesquels les capacités d'expression, en raison de la forme
des compositions, entrent pour beaucoup dans le jugement de l'élève. Dans la
mesure où le baccalauréat est autant un brevet de culture générale qu'un examen
de niveau considéré sous l'angle de l'entrée en Faculté, on ne voit pas
pourquoi des enfants intelligents mais limités dans leur expression verbale
seraient systématiquement défavorisés.
Les tests de connaissances
présentent enfin une caractéristique particulière qui les distingue très
nettement des notes scolaires. Si les psychologues emploient quelquefois eux
aussi le mot « note » à propos d'un résultat à un test, c'est par analogie
avec la mesure scolaire, par facilité de langage. Mais à la différence de la
notation scolaire, le critère de référence de la valeur attribuée est
indépendant de toute échelle absolue de valeurs, dont on a maintenant prouvé
l'inconsistance en ce domaine. C'est la réussite de l'ensemble du groupe qui
détermine l'échelle à laquelle la valeur de chaque travail individuel sera
rapportée. Il existe plusieurs techniques d'étalonnage permettant de calculer
cette valeur relative ; elles ne sont pas toutes équivalentes quant à l'information
qu'elles apportent mais celle-ci est cependant nettement définie à l'intérieur
de chaque système de référence.
Dans les échelles les plus
fréquemment employées, le chiffre qui exprime la valeur centrale (5 pour une
échelle de 0 à 10 par exemple) correspond à la valeur médiane des notes brutes
attribuées à un ensemble défini d'élèves qui ont subi le test dans les mêmes
conditions, ensemble pris aussi grand que possible. L'intérêt de ce type de
notation est double : il est indépendant de la difficulté de l'épreuve
proposée, et c'est le seul qui permette de situer objectivement un élève par
rapport à un groupe plus étendu que sa classe, en particulier de comparer les
élèves de classes en principe équivalentes relevant d'établissements de types
différents. Toute orientation, dès qu'elle est sélective, implique une
référence commune, donc extérieure à chaque système particulier de valeurs. Si
l'orientation des élèves telle qu'elle est habituellement pratiquée à la fin
du premier cycle paraît satisfaisante aux défenseurs du système actuel, c'est
qu'elle tient compte essentiellement de vérités de moyennes. Il est vrai qu'en
moyenne les enfants issus de
certaines classes sont meilleurs que d'autres. C'est l'opinion générale des professeurs,
fondée sur leur expérience professionnelle, qui se traduit très imparfaitement
par les notes scolaires, du fait des fluctuations d'échelles, donc de moyennes,
entre les classes. C'est aussi le résultat de comparaisons faites au moyen
d'une métrique commune, qui confirme globalement cette opinion. Mais
l'orientation intéresse des individus, et non des groupes. Le recouvrement des
distributions de notes données à partir de critères objectifs[5]
sont trop importants pour qu'on puisse nier la nécessité d'unifier l'étalon de
jugement, afin que celui-ci soit réellement équitable.
Les structures scolaires,
la physionomie sociologique de la classe, la pédagogie subissent actuellement
les contrecoups des constantes remises en question d'une évolution générale
rapide. Il ne nous semble pas que des recherches visant à contrôler des
phénomènes collectifs puissent se passer des méthodes qui jusqu'à présent sont
les seules à formuler les règles élémentaires de comparabilité, et sans doute
les mieux adaptées à résoudre des difficultés qui sous cet angle sont parmi les
plus importantes en psychologie.
Il est de fait que les
tests de connaissances sont encore bien souvent un sujet d'opposition entre
pédagogues et psychologues. Dans certains cas cette opposition est affaire de
principe, l'apport révolutionnaire des tests, au meilleur sens du terme,
apparaissant comme négatif à certains esprits nourris de tradition, en ce
qu'ils détruisent à leurs yeux une certaine image de l'homme, et de leur
mission d'éducateur. Les arguments avancés au long de ces quelques pages
seront sans doute de peu de poids en face de ce type d'opposition. Celle qui
relève par contre d'une irritation — légitime — en face d'une situation
bâtarde n'est peut-être pas aussi définitive. C'est en tout cas notre
conviction qu'un réel progrès en termes de mesure ne peut être atteint qu'au
travers d'une coopération permanente. C'est déjà ce qui se passe en divers
endroits, avec un bénéfice plus grand qu'une simple amélioration de la méthode
: celui qu'apporte à chacun des membres de l'équipe une réflexion attentive sur
ses propres idées, ses propres connaissances, et ses propres objectifs.
Jacqueline PELNARD-CONSIDERE.
[1] F. BACHER et M.
REUCHLIN. Le cycle d'observation. Enquête sur l'ensemble des élèves d'un
département - B.I.N.O.P., 1965, XXI, ri. 3.
[2] H. PIERON, M. REUCHLIN et F. BACHER. Une recherche expérimentale de docimologie sur les examens oraux de physique au niveau du baccalauréat de mathématiques. Biotypologie, 1962, XXIII, 1-2, 48-61.
[3] d'après Les examens par questions à choix multiple, brochure publiée par l'Institut Pédagogique National, section médicale.
[4] d'après l'exemple donné par P.E. Vernon. X\./ Congrès de Psychologie Appliquée, LJUBJANA, 1964.
[5] M. REUCHLIN et F. HACHER. Enquête sur l'orientation à la fin du premier cycle secondaire - Rapport ronéotypé, I.N.O.P.
aller à la page suivante du dossier