Presentatie San Verhavert

Hoe betrouwbaar is comparatief beoordelen?

“Ik hoop dat ik jullie geen ‘system overload’ geef!”
Verhavert begint met een kwinkslag. “Alle taalfouten die in deze presentatie staan zijn louter voor uw amusement!” Met de taalfouten valt het best mee, blijkt al snel, want Verhavert laat vooral veel cijfers zien. Nee, niet meteen wegklikken mensen: cijfers zijn interessant!

Vraagtekens...
Verhavert laat ons even schrikken... Hij gaat het hebben “over de letter alpha… over interne consistentie... of over SSR... Maar...” zegt hij droogjes, “Als ik dat doe zit u er al snel ZO bij...” Hij laat een plaatje zien van een verward poppetje met een vraagteken boven zijn hoofd, staand op een berg vraagtekens... “Maar dat ga ik niet doen” gaat hij verder. “Ik hoop dat ik u met mijn presentatie kan overtuigen van het feit dat comparatief beoordelen zowel betrouwbaar als efficiënt is.”

Rangorde: Sliert van streepjes
Dat overtuigen doet hij met argumenten. Het is namelijk wetenschappelijk onderzocht. Hij laat een plaatje zien dat we vandaag vaak tegenkomen. Een sliert van verticale streepjes op een horizontale grafiek. De schaal is de score uitgezet tegen de representaties. Je ziet zo in één oogopslag de uitkomst van een groot aantal comparatieve beoordelingen van een bepaalde taak of product. De streepjes drukken kortweg uit hoe ‘zeker’ je kunt zijn van een beoordeling. Hoe korter de streepjes, hoe betrouwbaarder de uitkomst. Verhavert noemt een cijfer. “Mijn resultaten zijn 0,87 zeker... Ik hoor u denken... Ja? Nou? 0,87?”

Cijfermatige betrouwbaarheid
Dan duikt Verhavert de diepte in. Je kunt een vergelijking laten doen door twéé groepen van beoordelaars. Daar komen verschillende slierten uit, met andere gemiddelde getallen. Die getallen kun je middelen. Je kunt het proces van beoordelen laten doen door een grotere groep beoordelaars. En dan de uitkomst weer middelen. Uiteindelijk wordt de betrouwbaarheid groter en groter. Op een schaal van 0 naar 1 komt er bij het voorbeeld dat Verhavert noemt 0,87 uit. Hoe hoger dat getal, hoe minder de betrouwbaarheid afhangt van de beoordelaars. Hoe hoger het getal, hoe hoger de betrouwbaarheid van het gevolgde proces.

Optimum voor efficiëntie
Volgende punt. Hoeveel beoordelaars heb je eigenlijk nodig om een betrouwbare schaal te krijgen? En hoe veel werk moeten ze eigenlijk verzetten? Hoeveel expertise hebben ze  nodig? Kortom: hoe efficiënt is het eigenlijk om het op deze manier te doen? Nou. Dat heeft Verhavert ook bekeken. Hij tovert een curve op het scherm. Een lijn die langzaam afvlakt... In gewone mensentaal: na een bepaald aantal beoordelingen per representaties wordt een maximale betrouwbaarheid bereikt, bij de hoeveelheid werk of bij de expertise van de beoordelaars.

Expertise van minder belang
En het opvallende is: als je naar die curve kijkt zijn er eigenlijk maar twee factoren van belang voor de betrouwbaarheid van een beoordeling: het aantal vergelijkingen per representatie en het aantal vergelijkingen per beoordelaar. Vreemd genoeg heeft de expertise van de beoordelaar nauwelijks invloed op de betrouwbaarheid. Als je hetzelfde product (bijvoorbeeld een tekst of een mailtje) door een groep peers laat beoordelen en door een groep docenten, kan de uitkomst (de vorm van de sliert) iets verschillen, maar de betrouwbaarheid –het gemiddelde cijfer dat er uit komt rollen op die schaal van 0 naar 1– is uiteindelijk gelijkwaardig.

Vraag uit de zaal
“Nou...” Sluit San Verhavert af... “Ik hoop dat ik jullie niet het gevoel heb gegeven van een ‘system overload’... Dat valt reuze mee. Er komen uit de zaal eigenlijk maar twéé vragen. De belangrijkste: waar zit ‘m precies de efficiëntie van het comparatief vergelijken? De hele aanpak lijkt toch behoorlijk arbeidsintensief... “Dat valt reuze mee” zegt San Verhavert “Het is contra-intuïtief, maar analytisch kijken naar zeg 100 producten, bijvoorbeeld aan de hand van een uitgewerkte lijst met criteria, kost even veel tijd als comparatief beoordelen met dezelfde betrouwbaarheid in de uitkomst.”

Richard Derks
Voeg toe aan selectie