Presentatie Marije Lesterhuis

“Het rechterpoppetje heeft voetjes.”

Meten wat je wilt meten (en niet stiekem iets anders)
Marije Lesterhuis zet ons meteen voor het blok. Twee kindertekeningen. Links een woelig gezelschap van kopvoeters, rechts een keurig ingekleurd poppetje met geel haar. Het publiek is verdeeld. De linkertekening is organisch, creatief, experimenteel. De rechter blinkt uit in kleurgebruik en details. ‘De anatomie klopt beter.’ Het poppetje heeft zelfs voetjes. Zie hier het probleem met validiteit. Wat beoordeel je eigenlijk als je beoordeelt? En verschillen beoordelaars daarin niet enorm?

Een betrouwbare rangorde is peanuts als iedereen op hetzelfde let
Inhakend op de presentatie van San Verhavert over betrouwbaarheid weet Lesterhuis ons te vertellen dat een hoge betrouwbaarheid prima te bereiken is, mits alle neuzen dezelfde kant op staan. Maar beoordelaars vinden soms heel verschillende dingen belangrijk. Waarin verschillen ze precies en krijg je ze met comparatief beoordelen op één lijn? Dat heeft zij de afgelopen vier jaar onderzocht.

Met de convergente validiteit zit het wel snor
De wat? De convergente validiteit. Die drukt uit of een methode overeenkomt met andere methoden die hetzelfde meten. Lesterhuis (& co) zetten resultaten van comparatief beoordelen (van teksten) af tegen drie andere meetmethoden: ankerteksten, rubrieken en criterialijsten. De correlatie was hoog. Waarom dan toch kiezen voor comparatief beoordelen, vraagt iemand in het publiek zich af. Is dat niet een beetje ‘wij van wc-eend adviseren u wc-eend’? In principe zou je voor een andere methode kunnen kiezen, maar wat comparatief beoordelen uniek maakt, is dat het snel en makkelijk op te zetten is. Aan een effectieve criterialijst, schaal of rubriek wordt soms wel jaren gewerkt.

Beoordelen we wat we willen beoordelen?
Letten beoordelaars op alle aspecten in een complexe vergelijking? Letten ze op de meest relevante aspecten en waarin verschillen ze? Uit een assessment van argumentatieve teksten bleek dat de meeste beoordelaars letten op de argumenten en de tekststructuur. Redelijk veel consensus over wat belangrijk is dus. Er waren echter ook verschillen. De ene beoordelaar vindt taalgebruik belangrijk, de ander focust op het gebruik van bronnen. Dit blijken echter nuanceverschillen die zeker overkomelijk zijn. Overall letten beoordelaars vooral op inhoud en dan pas op vorm.

Hoe complex is comparatief beoordelen?
Soms ligt de kwaliteit van twee producten heel dicht bij elkaar. Dan is kiezen lastig. Wat een beoordelaar ziet (het duo) bepaalt waar hij op let. Is in twee kindertekeningen het kleurgebruik in orde, dan zal de afweging dus eerder over anatomie gaan, bijvoorbeeld over voetjes.

Validiteit optimaliseren in de praktijk
Hoe krijg je al je beoordelaars in het gareel? Lesterhuis sluit af met een paar praktische take-aways. Bepaal voorafgaand aan het assessment al waar je je rangorde voor wilt gebruiken, welke beoordelaars in staat zijn op relevante criteria te letten en geef ze een heldere instructie mee. Na afloop kun je kijken of de scores uit jouw assessment overeenkomen met scores uit andere methodes, of je beoordelaars daadwerkelijk op één lijn zitten en bij hen navragen hoe ze het ervaren hebben.

De muis kan terug naar de eigenaar
De presentatie begon met een toetsenbord dat niet werkte. ‘Is er een muis in de zaal?’ In de kleine battle die volgde tussen toetsenbord en muis won: de muis. Het publiek heeft aandachtig geluisterd en er is genoeg om op te kauwen tijdens de lunch (niet alleen al die grappige broodjes).

Elske van Lonkhuijzen
Voeg toe aan selectie