Zo laat je je studenten lessen trekken uit krachtige feedback met D-PAC

Door: Alexia Deneire (Universiteit Antwerpen)

‘Het lijkt er dus op dat het vergelijkend beoordelen potentie heeft’, oordeelt Martijn Leenknecht in zijn blog “De kracht van beoordelingscriteria (deels) ontkracht” over deze alternatieve aanpak om competenties te beoordelen. Helemaal juist. Beoordelen zonder beoordelingscriteria kan prima. Meer nog: het verloopt vrij eenvoudig en leidt tot een betrouwbaar en valide oordeel. Maar hoe zit het precies met de leerwaarde van dergelijke beoordelingen, is één van de vragen die worden gesteld in het blog van Martijn Leenknecht. In hoeverre kan comparatief beoordelen een bijdrage leveren aan het leren van de student? Wel, daar kan ik jullie meer over vertellen. In één zin samengevat: comparatief beoordelen levert krachtige (peer) feedback op. Zo leert ons eigen onderzoek én getuigen diverse gebruikers uit het hoger onderwijs.

D-PAC maakt comparatieve beoordeling mogelijk
In 2014 ontwikkelden we met ons team het Digitaal Platform voor het Assessment van Competenties, afgekort als D-PAC. Dat platform werkt vanuit de principes van comparatief beoordelen (ook wel: paarsgewijze vergelijking). Dit betekent dat je als beoordelaar het werk van je studenten niet langer op zich beoordeelt, maar steeds in vergelijking met een willekeurig ander werk. Bij elk paar geef je aan welk product je beter vindt in het licht van de te beoordelen competentie. En je werkt in teamverband: elk werk wordt door meerdere beoordelaars, dus verschillende keren beoordeeld. Het eindresultaat van het beoordelingsproces is geen cijfer, maar een betrouwbare en valide rangorde van de beoordeelde werken1,2. D-PAC nodigt je als beoordelaar uit om feedback te schrijven bij het werk van je studenten. De feedback-module van D-PAC biedt zo extra leerkansen voor jouw studenten.

Leer meer over D-PAC in deze introductievideo: https://player.vimeo.com/video/215619748

Hoger onderwijs omarmt comparatieve beoordeling met D-PAC
Vooral het hoger onderwijs reageert enthousiast op de diverse mogelijkheden van D-PAC. Meer dan 50 opleidingen in Vlaanderen en Nederland maakten al kennis met de voordelen van comparatief beoordelen via D-PAC. De opdrachten en het format van die opdrachten zijn erg gevarieerd. Beoordelaars buigen zich over essays, rapporten en zelfreflecties van studenten, maar ook afbeeldingen, video en geluidsfragmenten passeren de revue. Uit onderzoek blijkt dat een gemiddelde van 12 vergelijkingen per werk al een voldoende betrouwbaarheid oplevert van .70. Of je 12 vergelijkingen veel vindt hangt er natuurlijk wat van af. Het vergelijken gaat immers snel en de vergelijkingen worden verspreid over meerdere beoordelaars. Gedeeld werk maakt licht werk, toch? Studenten in het hoger onderwijs ervaren deze manier van beoordelen trouwens als eerlijk en geloofwaardig3.

Leren van toetsen? Eén formule: vergelijken + feedback = inzicht
Docenten in het hoger onderwijs gebruiken onze tool voornamelijk voor formatieve doeleinden (o.a. via peer assessment). Dat kan perfect dankzij de feedback-module van D-PAC. Destijds gewoon als extraatje binnen het platform uitgebouwd, maar duidelijk een schot in de roos. Bij elke vergelijking die je als beoordelaar maakt, krijg je de gelegenheid om sterke punten en werkpunten te noteren bij beide werken (figuur 1). Je hoeft daarbij niet alle beoordelingscriteria te overlopen; benoemen wat er voor jou het meest uitspringt volstaat.

figuur 1 D-PAC
Figuur 1. Comparatief beoordelen: bij elke vergelijking feedback noteren

Groot voordeel voor je studenten is dat de feedback die ze aan het einde van de rit krijgen erg rijk is. De feedback is namelijk afkomstig van meerdere beoordelaars, die met een steeds wisselende (en evoluerende) blik naar de werken kijken (figuur 2). De rijke D-PAC-feedback biedt ruim kansen voor leren en ontwikkeling.

figuur 2 D-PACFiguur 2. Toegevoegde waarde van comparatief beoordelen: rijke feedback, van meerdere beoordelaars

Ook de positie die hun werk in de finale rangorde van de beoordeelde werken krijgt, is trouwens verrijkend voor de studenten (figuur 3). Elk van je studenten ziet in één oogopslag waar zijn of haar werk zich bevindt ten opzichte van dat van medestudenten. Achteraf kan je als docent in groep (anoniem) die werken bespreken die zich aan de top van of net onderaan de rangorde bevinden. Deze confrontatie met werk van anderen kan zo bij je studenten tot (nieuwe) inzichten leiden: wat wordt er van hen verwacht en waarom is een bepaald product van betere kwaliteit?

figuur 3 D-PACFiguur 3. Bespreek met je studenten hun werk in functie van de positie in de rangorde.

D-PAC en peer assessment gaan hand in hand
Ruim één op drie beoordelingen met D-PAC in het hoger onderwijs zijn peer assessments. Ook studenten kunnen elkaar een spiegel voor houden en D-PAC leent er zich als tool uitermate goed voor (Lees er gerust onze blog ‘Goed nieuws vanuit slechtnieuwscommunicatie’ op na.).

We weten uit eigen onderzoek en getuigenissen inmiddels al heel wat over comparatieve peer assessments. Even de belangrijkste inzichten op een rij:

  • Zelfs al zijn studenten (nog) geen expert, ze kunnen vaak prima inschatten of een ander de opdracht goed of minder goed heeft uitgevoerd. Werken onderling vergelijken en de beste aanduiden is eenvoudig, er is dus geen uitvoerige instructie of training vooraf vereist.
  • Tijdens het beoordelen krijgen ze tal van voorbeelden te zien die onderling variëren in kwaliteit. Vele voorbeelden verschaffen volop inspiratie. Het zien van het werk van anderen stimuleert reflectie over het eigen werk.
  • Studenten ervaren het platform als een ‘veilige’ omgeving: het beoordelen verloopt er geheel anoniem. Niemand weet welk werk van wie is.
  • Het geven van feedback aan medestudenten helpt bij het expliciteren van kwaliteitscriteria4.
  • Studenten in vergelijking met standaard peer assessment eerder focussen op criteria van hogere orde.
  • De feedback die studenten van hun peers ontvangen vinden ze rijk en waardevol3. Studenten aanvaarden de resultaten, doordat ze vertrouwen hebben in elkaars bekwaamheid. En ze zijn bereid om er ook effectief iets mee te doen, net doordat ze ook zelf feedback gaven (en verwachten dat dit peers aanzet tot reflectie en actie).

Geboeid?
Met ons team verrichten we onderzoek naar de kwaliteit van comparatief beoordelen via D-PAC. Voor meer wetenschappelijke achtergrond, raadpleeg onze publicaties via de website: www.d-pac.be.

Wil je de tool graag zelf eens uittesten, neem dan contact op via d-pac@uantwerpen.be.

Of kom gewoon naar ons D-PAC event op 15 en 16 november in Antwerpen (inschrijven via de website)!

Bronnen

  1. Pollitt, A. (2012). Comparative judgement for assessment. International Journal of Technology and Design Education, 22(2), 157-170.
  2. Van Daal, T., Lesterhuis, M., Coertjens, L., Donche, V., & De Maeyer, S. (2016). Validity of comparative judgement to assess academic writing: Examining implications of its holistic character and building on a shared consensus. Assessment in Education: Principles, Policy & Practice, 1-16. doi:10.1080/0969594X.2016.1253542
  3. Mortier, A., Lesterhuis, M., Vlerick, P., & De Maeyer, S. (2015). Comparative judgement within online assessment: Exploring students feedback reactions. Proceedings of Communications in Computer and Information Science 571, 69-79.
  4. Sluijsmans, D., Dochy, F., & Moerkerke, G. (1998). Creating a learning environment by using self-, peer-and co-assessment. Learning Environments Research, 1(3), 293-319.
Advertenties

Acceptatie bij peer assessment: Waarom studenten soms moeite hebben met een beoordeling door een medestudent

Door: Martijn Leenknecht (Beleidsadviseur HZ University of Applied Sciences)

Eén van de eerste zorgen van docenten die willen gaan werken met peer assessment is de vraag of studenten de beoordeling door medestudenten wel zullen accepteren. Ontstaan er geen sociale conflicten als je studenten elkaar laat beoordelen? Eerder schreef ik hierover een blog op de pagina “Onderwijskundige professionals”.

Waarom niet naar de trombonist wordt geluisterd: peer assessment in het orkest

22 maart 2011 Door MartijnLeenknecht

Nadat de dirigent heeft afgeslagen draait een trombonist zich om naar de rij trompettisten achter hem en hij merkt op: “Dat stukje vanaf maat 68 moet piano gespeeld worden..”, waarop een trompettist antwoordt:  “Als het te hard was zal de dirigent het wel zeggen”.  Een andere trompettist zegt: “Waarom kijk je naar mij als je dat zegt? Ik speel hier niet alleen!”. 

Wat hier gebeurt illustreert op een mooie manier de sociale aspecten die spelen rond peer assessment. Peer assessment? Ja, in dit voorbeeld zijn de trombonist en de trompettisten elkaars gelijken (peers), en beoordelen ze elkaar. Ze spelen immers in het zelfde orkest en verondersteld kan worden dat de niveauverschillen beperkt zijn. Ze zijn allemaal even veel ‘expert’ in de muziek en toch maakt de trombonist een kritische opmerking over de prestaties van de trompettisten. Zoals de eerste trompettist al opmerkt, staat de echte expert natuurlijk voor het orkest: de dirigent.

Hoewel de muzikanten elkaar dus feedback geven, wordt de feedback in dit voorbeeld niet geaccepteerd. De opmerking zal dus zijn effect missen: het is maar de vraag of de trompettisten de volgende keer zachter zullen spelen. De eerste trompettist acht de trombonist niet capabel om dergelijke opmerkingen te plaatsen, terwijl de tweede trompettist de opmerking interpreteert als een aanval op zijn persoon. Beide trompettisten zijn dus bezig hun rol in de groep te beschermen.

Peer assessment is een vergelijking
Festinger beschrijft in zijn social comparison theory dat we onszelf en ons functioneren continu met anderen vergelijken. Zodoende stellen we vast wat onze positie is in de groep. De manier waarop anderen ons behandelen, beïnvloedt de manier waarop we onszelf zien en hoe wij onze rol en taak in de groep definiëren. De anderen en hun acties zijn de spiegel die laat zien wie we zijn en hoe we presteren: Cooley’s looking-glass self.

Met de opmerking maakt de trombonist dus (onbedoeld) een vergelijking tussen hem en de trompettisten. Maar de muzikanten zijn toch elkaars gelijken en buiten dat ze andere partijen en instrumenten bespelen zijn er toch geen (fundamentele) verschillen? Ze hebben toch geen verschillende rollen in het orkest? Klopt, en daar wringt ook de schoen. Dat is precies het sociale probleem dat optreed. De opmerking van de trombonist bevat een inhoudelijk aspect dat waar of niet waar kan zijn, maar belangrijker is wat Watzlawick het betrekkingsniveau noemt. De trombonist geeft met de opmerking aan hoe hij denkt over het spel van de trompettisten. De opmerking bevat informatie over hoe de trombonist de rolverdeling en de onderlinge relatie beschouwt. De trompettisten zijn niet secuur genoeg in de ogen van de trombonist. Het gevoel van gelijkheid wordt dus ondermijnd door de opmerking, waardoor de trompettisten het gevoel krijgen dat ze de balans moeten herstellen en hun zelfbeeld en looking-glass self moeten beschermen.

Een beoordeling door een gelijke die de gelijkheid ondermijnt..
Is dit dan niet altijd een probleem bij peer assessment? In zeker zin wel ja, er wordt niet voor niks gesproken over vertrouwensproblemen en een ‘veilig’ klimaat dat aanwezig moet zijn (zie mijn blog peer assessment: enkele kwaliteitsissues). En zoals al werd opgemerkt in een reactie op mijn blog leren van criteria beïnvloedt dit sociale aspect ook de beoordeling en feedback die wordt geuit. “Als je (opbouwende) kritiek uit op iemands prestatie dan voelt dat snel alsof het op diegene als persoon gericht is. Dat proberen we denk ik te voorkomen”.  De beoordelaars anticiperen dus al op mogelijke persoonlijke conflicten.

Dit betekent niet dat peer assessment altijd gedoemd is te mislukken. Want is het niet juist de kracht van peer assessment dat peers gaan nadenken en discussiëren over verschillen in opvatting over de geleverde prestatie? Kortom, een conflict is ook het essentiële onderdeel van peer assessment. Er moet dan wel voor worden gewaakt dat het geen persoonlijk conflict wordt, maar dat er sprake is van een cognitief conflict. Dit kan volgens mij worden bereikt door wederzijdse feedback in te zetten. Als de trompettisten ook opmerkingen kunnen maken over het spel van de trombonist, komt de rolverdeling weer in evenwicht. Bovendien is het van belang dat de feedbackontvangers focussen op de inhoudelijke boodschap van de opmerking en de boodschap op betrekkingsniveau zo veel mogelijk negeren. De ego’s moeten aan de kant worden gezet, alles ten behoeve van het leerproces.

De kracht van beoordelingscriteria (deels) ontkracht?

Door Martijn Leenknecht (Beleidsadviseur HZ University of Applied Sciences)

Om goed te kunnen beoordelen is het van belang dat je kennis hebt van beoordelingscriteria, toch? Betrouwbare beoordelingen door studenten hangen samen met hoe goed zij de beoordelingscriteria snappen, toch? Het lijkt heel logisch en dat is wat ik ook altijd dacht…

De afgelopen jaren heb ik vaak gepropageerd (en met mij vele anderen) dat het gebruik van beoordelingscriteria bij (peer) beoordelingen van cruciaal belang is voor de kwaliteit van de beoordeling. Het gebruik van beoordelingscriteria kan een antwoord zijn op de zorgen die leven bij docenten en studenten over de capaciteiten van studenten om elkaar (eerlijk) te beoordelen (zie Tillema, Leenknecht, & Segers, 2011). Het onderzoek van Jones en collega’s (2014; 2015) heeft me echter aan het denken gezet over de daadwerkelijke noodzaak van beoordelingscriteria in relatie tot de kwaliteit van peer beoordelingen. Jones en collega’s tonen namelijk aan dat het beoordelen zonder beoordelingscriteria ook prima kan. Uit hun onderzoek blijkt dat je een betrouwbare en valide beoordeling ook kan bereiken zonder het gebruik van beoordelingscriteria.

Beoordelen zonder beoordelingscriteria
We beoordelen veelal op basis van een set beoordelingscriteria of een prestatie van de student het gewenste niveau heeft bereikt. Jones en Alcock (2014) introduceren echter een andere manier van beoordelen: vergelijkende beoordelingen (comparative judgements). Hierbij beoordeelt de beoordelaar niet één prestatie aan de hand van criteria, maar meerdere prestaties in vergelijking tot elkaar. Per twee prestaties wordt steeds de beste van de twee uitgekozen. Door alle paarsgewijze beoordelingen door de verschillende beoordelaars samen te nemen met behulp van een statistisch algoritme (zie Bramley, 2007; Pollitt, 2012) wordt de uiteindelijke beoordeling vastgesteld.

Jones en Alcock (2014) vonden in hun onderzoek dat studenten op deze manier in staat zijn om kwalitatief hoogstaande beoordelingen te geven, zonder dat zij kennis hebben van beoordelingscriteria. Na een vergelijking tussen een absolute beoordeling en een vergelijkende beoordeling (waarbij beide groepen over ‘het juiste antwoord’ beschikten), concluderen Jones en Wheadon (2015) dat de vergelijkende beoordeling tot betere beoordelingen leidt dan de absolute beoordeling.

Het lijkt er dus op dat het vergelijkend beoordelen potentie heeft. Volgens Jones en Wheadon (2015) komt dit doordat mensen nu eenmaal beter zijn in het vergelijken van twee prestaties met elkaar dan het beoordelen van een afzonderlijke prestatie. Kortom, we hebben geen beoordelingscriteria nodig om te zorgen dat studenten betrouwbare en valide beoordelingen geven. Mijn inziens is het inzetten van vergelijkende beoordelingen dan ook het proberen waard.

Waarom wél gebruik maken van beoordelingscriteria?
Het onderzoek van Jones en collega’s laat dan wel zien dat voor kwalitatieve beoordelingen beoordelingscriteria niet noodzakelijk zijn, er zijn natuurlijk andere redenen te benoemen waarom het juist héél zinvol is om bij peer beoordelingen gebruik te maken van beoordelingscriteria. In mijn eerdere blog Leren van toetsen? Betrek studenten bij het toetsproces! en de reacties hierop, worden de volgende vier redenen genoemd om studenten te laten werken met beoordelingscriteria: 1) studenten ontwikkelen meer (vertrouwen in hun) domeinspecifieke kennis; 2) studenten ontwikkelen meer vertrouwen in en kennis van het beoordelen van zichzelf en anderen; 3) metacognitieve vaardigheden worden geoefend; en 4) studenten krijgen meer autonomie waardoor het gevoel van (taak)volwassenheid wordt vergroot.

Voor het leerproces van de student is het gebruik en vormen van beoordelingscriteria dus wel degelijk aan te raden. Interessant is ook de vraag, die Jones overigens ook zelf stelt, in hoeverre de vergelijkende beoordelingen een bijdrage kunnen leveren aan het leren van de student…

Referenties
Bramley, T. (2007). Paired comparison methods. In P. Newton, J.-A. Baird, H. Gold-stein, H. Patrick, & P. Tymms (Eds.), Techniques for monitoring the comparability of examination standards (pp. 264-294). London: QCA.

Jones, I., & Alcock, L. (2014). Peer assessment without assessment criteria. Studies in Higher Education, 39, 1774-1787. doi:10.1080/03075079.2013.821974

Jones, I., & Wheadon, C. (2015). Peer assessment using comparative and absolute judgement. Studies in Educational Evaluation, 47, 93-101. doi:10.1016/j.stueduc.2015.09.004

Pollitt, A. (2012). The method of adaptive comparative judgement. Assessment in Education: Principles Policy & Practice, 19, 281–300. doi:10.1080/0969594X.2012.665354

Tillema, H., Leenknecht, M., & Segers, M. (2011). Assessing assessment quality: Criteria for quality asurance in design of (peer) assessment for learning – A review of research studies. Studies in Educational Evaluation, 37, 25-34. doi:10.1016/j.stueduc.2011.03.004