Hoe weet je of de resultaten van een meta-analyse waarschijnlijk valide zijn?

Tekst Robert Slavin
Gepubliceerd op 09-12-2020
Robert Slavin is directeur van het Center for Research and Reform in Education van de Johns Hopkins-universiteit (Baltimore, Verenigde Staten). Op zijn website schrijft hij regelmatig blogs over de staat van, en onderzoek naar, het onderwijs.  In deze blog bespreekt hij meta-analyses in het onderwijs: welke kenmerken onderscheiden een eerlijke meta-analyse van de veel minder betrouwbare? Om dat uit te leggen, neemt Slavin ons eerst mee naar een oesterbar in Baltimore. 

In Baltimore staat sinds 1886 Faidley’s, een zeer geliefde viskraam op Lexington Market. Faidley’s was vroeger zo'n echt ouderwetse viskraam, waar het zaagsel op de vloer lag en met een oesterbar in het midden van de ruimte. Het volk kwam er in de rij staan voor hun favoriete oesterpeller. Een oude traditie daar was dat de pellers hun oesters uit bakken met ijsgruis pakten en erop tikten met hun oestermessen. Klonken de oesters vol, dan werden ze geopend. Zo niet? Gooiden de pellers ze weg.

Het viel mij altijd al op dat de rij langer was voor de peller die de meeste oesters weggooide. Waarom, precies? Omdat iedereen wist dat de peller die kieskeuriger was waarschijnlijk eerder zou kiezen voor een dozijn vette, heerlijke oesters in plaats van, bijvoorbeeld, negen uitstekende en drie… niet bepaald geweldige oesters.

Ik heb het hier vandaag over om uit te leggen hoe je complete, eerlijke meta-analyses over educatieve programma’s uitkiest. En nee, je kunt deze programma’s dan wel niet pellen met een oestermes, maar het proces is vergelijkbaar. Je wilt meta-analisten die kieskeurig zijn over wat er precies in hun meta-analyse wordt meegenomen. Jouw doel is ervoor te zorgen dat een meta-analyse resultaten oplevert waar leraren en scholen in de praktijk mee te maken krijgen, wanneer zij een innovatief programma zorgvuldig implementeren. Als je in plaats daarvan kiest voor de meta-analyse met het grootst gemeten effect, zal je constant worden teleurgesteld.


Robert Slavin 

Speciaal voor jullie zal ik nu een paar beroepsgeheimen delen over hoe je een meta-analyse in het onderwijs snel kunt beoordelen.

Eén van de makkelijkste manieren om een meta-analyse te evalueren, is te kijken naar de algemene effectgrootte. Vaak wordt deze al genoemd in de samenvatting. Als de gemiddelde effectgrootte van het hele onderzoek groter dan ongeveer +0,40 is, hoef je normaal gesproken niet verder te lezen. Het is namelijk zeldzaam om ook maar één betrouwbaar onderzoek te vinden waarin de effectgrootte zo groot is – laat staan dat het gemiddelde zo groot is. Zo’n grote effectgrootte garandeert vrijwel zeker dat de meta-analyse veel onderzoeken bevat met ontwerpkenmerken die de effectgrootte hebben opgeblazen, in plaats van onderzoeken met effectieve interventies.

Blader vervolgens door naar de methodologie, waarin de criteria staan voor opname in de meta-analyse (selectiecriteria). Deze lijst zou de typen onderzoek moeten vermelden die wel en niet zijn meegenomen in het onderzoek. Sommige criteria zullen te maken hebben met de focus van de meta-analyse, zoals, bijvoorbeeld het specificeren van ‘onderzoeken over bètaprogramma’s voor middelbare scholieren’. Het gaat jou er hier om te kijken hoe kieskeurig de meta-analyse is. Een voorbeeld van zo’n kieskeurige set van criteria vind je hieronder, met daarin de belangrijkste die wij gebruiken in Evidence for ESSA (“Every Student Succeeds Act”), en in iedere analyse die wij schrijven:
 

  1. De onderzoeken dienen leerlingen willekeurig toe te wijzen aan experimentele - en controlegroepen. Voor beide groepen moeten de scholen en leerlingen van tevoren worden gespecificeerd.

  2. Leerlingen die toegewezen werden aan een experimentele groep dienden te worden vergeleken met zeer vergelijkbare leerlingen uit de controlegroep, voor wie de normale criteria golden. De experimentele leerlingen moeten genoeg lijken op leerlingen uit de controlegroep, met maximaal een kwart standaarddeviatie bij voormeting (ES = +0,25) en met een uitvalpercentage (verlies van leerlingen) dat – aan het eind van het onderzoek – bij de ene groep niet hoger is dan 15% ten opzichte van de andere groep. Waarom? Het is essentieel dat, los van wat de proef zelf doet, de experimentele en controlegroepen hetzelfde beginnen én blijven. Controles op de initiële verschillen functioneren namelijk niet goed wanneer deze verschillen al te groot zijn.

  3. De experimentgroep en de controlegroep moeten beide tenminste 30 leerlingen bevatten. Analyses van de gecombineerde effectgroottes dienen deze steekproefomvang te controleren. Waarom? Onderzoek wijst uit dat er bij zeer kleine onderzoeken substantiële inflatie ontstaat.

  4. De pilots moeten tenminste twaalf weken duren. Waarom? Onderzoek heeft uitgewezen dat er gigantische inflatie van de effectgroottes ontstaat bij pilots die zeer kort duren; dusdanig kort onderzoek staat te ver af van de realiteit in het klaslokaal.

  5. De uitkomsten van de interventie dienen onafhankelijk van de pilotontwikkelaars en -onderzoekers gemeten te worden. Meestal gaat het dan om nationale toetsen, hoewel het niet noodzakelijk gestandaardiseerde toetsen hoeven te zijn. Waarom? Onderzoek wijst uit dat bij toetsen die gemaakt worden door de onderzoekers, de effectgroottes kunnen verdubbelen of zelfs meer. Zulke, door onderzoekers gemaakte toetsen zijn niet vergelijkbaar met een reguliere klassikale beoordeling.
     

Houd in gedachten dat deze eisen een tweeledig doel dienen. Ze zijn bedoeld om vooroordelen (bias) te minimaliseren, alsook de vergelijkbaarheid van scholen te maximaliseren. Welke schooldirecteur of leraar, die geeft om hard bewijs, zou geïnteresseerd zijn in een programma dat beoordeeld is voor een compleet andere controlegroep? Of in een onderzoek met weinig deelnemers, of van zeer korte duur? Of waarin maateenheden zijn gebruikt die uitsluitend door de onderzoekers zelf zijn ontwikkeld? Bovenstaande set van criteria is zeer vergelijkbaar met wat de What Works Clearinghouse (WWC) vereist, afgezien van punt 5 (de WWC eist uitsluiting van maateenheden die ‘overdreven’ passend zijn gemaakt, maar vindt maateenheden die door de ontwikkelaars of onderzoekers zelf zijn gemaakt acceptabel).

Staan al deze criteria in de lijst “selectiecriteria”? Goede kans dat je kijkt naar een meta-analyse van topkwaliteit. Over het algemeen zal de gemiddelde effectgrootte die je daar ziet lager zijn dan die van meta-analyses die (al) deze normen niet gebruiken. Maar de effectgrootte zal met deze criteria waarschijnlijk dicht in de buurt komen van de groei die je daadwerkelijk zult zien in leerprestaties, wanneer je zo’n programma zorgvuldig op school implementeert.

Wat ik verbazingwekkend vind, is dat er zoveel meta-analyses bestaan die deze hoge eisen niet stellen. Onder experts zijn deze criteria niet controversieel, afgezien dan van de laatste – die overigens niet controversieel zou moeten zijn. Toch worden meta-analyses die hier niet aan voldoen, vaak geschreven en door tijdschriften gepubliceerd. Dit zorgt voor groot opgeblazen, onrealistische effectgroottes.

Om maar een voorbeeld te noemen: neem de meta-analyse van Directe Instructie-programma’s over lezen, wiskunde en taal, die gepubliceerd werd in de Review of Educational Research (Stockard et al., 2016). Ik heb groot respect voor het Directe Instructie-model, waar vele jaren goed werk in is geleverd. Maar deze meta-analyse was wel zeer verontrustend.

In de selectiecriteria voor deze meta-analyse werd namelijk geen rekening gehouden met vergelijkingen tussen experiment- en controlegroep, goed bij elkaar passende steekproeven, en er gold geen enkele eis op het gebied van de grootte of duur van de steekproef. Ook was volstrekt onduidelijk hoeveel van de toetsen waren gemaakt door de ontwikkelaars of onderzoekers die bij de pilot betrokken waren, of dat ze onafhankelijk van de onderzoekers waren gemaakt.

Met zulke minimale selectiecriteria en een zeer lange looptijd (vanaf 1966), is het niet bepaald verrassend dat er een zeer groot aantal onderzoeken werd gevonden dat in aanmerking kwam: 528, om precies te zijn. De evaluatie rapporteerde ook extreem hoge effectgroottes: +0,51 voor lezen, +0,55 voor rekenen, en +0,54 voor taal. Als al deze effectgroottes waar en van betekenis waren, dan zou dat bijvoorbeeld betekenen dat Directe Instructie extreem veel effectiever is dan het een-op-een lesgeven.

Temper je verwachtingen maar alvast. Het artikel bevatte een online appendix die het volgende toonde: de steekproefgrootte, de onderzoeksopzet, en de resultaten uit ieder onderzoek.

Ten eerste: de auteurs identificeerden acht experimentele ontwerponderzoeken (en “single subject”-onderzoeken, die apart werden behandeld). Slechts twee van deze onderzoeken zouden voldoen aan de moderne eisen van meta-analyse: willekeurige toewijzing van groepen en controlegroepen. De overige kenmerkten zich door voor-na metingen (zonder controlegroep), vergelijkingen met testeisen, en overige pre-wetenschappelijke ontwerpkenmerken.

Steekproeven waren meestal extreem klein. Nog los van de “single-subject”-experimenten waren er tientallen steekproeven met een aantal deelnemers dat op één of twee handen te tellen was (bijvoorbeeld zes leerlingen), met vaak zeer grote effectgroottes. Tevens was er geen enkele indicatie van de duur van het onderzoek.

Wat helemaal verbazingwekkend is, is dat RER dit onderzoek accepteerde. RER is, qua citaattellingen, het best-beoordeelde onderwijstijdschrift. Maar deze review, en ook die van Kulik en Fletcher (2016) die ik in een recent blog citeerde, voldeden overduidelijk niet aan de minimale standaardeisen van een meta-analyse.

Mijn collega’s en ik zetten ons de komende maanden in om beter te begrijpen wat er zo mis is gegaan met meta-analyses in het onderwijs, en om oplossingen te verzinnen. Het spreekt voor zich dat onze eerste stap zal zijn om naar de oesterbar te gaan, om eens te bestuderen waarom ze daar wel zulke hoge eisen stellen. Oesters en bier zullen hoe dan ook van de partij zijn!

 

Referenties

Kulik, J. A., & Fletcher, J. D. (2016). Effectiveness of intelligent tutoring systems: a meta-analytic review. Review of Educational Research, 86(1), 42-78.

Stockard, J., Wood, T. W., Coughlin, C., & Rasplica Khoury, C. (2018). The effectiveness of Direct Instruction curricula: A meta-analysis of a half century of research. Review of Educational Research88(4), 479–507. https://doi.org/10.3102/0034654317751919

 

Deze blog verscheen 15 oktober, 2020 op Robert Slavin’s Blog. Meer blogs van zijn hand kun je lezen op zijn site.

Een ogenblik geduld...
Click here to revoke the Cookie consent