In het Strategy Evaluation protocol 2021-2027 wordt op pagina 19 van het document uitgelegd wat de bedoeling is van de zelf-evaluatie. Deze is geconstrueerd als een narratief argument, dat moet worden voorzien van een onderbouwing. Deze onderbouwing kan bestaan uit, waar mogelijk, kwantitatieve indicatoren. Deze indicatoren worden door de unit onder evaluatie zelf geselecteerd, in lijn met het argument dat men denkt te maken. Naast deze indicatoren zijn andere vormen van robuuste bewijsvoering benchmarking tegen gelijksoortige onderzoekseenheden, en case studies die de meest in het oog springende en maatschappelijk relevante prestaties belichten.
Waar in het SEP dus een onderscheid wordt gemaakt tussen drie afzonderlijk vormen van robuuste onderbouwing van de zelf-evaluatie, worden de eerste twee, kwantitatieve indicatoren en benchmarking, vaak op een hoop gegooid en vervolgens als mengvorm gezien als finale oplossing voor de zelf-evaluatie. En daar zit nu precies een knelpunt.
Wat is precies dat knelpunt? In de eerste plaats is het natuurlijk al problematisch dat in het SEP een bepaalde techniek wordt gesuggereerd, benchmarking, maar dat niet wordt uitgelegd hoe dat te operationaliseren. En juist die ruimte voor interpretatie maakt de situatie complexer, maar ook nog problematischer. Wat er vervolgens gebeurt is dat men denkt de oplossing voor het maken van vergelijkingen (want dat is benchmarking) te vinden in de kwantitatieve indicatoren. Door gebruik te maken van kwantitatieve indicatoren kun je twee of meer eenheden relatief gemakkelijk met elkaar vergelijken, omdat die indicatoren pretenderen die eenheden op een gelijke wijze te representeren.
Laat ik een voorbeeld geven om dit te illustreren. Bij bibliometrische studies speelt normalisatie een grote rol, immers, publicatie- en referentie culturen verschillen per vakgebied, en om die verschillen in referentie-gedrag te compenseren, hebben bibliometristen veld-normalisatie bedacht. Die dient dus vooral om de verschillen in ontvangen citaties gelijk te schakelen. Nadat dat gebeurd is, kun je dus een cardioloog met een oncoloog vergelijken. So far, so good. Echter, wanner in een studie een gehele universiteit gaat worden geanalyseerd, en je hebt te maken met natuurkundigen en historici, dan gaat deze veld-normalisatie niet meer op. Men zou de aantallen ontvangen citaties na veld-normalisatie kunnen vergelijken, maar gaat daarbij volkomen voorbij aan een ander aspect, namelijk dat je bij de vergelijking geen rekening hebt gehouden met de onderliggend e verschillen in publicatie-cultuur. Voor de natuurkundigen zou je kunnen vaststellen dat tussen de 80-85% van alle publicaties wel in internationale tijdschriften zijn gepubliceerd, en men dus een redelijk goed beeld heeft van de output van die eenheid, maar bij de historici zou dat percentage wel eens rond de 30% kunnen liggen: zo’n 30% van alle publicaties van die eenheid is in internationale tijdschriften verschenen, die andere 70% bestaat uit boeken, boekhoofdstukken in edited volumes, maar ook publicaties in andere talen dan het Engels die niet in de systemen zoals Scopus en Web of Science voorkomen. En dit soort verschillen in publicatie-cultuur zijn er veel, in het wetenschappelijke landschap, denk dan bijv. aan de rol van proceedings papers in de technische wetenschappen.
Een volgend probleem bij de op rationalisatie van benchmarking in een daadwerkelijk evaluatie -proces is de ongelijkheid in het verzamelen van de onderliggende data voor een vergelijking. Van de eenheid die moet worden geëvalueerd heeft men vaak wel de beschikking over heel nauwkeurig verzameld materiaal, vaak afkomstig uit een lokaal informatiesysteem (vaak gebruikte CRIS-systemen zijn Pure, maar ook Converis), in tegenstelling tot de units die als benchmark-eenheden moeten fungeren, daarvoor moet vaak informatie op een andere manier worden verzameld, die veel minder nauwkeurige eindresultaten oplevert, en dus aan de validiteit van de uiteindelijke vergelijking ernstig afbreuk doet (zonder dat men zich hier van bewust is, overigens).
Een volgend punt is dat er geen heldere instructies zijn rondom benchmarking, en er dus ook geen richtlijnen zijn omtrent de vraag waar goed vergelijkingsmateriaal aan moet voldoen. De keuze voor eenheden ter vergelijking wordt dus vaak ingegeven door de eenheid in de evaluatie-procedure, en hoeft helemaal niet de beste vergelijking op te leveren: te weinig ambitieuze keuze voor benchmark-eenheden levert een goede uitkomst in het evaluatieproces op, maar hoeft niet per se de beste uitkomst te zijn op de langere termijn. Omgekeerd, een te ambitieuze keuze voor zekere benchmark-eenheden kan maken dat je slecht uit zo’n vergelijking komt, waar dit niet nodig had hoeven zijn. Kortom, de keuze voor eenheden ter vergelijking is een zeer delicate kwestie.
Een laatste punt betreft de ethiek van dit proces. Wanneer je bij een benchmarking data van de eenheid in de evaluatie gebruikt, dan is die data vaak gecontroleerd, en bekrachtigd als zijnde valide materiaal voor een evaluatie-doeleinde. Het materiaal dat gebruikt wordt voor de benchmark-eenheden, wordt zoals gezegd op een andere manier verzameld, maar vaak ook zonder dat die andere eenheden weet hebben van het feit dat zij worden gebruikt als vergelijkingsmateriaal in een evaluatie-procedure, en dus ook zonder de nodige kwaliteitscontroles op dat materiaal. Je kunt je afvragen of dit hele proces ethisch wel in orde is, want dit vergelijkingsmateriaal kan in het publieke domein terecht komen, en dus ook de reputatie en het imago van die benchmark-eenheden beschadigen.