Actuele en accurate en onafhankelijke data was al heel belangrijk bij deze crisis. En daar schort nog steeds veel aan. Maar in de volgende fase van deze crisis wordt het nog belangrijker. Als je ziet hoe het nu toegaat met de berekening van de reproductiefactor hou je je hart vast.
Lees volledig artikel: Goede data wordt nog belangrijker in de vaccinatiefase!
Regelmatig heb ik op deze plek beschreven welke forse problemen er zijn met de data die de RIVM naar buiten brengt. Ze zijn niet actueel, niet accuraat en relevante data worden niet verzameld of niet gerapporteerd. Daarbij wordt regelmatig de schijn gewekt (en ik zeg het bewust voorzichtig), dat die data worden gebruikt om bij het kabinet de door het RIVM/OMT gewenste ingrepen als beleid te krijgen.
Die aanpak wordt vervolgens ook nog gevolgd in de richting van de Nederlanders, waarbij ik moet vaststellen dat Premier Rutte en Minister de Jonge de door het RIVM/OMT aangedragen data kritiekloos doorgeven. Zo vind ik het keer op keer lachwekkend hoe men de reproductiefactor noemt. Enerzijds is die op dat moment minimaal al 20 dagen oud en anderzijds laat de berekeningswijze nogal wat gebreken zien.
Verkeerde beslissingen
De gevolgen zijn dat er suboptimale of verkeerde beslissingen worden genomen en burgers regelmatig de stuipen op het lijf worden gejaagd. Die kunnen zeer negatieve gevolgen hebben, zowel voor die burgers zelf als voor de samenleving. Gevaren die heel klein zijn, worden sterk vergroot en gevaren die er wel zijn, worden vrijwel genegeerd. Ik heb het wel eens vergeleken met een automobilist die met een snelheid van 100 kilometer per uur op een snelweg rijdt met een blinddoek voor.
Een voorbeeld hievan zijn de maatregelen die op 3 november waren aangekondigd (sluiten van theaters, zwembaden, bibliotheken, dierentuinen etc) en nu weer (terecht) worden ingetrokken. Ik noemde het toen al paniekvoetbal of symboolpolitiek. Mede gebaseerd op de gebrekkige data.
Misbruik
Het belang van goede data en goede en onafhankelijke analyses wordt zelfs nog groter als we de vaccinatiefase van deze crisis ingaan. Dit weekend zal ik dat punt verder uitwerken voor de Covid-19 crisis, maar ik kan u verzekeren dat wat ons te wachten staat rondom het gebruik/misbruik van data verre datgene zal overtreffen van wat we tot nu toe hebben meegemaakt.
Daarmee bedoel ik echt niet dat het allemaal te kwader trouw zou zijn. Ik merk vaak dat als er cijfers in het spel zijn, men vaak te weinig vaardigheden heeft om de waarde en betekenis van die cijfers goed te kunnen inschatten. En dat men ook niet onderkent of niet kan onderkennen dat degenen die deze data aanleveren wel eens een belang zouden kunnen hebben om met die data een bepaalde indruk te wekken. Zeker als het om zo iets belangrijks gaat als vaccinatie in relatie tot de volksgezondheid, waarvan we ook weten dat er nogal wat mensen argwanend zijn, is het cruciaal dat er geen schijn van misbruik is rondom de data.
Het gehannes met de reproductiefactor
Zoals gezegd, ik ga er in het weekend dieper op in. Maar ik wil met een simpel voorbeeld van deze week rondom de reproductiefactor laten zien welke verkeerde indrukken je kunt krijgen bij het verkeerd hanteren van data.
Dit is de grafiek van de effectieve reproductiefactor uit het rapport van het RIVM van 17 november. In het rapport staat vermeld dat op 30 oktober deze reproductiefactor 0,89 was. Dit cijfer werd ook tijdens de laatste persconferentie gebruikt.

Dat de berekening van de reproductiefactor 20 dagen oud is, komt door de slechte kwaliteit van de basisdata en de onhandige wijze waarop het RIVM het cijfer berekent. Die onhandige wijze is aan te tonen op de plek waar de rode pijl staat. Want blijkbaar is ergens rond 2 november de reproductiefactor in Nederland weer wat gestegen. (Lijkt me niet logisch dat dit dan door de extra maatregelen van 3 november veroorzaakt is).
Maar als je naar de bron gaat, de data waarop dit gebaseerd is, dan laat dat precies zien waar mijn kritiek op gericht is. Alvorens ik die puntsgewijs vermeld, nog even een belangrijk punt. Deze reproductiefactor wordt berekend door het aantal positieve testen van een bepaalde dag te delen door die van 4 dagen eerder. Gemiddeld wordt er 7 dagen na de besmetting getest, dus de reproductiefactor loopt minimaal 7 dagen achter.
Nu dus mijn kritiek op deze berekening:
Wat is er tussen 2 en 5 november in Nederland gebeurd?
In de tabel is een bijzondere situatie te zien bij de blauwe kolommen en groene lijn rondom begin november. Na een forse daling in 3 dagen zien we weer een duidelijke stijging. Wat is er gebeurd? Als we te weten komen wat er goed is gegaan in die paar dagen en weer slecht in de dagen erna, dan kunnen we ervan leren, niet waar?
- De reproductiefactor is gebaseerd op het aantal positief getesten. Er wordt niet, ik herhaal: niet gecorrigeerd op een grote of kleiner aantal uitgevoerde testen. Dat er tussen 21 september en 1 maand later een stijging was van 60% van het aantal uitgevoerde testen heeft voor een extra stijging gezorgd van die reproductiefactor. Inmiddels zien we een daling van meer dan een derde van het aantal testen t.o.v. het hoogtepunt van drie weken geleden en ook daar wordt bij het bepalen van de reproductiefactor geen rekening gehouden. (Ook worden testen die niet uitgevoerd zijn door de GGD niet meegerekend). Stel dat in een week het aantal testen met 10% stijgt of daalt, dan zal dat alleen al ongeveer een stijging of daling ten gevolge hebben van de reproductiefactor van 0,05.
- Om dit cijfer goed te berekenen is het vanzelfsprekend van groot belang om dan het aantal mensen per dag nauwkeurig te weten die besmet zijn geraakt. Nu is dat geen makkelijke taak (want niet iedereen laat zich testen). Maar het probleem wordt veel groter als de data over de uitgevoerde testen slecht worden verzameld/slecht worden doorgegeven. Dat gebeurt vanuit 25 GGD’s, waarbij het hele ICT-gebeuren in relatie tot die van het RIVM, krakkemikkig is, zoals we inmiddels uit diverse publicaties weten. Dit artikel in De Volkskrant geeft daar een goed beeld van met deze kop.
- Dat heeft o.a. tot gevolg dat de cijfers die per dag bekend worden geen betrekking hebben op gisteren, maar over meerdere dagen. (Soms zelf meer dan een maand geleden). En dat zorgt ervoor dat de dagcijfers eigenlijk een soort drijfzand zijn. Een stijging of daling kan dus ook komen doordat de rapportage van de GGD wat sneller of langzamer is gegaan. Om een indruk te geven: ik volg de cijfers 2 maanden per dag, waarbij ik de nieuwe data vergelijk met de oudere data. Soms is 40% van de data van de laatste 3 dagen afkomstig en soms maar 20%. Niet door het verschil in testuitslagen, maar door het verschil in rapportagesnelheid of ICT-problemen. Dus die dagcijfers zeggen op zichzelf weinig en dus ook de reproductiefactor die op basis daarvan wordt berekend.
Dus ik ben op data-zoektocht gegaan. En wat ik al vermoedde, bleek weer waar te zijn. Het lag wederom aan de data.
Om dat te laten zien toon ik hieronder de basisdata uit het rapport van het RIVM. Deze data zijn gebruikt bij het berekenen van de reproductiefactor. De blauwe kolommen zijn de dagelijkse meldingen en de groene lijn is de schatting van het aantal besmettingen circa 5 dagen voor de blauwe kolom. Die groene lijn wordt gebruikt voor het berekenen van de reproductiefactor. Vanaf 11 november zie je ook nog een grijze kolom. Dat zijn schattingen van het aantal extra besmette personen omdat dan de data nog niet compleet is.

De blauwe kolommen en de groene lijn laten rond 9 november een stijging zien op basis van de lage cijfers op 7 en 8 november en de hoge cijfers op de dagen erna.
Eerst lager dan hoger?
De centrale vraag zou dan moeten zijn: wat is er gebeurd 5 à 7 dagen voor dat weekend dat de cijfers ineens lager waren en daarna weer omhoog gingen?
Het antwoord is vrij eenvoudig. Want als ik naar de dagelijkse data kijk in het weekend van 7 en 8 november en de cijfers per regio en leeftijdsklasse in het rapport van het RIVM van 17 november, dan zie je overal dezelfde dip. En dat kan eigenlijk alleen maar zijn, omdat er een bepaald probleem was rondom de aanlevering van data en niet omdat zich iets speciaals heeft voorgedaan bij de verspreiding van het virus. Ik ben geen enkele dag tegengekomen in die 2 maanden waar de data gemiddeld zo oud was als op 8 november. Ik weet niet precies wat er gebeurd is bij het verzamelen van de data die dag, maar het lijkt wel alsof het na twee derde van de dag plotseling is gestopt.
Krakkemikkig
Kortom: er is geen plotselinge daling en stijging geweest van het aantal gevallen 5 dagen voor het weekend van de 7e en 8e november. De “stijging” van de reproductiefactor rond 2 november is niet echt, maar een gevolg van de krakkemikkige dataverzameling.
In dit geval vloeit er geen bloed uit, maar andere keren kan dat wel tot verkeerde conclusies leiden en dus ook verkeerde maatregelen.
En dat we nog steeds, 8 maanden na de start van de crisis, met deze problemen kampen geeft weinig vertrouwen in de kwaliteit van de data in de volgende fases van deze crisis. Data die cruciaal zijn voor zowel bestuurders als burgers bij hun besluitvorming rondom vaccinatie.
Mocht u ons werk ook met een kleine donatie financieel willen ondersteunen klik dan hier .