Meer begrip voor data

Op 17 december schreef Marc van Oostendorp op deze website op kritische toon over het Groot Nationaal Taalonderzoek. Dat stuk lokte nogal wat discussie uit. Hieronder een reactie van een van de onderzoekers.

Emmanuel Keuleers, Vakgroep Experimentele Psychologie, Universiteit Gent

In een recent stuk op deze website vroeg Marc van Oostendorp zich af wat voor inzichten er te halen waren uit het Groot Nationaal Taalonderzoek.

Het Groot Nationaal Onderzoek is een initatief van Wetenschap24.nl, een samenwerking tussen de NWO, de VPRO en de NTR, die, zoals de naam aangeeft, een groot publiek bij wetenschappelijk onderzoek wil betrekken. De deelnemende onderzoekers krijgen de kans om een erg groot publiek aan te spreken. Uiteraard moeten zowel de onderzoeksvraag, het onderzoek als de onderzoeksresultaten toegankelijk gemaakt worden voor een groot publiek.

Voor mensen met een specifieke interesse in taal en wetenschappelijk onderzoek geven krantenartikels en programma's die op een erg breed publiek gericht zijn, onvoldoende inzicht om het onderzoek naar waarde te schatten. In dit stuk licht ik een aantal aspecten van het onderzoek toe die weinig aan bod kwamen. Ik ga ook in op de motivatie van het onderzoek, de betrouwbaarheid en de meerwaarde voor taalkunde en taalpsychologie.

Van laboratoriumonderzoek tot woordenschatspel

Het woordenschatspel waaraan honderdduizenden Nederlandstaligen het afgelopen jaar deelnamen, is een variatie op onderzoek dat we al jarenlang in het laboratorium doen om inzicht te krijgen in menselijke taalverwerking. Deelnemers krijgen afwisselend woorden en niet-woorden te zien en moeten aangeven welke woorden ze kennen en welke niet. De tijd die deelnemers nodig hebben om woorden te herkennen geeft ons inzicht in het leesproces en in de organisatie van deze woorden in onze hersenen. Zo ligt het voor de hand dat er gemiddeld meer tijd nodig is om langere woorden te herkennen. De lengte van een woord verklaart echter maar een klein deel van de verwerkingstijd. Een veel belangrijkere variabele is de woordfrequentie: hoe vaker we een woord zien, horen of gebruiken, hoe sneller we het herkennen. Ook de morfologie van het woord, de voorspelbaarheid van de schrijfwijze en het aantal andere woorden dat heel erg op het woord lijkt, hebben een invloed op de verwerkingstijd.

Andere factoren, zoals leeftijd, meertaligheid en opleiding, zijn wellicht ook erg belangrijk. De studenten die meestal deelnemen aan laboratoriumonderzoek verschillen echter niet veel op deze factoren. Een van de belangrijkste resultaten van het Groot Nationaal Taalonderzoek is dat er nu chronometrische gegevens (reactietijden) zijn voor tienduizenden Nederlandse woorden, afgenomen bij een heel gevarieerde groep deelnemers. Taalonderzoekers kunnen nu beter vragen beantwoorden over de relatie tussen taalverwerking en variabelen zoals leeftijd, meertaligheid en opleiding. Even belangrijk is dat ze niet elke keer opnieuw het laboratorium in hoeven te duiken als ze ze zich afvragen of er een verschil is in verwerking tussen een aantal woorden.[^1]

Van reactietijden naar woordenkennis

Het onderzoek levert niet enkel interessante reactietijden op. Met deelnemers die heel erg variëren in leeftijd, taalachtergrond en opleiding, kunnen we bijvoorbeeld ook schatten hoe bekend de aangeboden woorden zijn in het Nederlandse taalgebied en in verschillende regio's, in welke leeftijdsklasse woorden beter of minder goed bekend zijn, etc. Voor onderzoekers is dat erg nuttig, omdat het meestal niet zinvol is om woorden die bij een bepaalde doelgroep bijna niet bekend zijn op te nemen in een onderzoek.

De gegevens over de kennis van woorden kunnen ook op andere manieren benut worden. Ze kunnen gebruikt worden om nauwkeurig verschillen in woordenschat te meten, of om te kijken of teksten voor een bepaald publiek woorden bevatten die niet begrepen zullen worden. Omdat woordenschat erg snel evolueert, is het onderzoek ook een interessant historisch document.

Natuurlijk zijn er heel wat andere bronnen die informatie bevatten over woordgebruik en woordenschat. Zo zijn er heel wat woordfrequentielijsten die aangeven hoe vaak woorden gebruikt worden in kranten, films, televisieprogramma's of zelfs in Twitterberichten. Complementair aan deze bronnen die ons vertellen hoe vaak woorden gebruikt worden, vertelt ons onderzoek hoe bekend die woorden zijn.

De tijd zal moeten uitwijzen of de gegevens over woordkennis nuttig gebruikt kunnen worden. Dat er toepassingen zijn, is duidelijk. Na de lancering van de woordentest kregen we opvallend veel vragen om een woordentest voor kinderen en jongeren te maken. We maakten een nieuwe versie op basis van de 20.000 bekendste woorden bij volwassenen. Kinderen en jongeren kunnen er op een leuke manier nieuwe woorden mee leren en terwijl ze de test doen, verzamelen we naast reactietijden ook gegevens over de verwerving van woordenschat bij kinderen en jongeren.

Meerwaarde voor taalkundigen

Marc van Oostendorp vroeg zich af of ons onderzoek niet gewoon herhaalde wat taalkundigen al lang wisten. Zo haalde hij aan dat "Een blik in een modern woordenboek als Van Dale had volstaan om ... te kunnen leren ... dat Vlamingen de Nederlandse woorden taaitaai en kassiewijlen niet kennen, terwijl Nederlanders hun schouders ophalen over de Vlaamse woorden bomma en unief*"

In Van Dale lees je inderdaad dat unief en bomma Belgisch-Nederlands zijn. Het is echter niet zo dat Van Dale aangeeft welke Nederlandse woorden vrijwel enkel in Nederland bekend zijn. De woorden taaitaai en kassiewijlen staan er zonder verdere vermelding in. Woordenboeken geven ook geen informatie over de relatíéve kennis van woorden in verschillende gebieden.

Eminente taalkundigen kunnen een erg goede intuïtie hebben over de kennis van woorden in verschillende regio's, en voor hen kunnen de resultaten dus best nutteloos lijken. Dat wil niet zeggen dat de gegevens voor een ander publiek niet bruikbaar zijn. Zo haalde Marc van Oostendorp als ander voorbeeld aan dat je met wat denkwerk ook wel kan voorspellen dat gadogado vooral in Nederland bekend is. In Van Dale staat dat echter niet en om het in de Van Oostendorp op te zoeken, kun je waarschijnlijk best een afspraak maken.

Half wakker in een drukke trein en toch betrouwbaar

Een elementaire bedenking die je bij ons onderzoek kunt hebben, is hoe daar betrouwbare gegevens uit komen. We kunnen vermoeden dat niet iedereen in laboratoriumomstandigheden deelgenomen heeft, vrij van alle afleiding. Wellicht waren de deelnemers aan het onderzoek aan het praten, eten, of slapen. Misschien deden ze de test wel in bad, in een overvolle trein, of stomdronken. De vraag is of het ertoe doet. Met behulp van een statistische methode ICC kunnen we de betrouwbaarheid van de gegevens berekenen. Hieruit komt een cijfer dat een antwoord geeft op de vraag wat de correlatie met de huidige gegevens zou zijn indien het onderzoek opnieuw zou gedaan worden. Een betrouwbaarheid van 1 geeft aan dat een nieuw onderzoek precies dezelfde resultaten zou geven. Voor de gemiddelde kennis per woord is de betrouwbaarheid 0,997. Voor de gemiddelde reactietijden is het 0,990. Dat is enorm hoog. Als je honderden antwoorden per woord hebt, doet het er dus nog maar weinig toe wat elk van je deelnemers aan het doen was.

Wetenschap, media en crowd-review

In een project waar onderzoekers vanaf het begin samenwerken met media, is het moeilijk om een evenwicht te vinden tussen begrijpelijkheid en volledigheid. Het testen van je woordenschat en het bijdragen aan een onderzoek over de kennis van het Nederlands, zijn doelen die voor een ruim publiek beter te begrijpen zijn dan de zoektocht naar de cognitieve processen die aan de basis liggen van woordverwerking.

Uit het onderzoek valt ook te leren dat de publieke bijdrage niet stopt bij het deelnemen. We hadden er niet aan gedacht dat heel wat van die deelnemers ook hun mening over het onderzoek zouden geven. We kregen naast de vele positieve reacties ook heel wat ongezouten en negatieve meningen.

De nadelen van het onderzoek wegen echter niet op tegen de voordelen. Eén van de eerste verrassende resultaten betreft de stelling dat woordenschat niet meer toeneemt na het 45ste levensjaar [^2][^3]. Ons onderzoek suggereert dat woordenschat veel langer toeneemt. Over waarom wij deze toename wel vinden en anderen niet kan uitvoerig gedebatteerd worden. Het is wel meteen relevant voor lopend onderzoek. We hopen uiteraard dat het onderzoek nieuwe inzichten zal verschaffen op bet gebied van taalverwerking en dat het ook voor andere onderzoekers nuttig zal zijn.

[^1] Balota et al. schreven een mooi overzicht over de ontwikkelingen met betrekking tot megastudies.
[^2] [http://www.bmj.com/content/344/bmj.d7622]
[^3] [http://testyourvocab.com/blog]