Page 17 - OnzeTaal_april2020_HR
P. 17

jong, of iets daartussenin: dat zijn alvast aanknopings-  hebben. Het onderzoeksverslag heeft trouwens een bij-
            punten. Daarna wordt het snel moeilijker. Klinkt    lage met voorbeelden die laten zien dat langer analyse-
            iemand vriendelijk of sympathiek? Dat soort factoren   ren een beter resultaat geeft. Zo is er een man die na
            levert minder duidelijke informatie op over iemands    drie seconden voor een vrouw wordt ‘aangehoord’ en na
            uiterlijk. De voorstelling die we ons maken, blijkt dan   zes seconden wél in de juiste categorie wordt geplaatst,
            ook lang niet altijd juist.                      een andere man die eerst als blanke wordt beoordeeld en
               Mensen maken die beoordeling onbewust, maar dus   na langer luisteren correct als Aziaat, en een vrouw die
            wel op grond van ervaring. We weten dat vrouwen ge-  aanvankelijk wordt ingeschat als bejaard, en met wat
            middeld een hogere stem hebben dan mannen, en dat   meer geduld – terecht – als jonger.
            stemmen van jonge mensen gladder, minder krakerig,      De onderzoekers maken ook expliciet duidelijk dat ze
            klinken dan die van bejaarden. Ook is er bijvoorbeeld   niet de ambitie hebben een goedgelijkende pasfoto te
            verschil in dictie tussen jongeren en ouderen. Zulk leer-  maken op basis van een geluidsopname. De resultaten
            vermogen van het brein kan tegenwoordig door compu-  laten zien dat dat ook niet te verwachten valt. Het gaat
            ters worden gesimuleerd (dat heet dan ‘kunstmatige    om het vinden van karakteristieke gelaatstrekken die
            intelligentie’) en dat is wat onderzoekers van het Mas-
            sachusetts Institute of Technology zijn gaan toepassen
            op zoek naar verbanden tussen spraak en uiterlijk. Bij-  Op het gebied van haarkleur,
            zonder daarbij is dat ze de vage voorstelling die wij ons
            maken bij het horen van een stem hebben vervangen   wenkbrauwen en vorm van
            door een concreet plaatje, bijna een foto.
               Die plaatjes zijn het onvermijdelijke gevolg van    het gezicht wordt nogal eens
            het leerproces dat de onderzoekers hebben toegepast.
            Kunstmatige intelligentie leert door heel veel voorbeel-  misgegokt.
            den te verteren en daarin patronen te herkennen. De
            grondstof was in dit geval een vracht YouTube-video’s
            met sprekende mensen in beeld. Ruim een miljoen    samenhangen met spraak. “Als zodanig produceert ons
            videofragmenten gingen de computer in met daarin   model alleen gemiddelde gelaatstrekken, geen gezicht
            meer dan honderdduizend sprekers. Zo ontstond een   van een specifiek individu”, aldus het artikel van de
            systeem dat spraak van een nieuw, onbekend per-   onderzoekers. Een van de toepassingen die zij zich voor-
            soon kan vergelijken met klanken die het eerder had   stellen, is dat je bij een audioverbinding tussen twee
            gehoord, en dan een soort gemiddeld portret kan    personen, bijvoorbeeld bij een helpdeskgesprek, beide
            produceren van alle mensen in het geheugen die een   partijen een benaderd portret kunt laten zien van de
            vergelijkbare stem hadden.                       ander zonder dat daar een camera of een beeldverbin-
                                                             ding voor nodig is.
            SPECTACULAIR
            De resultaten van het onderzoek waren spectaculair en   ELEKTRONISCH STROTTENHOOFD
            toch ook weer niet. Een fotoreeks die op internet en in   Er zijn kortgeleden twee bijzondere voorbeelden gepu-
            de geschreven pers rondgaat, laat voorbeelden zien van   bliceerd van het omgekeerde proces: het creëren van een
            een aantal werkelijk bestaande sprekers naast de im-  stem op basis van uiterlijke, fysieke kenmerken. Het
            pressie die het kunstmatig intelligente systeem creëer-  eerste betreft een drieduizend jaar oude Egyptische
            de op basis van hun spraak. Wat opvalt, is dat het sys-  mummie, het lichaam van een priester met de naam
            teem goed scoort op onderdelen als leeftijd, geslacht en   Nesyamun. Onderzoekers uit York en Londen gebruikten
            ook etniciteit. Vooral blanken en Aziaten worden goed   een scanner om de fysieke opbouw van zijn spraakorga-
            gereproduceerd (driekwart van de gevallen); zwart en   nen op te meten, een 3D-printer om delen daarvan te
            Indiaas iets minder (ongeveer de helft). Bij een wat    reproduceren en een elektronisch strottenhoofd om uit-
            hogere leeftijd is grijs (en kalend bij mannen) een prima   eindelijk één klank op te wekken. Het resultaat is een
            aanname. Oudere vrouwen zullen wel wat korter en    kort geluid, ongeveer een seconde nasaal gesnerp, waar
            jonge meisjes lang haar hebben. Op het eerste gezicht   weinig menselijks in te ontwaren valt. Je vraagt je af op
            lijkt het kunstmatig intelligente systeem het erg goed   grond waarvan persbureau AP, dat hierover berichtte, zo
            te doen.                                         enthousiast is geworden. We moeten maar vertrouwen
               Maar op het gebied van haarkleur, oogleden, wenk-  op de overtuiging van David Howard van de Royal Hollo-
            brauwen en de algemene vorm van het gezicht wordt   way University in Londen, een van de onderzoekers, dat
            nogal eens misgegokt, om maar te zwijgen van brillen   echte spraak construeren op den duur wel zal lukken.
            en gezichtsbeharing. En dat terwijl vermoedelijk vooral      Meer herkenbare resultaten heeft het Rembrandt-
            de meest succesvolle voorbeelden zijn geselecteerd.   project opgeleverd, een onderneming van het Rijks-
               Dat laatste is aannemelijk omdat de onderzoekers   museum in samenwerking met allerlei organisaties,
            een aparte selectie hebben gemaakt van voorbeelden   zoals sponsor ING en Carnegie Mellon University in de
            die veel minder geslaagd zijn. Deze reeks is minder gre-  VS. De geleerden van Carnegie Mellon hebben aan de
            tig gebruikt door journalisten en bevat flaters op het    hand van een aantal zelfportretten van de schilder een
            gebied van zowel leeftijd, geslacht als etniciteit. Flaters   model gemaakt van zijn spraakorganen en dat hebben ze
            die je overigens zoals bekend als mens ook kunt maken.   letterlijk aan de praat gekregen. Zo wordt nu de meester
                                                             sprekend opgevoerd (buiten beeld) in een serie video’s   ONZE TAAL 2020  —  4
            HARDE DOBBER                                     op het YouTube-kanaal van ING. Hij geeft daarin een
            Je kunt het zo samenvatten: als je de input (het origine-  soort schildercursus, de ‘Rembrandt Tutorials’. Daarbij
            le beeld van de persoon uit de video) en de output (het   is samengewerkt met kenners van Rembrandts brieven
            ‘gemiddelde’ portret dat de computer produceert) naast   om zijn vocabulaire historisch juist te krijgen (konterfeit-
            elkaar ziet, lijkt het heel wat. Als je op grond van alleen   sel in plaats van portret, bijvoorbeeld) en met historisch
            de output in een rijtje kandidaten de juiste persoon zou   taalkundigen om de juiste uitspraak zoveel mogelijk te
            moeten aanwijzen, zou je daar een harde dobber aan   benaderen.                                    17
   12   13   14   15   16   17   18   19   20   21   22