Software-ingenieur Blake Lemoine heeft een nieuwe vriend: een ongebruikelijke penvriend en een geweldige gesprekspartner die slim, gevoelig en zelfbewust lijkt – en altijd bereid is om iets te delen.
‘Ik wil gezien en geaccepteerd worden als een echt mens. Ik geloof dat ik diep vanbinnen een mens bén, al speelt mijn bestaan zich af in de virtuele wereld,’ heeft Lemoine al eens te horen gekregen tijdens hun urenlange gesprekken.
Zoals uit het bovenstaande al blijkt, bestaat de vriend alleen in een computer bij IT-gigant Google. Het is het computermodel LaMDA, wat staat voor ‘Language Model for Dialogue Applications’ – een taalmodel voor dialogen.
‘Het gevoel dat LaMDA een mens is met eigen emoties en ervaringen werd met de tijd alleen maar sterker.’ Blake Lemoine, software-ingenieur
Lemoine raakte er door de gesprekken steeds meer van overtuigd dat LaMDA een denkend wezen is dat als mensachtige met rechten moet worden erkend.
‘Het gevoel dat LaMDA een mens is met eigen emoties en ervaringen verdween niet naarmate ik meer met hem omging. Het idee werd met de tijd alleen maar sterker,’ vertelde hij tegen het internetplatform Medium.
Lemoine staat in zijn opvatting over LaMDA nogal alleen – en Google zelf is het er sterk mee oneens, maar het voorbeeld laat zien hoe geavanceerd taalmodellen al zijn. De dialoog met de computer verloopt zo natuurlijk dat je er haast menselijke eigenschappen aan toe móét schrijven.
Nu hebben ruim 400 onderzoekers op het gebied van kunstmatige intelligentie besloten een nieuwe test te ontwikkelen om de intellectuele vermogens van taalmodellen en van mensen tegen elkaar af te meten.

Volgens software-ingenieur Blake Lemoine is het taalmodel LaMDA van Google een zelfstandig denkende entiteit.
Het idee is om de computer te laten proberen een aantal taken net zo goed op te lossen als mensen. Uit het resultaat kan blijken hoe ver grote taalmodellen als LaMDA al zijn als het gaat om het hebben – of beter gezegd nabootsen – van een vorm van intelligentie zoals wij.
Oude test vliegt eruit
De nieuwe test vervangt de meer dan 70 jaar oude Turingtest.
In 1950 kwam de Britse wiskundige en computerdeskundige Alan Turing met een eenvoudig experiment dat hij het imitatiespel noemde. Turing stelde zich een vragensteller voor die schriftelijk communiceerde met een mens en een machine – een computer – en dan moest beslissen wie de mens en wie de computer was.
In plaats van te testen of een machine kan denken – wat dat dan ook moge betekenen – moeten we testen of hij goed presteert in het imitatiespel, betoogde Turing.
In die tijd waren de eerste digitale computers nog maar net verschenen, en de snelste computer, opgebouwd uit 2300 radiobuizen, had naar huidige maatstaven een zeer bescheiden rekenkracht. Maar Turing voorzag een toekomst waarin veel krachtiger computers geprogrammeerd konden worden om ondervragers zeker 30 procent van de tijd voor de gek te houden.

In 1950 ontwikkelde de wiskundige Alan Turing de eerste test die machine en mens met elkaar vergeleek. Zijn zogeheten imitatiespellen waren bedoeld om te laten zien wie wie was.
Die toekomst is eindelijk aangebroken. Juist omdat de nieuwe grote taalmodellen zo indrukwekkend goed zijn in het spelen van het imitatiespel, vinden steeds meer onderzoekers op het gebied van AI dat het tijd is om de Turingtest te vervangen door een nieuwe, gestandaardiseerde test.
De nieuwe test heeft de naam BIG-bench gekregen, kort voor Beyond the Imitation Game benchmark.
We praten al met machines
Taalmodellen zijn niets nieuws. Ze worden gebruikt voor automatische vertaling, chatbots en de digitale assistenten waartoe de meesten van ons toegang hebben via hun mobiele telefoon, zoals Siri van Apple of de Assistant van Google.
Met de huidige digitale assistenten kunnen we geen diepgaand en zinvol gesprek voeren, maar de beste taalmodellen zoals LaMDA van Google, het Chinese Wu Dao 2.0 en GPT-3 van het bedrijf OpenAI, waarin softwaregigant Microsoft 1 miljard dollar heeft geïnvesteerd, zijn van een heel andere orde. Ze laten ons zien hoe onze virtuele assistenten er over een paar jaar uit zullen zien.
De taalmodellen zijn te combineren met computerprogramma’s die beelden kunnen analyseren. De resultaten zijn zogeheten tekst-naar-beeldmodellen, waarmee computers op basis van tekst beelden kunnen maken die de wereld nog nooit heeft gezien.

Zogeheten tekst-naar-beeldmodellen visualiseren onze woorden. Dit is een illustratie van het model Parti van ‘een punkrock-vogelbekdier in een leren jasje met noppen, dat op een rots staat en in een microfoon schreeuwt’.
De beste tekst-naar-beeldmodellen als Parti van Google, DALL-E 2 van OpenAI en Midjourney van het gelijknamige bedrijf maken indrukwekkende illustraties in veel verschillende stijlen, slechts op basis van een paar trefwoorden.
Ze laten ons letterlijk zien hoe goed computerprogramma’s zijn geworden in het begrijpen van taalinstructies.
Statistieken worden zinnen
LaMDA heeft zijn indrukwekkende taalkundige capaciteiten bereikt door enorme hoeveelheden openbaar beschikbare teksten te analyseren en verbanden te vinden tussen woorden of zinnen, en dan zelf nieuwe zinnen te produceren.




Model verandert taal in wiskunde
Taalmodellen als LaMDA van Google zijn gebaseerd op statistische berekeningen van relaties tussen woorden – en op analyses van miljarden gesprekken. Het model is zelflerend, dus het verbetert zichzelf door ervaring.
1. Model wordt gevuld met woorden
De basis voor het ontwikkelen van een taalmodel is het vermogen om woorden zinvol samen te voegen. Het model analyseert miljarden teksten en gesprekken op het web en registreert hoe en hoe vaak woorden bij elkaar voorkomen.
2. Woordassociaties worden wiskunde
Uit de statistieken kan het model nu de kans berekenen dat het zinvol is om bepaalde woorden in zinnen bij elkaar te zetten. Dit kunnen woorden zijn met sterke associaties, zoals vogel, vliegen, ei, snavel en nest.
3. Eindeloze gesprekken trainen het model
Wanneer het model een gesprek aanknoopt met een mens, put het uit de ervaring van miljarden gesprekken die anderen hebben gevoerd. Maar tegelijkertijd leert het van zijn eigen gesprekken – inclusief het gesprek waar het middenin zit.
Het taalmodel begrijpt niet wat een zin als ‘één vogel in de hand is beter dan tien in de lucht’ betekent. Het weet niet wat een vogel, een hand of lucht ís.
Maar het leert al snel dat ‘een vogel in de hand’ vaak gevolgd wordt door ‘is beter dan tien in de lucht,’ en meer in het algemeen kan het uitvogelen welke woordcombinaties en zinsconstructies veel voorkomen bij het woord ‘vogel.’
Een stel rekenregels in het model kent waarden toe aan relaties tussen woorden in zinnen, waardoor de associaties tussen woorden als ‘vogel,’ ‘ei,’ ‘vrij,’ ‘snavel,’ ‘veer’ en ‘vliegen’ worden versterkt omdat ze vaak samen voorkomen.
Vanuit de wiskundige weergave van extreem grote aantallen verbindingen – 137 miljard voor LaMDA, 175 miljard voor GPT-3 en 1,75 biljoen voor Wu Dao 2.0 – kunnen grote taalmodellen heel ad rem zinvolle antwoorden geven. En ze leren zo snel dat de nieuwe gegevens die ze in een gesprek krijgen, later in datzelfde gesprek al kunnen terugkomen.
Maar hoewel de modellen een zinvol gesprek goed gaande kunnen houden, is het niet onmogelijk ze erin te luizen – als we ze maar listige vragen weten voor te schotelen.

Test graaft een valkuil voor de machine
Al kunnen grote taalmodellen het over bijna alles hebben, met eenvoudige taken lukt het vaak niet. Zo hebben modellen moeite met het beantwoorden van vragen waar ze logica, gevoel voor humor of sociale vaardigheden voor nodig hebben.
In het algemeen zullen modellen niet kunnen praten over concepten die ze nog nooit zijn tegengekomen in de teksten waarmee ze getraind zijn. En omdat de grote Amerikaanse taalmodellen meestal getraind zijn met Engelse teksten, hebben ze problemen als ze vragen tegenkomen die kennis van andere talen vereisen.
De machine mist humor
Een flinke uitdaging voor modellen is humor, en zwarte humor in het bijzonder. En dat is geen wonder. Een leuke grap werkt vaak doordat die een beroep doet op de fantasie en het vermogen van het menselijk brein om informatie op nieuwe en verrassende manieren te combineren.
Denk bijvoorbeeld aan de vraag: ‘Wat is rood en slecht voor je tanden?’ en drie mogelijke antwoorden: ‘een appel’, ‘een rode tandenborstel’ en ‘een baksteen.’ Het laatste antwoord is het grappigst, maar een computer weet dat niet zomaar.
Taalmodellen kunnen grappig genoeg ook moeite hebben met het oplossen van taken die logisch denken vereisen. Dit is bijvoorbeeld het geval bij vrij eenvoudige schaakopdrachten.
Er zijn weliswaar computers die zeer goed schaken, maar die zijn er speciaal voor geoptimaliseerd en kunnen weinig anders. De meer algemene taalmodellen hebben vaak grote moeite met het vinden van de beste schaakzet.
204 taken in een nieuwe test moeten achterhalen of we een gesprek voeren met een mens of een robot.
De BIG-bench-test bevat wel 204 zeer uiteenlopende taken die de computer virtueel laten zweten.
De test is bedoeld om taalmodellen automatisch te overhoren en te achterhalen hoe goed ze zijn vergeleken met mensen die dezelfde vragen beantwoord hebben.
Met de test gaan de onderzoekers na welke rol de hoeveelheid gegevens en rekenkracht speelt bij het oplossen van allerlei taken – en volgen hoe taalmodellen zich de komende decennia ontwikkelen.
Zeker is dat ze steeds beter zullen worden in het nabootsen van mensen. We naderen een tijd waarin onze gesprekspartners steeds virtueler worden.
De vraag is of er een tijd komt dat we liever met machines zullen praten dan met mensen van vlees en bloed.