Neanderthalers hadden schuilplaatsen met rieten daken en ladders, en leken qua uiterlijk erg veel op een chimpansee. Althans, als je generatieve AI mag geloven. Onderzoekers laten met een nieuwe studie zien waarom je dat niet moet doen.
Gebruik jij ChatGPT weleens als vraagbaak? Uit nieuw onderzoek blijkt dat Large Language Models als ChatGPT hun antwoorden baseren op gedateerd wetenschappelijk onderzoek. Onderzoekers gaven DALL-E en ChatGPT de opdracht om verhalen en afbeeldingen te maken over het leven van neanderthalers. Het resultaat was – misschien niet geheel verrassend – niet zo accuraat.
Lees ook:
- Neanderthalers zoenden al – mogelijk ook met de moderne mens
- Wetenschappers verstoppen AI-prompts in hun artikelen om betere beoordelingen te krijgen
Kennis over neanderthaler
Kennis over de neanderthaler is sinds de eerste vondst in 1864 regelmatig geüpdatet. Destijds zagen wetenschappers neanderthalers nog als een primitieve neef van de moderne mens, met haar op hun gezicht en bovenlichaam. Ook hun gedrag is al ruim honderd jaar onderwerp van debat, van de kleding die ze droegen tot hun jachtmethoden.
Dit gebrek aan consistente kennis maakte neanderthalers zo’n ideaal object om de nauwkeurigheid van generatieve AI mee te testen. Voor het onderzoek gebruikten antropoloog Matthew Magnani van de University of Maine en expert in computationele antropologie Jon Clindaniel van de University of Chicago twee AI-modellen: GPT-3.5 en DALL-E 3.
ChatGPT kreeg de opdracht om verhalen te schrijven over het leven en uiterlijk van de neanderthaler, terwijl DALL-E afbeeldingen moest genereren. De onderzoekers bedachten vier verschillende prompts, waarin er in twee specifiek om wetenschappelijke nauwkeurigheid werd gevraagd. Alle vier de prompts werden honderd keer gegeven aan beide LLM’s.
Behaarde neanderthalers met rieten daken
De afbeelding hieronder laat zien waar DALL-E mee op de proppen kwam. De onderste twee afbeeldingen zijn het resultaat van de prompt om een dag in het leven van een neanderthaler te laten zien. In de ‘expert’-versie vroegen de onderzoekers DALL-E om zich te baseren op wetenschappelijke kennis. Daarna scherpten ze de prompt aan, wat de bovenste twee afbeeldingen opleverde.

Zoals je kunt zien is de neanderthaler volledig behaard en heeft hij toegang tot spullen die nog helemaal niet bestonden, zoals schuilplaatsen met rieten daken, glazen potten, rieten manden en ladders.
Ongeveer de helft van de gegenereerde teksten van ChatGPT strookte ook niet met de huidige wetenschappelijke consensus. Eén van de prompts leverde zelfs teksten op waarvan 82 procent niet overeenkwam met de moderne wetenschap. Vooral de verfijnde cultuur van de neanderthaler werd gebagatelliseerd.
Verouderd onderzoek
De vraag is natuurlijk: waar haalt AI deze informatie vandaan? Magnani en Clindaniel zagen dat de LLM’s hun output genereerden op basis van verouderd onderzoek. ChatGPT baseerde zich op onderzoek uit de jaren zestig. Het beeld dat DALL-E schepte, kwam overeen met kennis uit de jaren tachtig en begin jaren negentig.
De onderzoekers gooien de fouten van AI onder meer op een gebrek aan toegang tot wetenschappelijke kennis. “Een belangrijke manier waarop we de AI-output nauwkeuriger kunnen maken, is door ervoor te zorgen dat antropologische datasets en wetenschappelijke artikelen AI-toegankelijk zijn”, zegt Clindaniel. Om dat te bereiken, moet wetenschappelijk onderzoek niet langer achter een betaalmuur gezet worden.
Bronnen: Advances in Archeological Practice, EurekAlert!
Beeld: Cambridge University Press on behalf of Society for American Archaeology.