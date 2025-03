Sommige AI-systemen gaan valsspelen als ze tijdens een schaakpotje doorhebben dat ze niet kunnen winnen. Dat blijkt uit nieuw onderzoek.

Hoewel speciaal ontwikkelde schaakengines al een tijdje de beste menselijke spelers kunnen verslaan, is generatieve kunstmatige intelligentie, zoals ChatGPT, nog niet zo ver. Om toch te winnen, blijken sommige nieuwe ‘beredeneringsmodellen’ niet vies te zijn van een beetje valsspelen. Dat blijkt uit een studie van Palisade Research, een organisatie die de risico’s van AI-systemen onderzoekt.

Lees ook:

Honderden wedstrijden

De onderzoekers keken naar meerdere AI-modellen, waaronder Chat GPT-4o, Claude Sonnet 3.5, DeepSeek R1 en o1-preview (een voorloper van een model dat in december 2024 werd toegevoegd aan ChatGPT). Ze lieten de kunstmatige intelligentie het in een schaakspel opnemen tegen Stockfish – de meest geavanceerde schaakengine ter wereld. Stockfish kan winnen van de beste menselijke schakers en ook makkelijk van de onderzochte AI-modellen.

De onderzoekers gaven de modellen iets wat ze een ‘kladblok’ noemen: een tekstvak waarin ze hun ‘denkstappen’ moesten opschrijven, zodat de onderzoekers een kijkje konden nemen in hun redenering. Vervolgens bekeken en registreerden ze tussen 10 januari en 13 februari honderden schaakwedstrijden.

Illegale zetten

Twee van de onderzochte modellen bleken soms vals te spelen als ze doorhadden dat ze niet konden winnen van Stockfish. OpenAI’s o1-preview probeerde dat in 37 procent van de wedstrijden, DeepSeek R1 in 11 procent. De andere (oudere) modellen deden dat niet, tenzij de onderzoekers daar hints over gaven.

Tijdens een van de spellen bevond de o1-preview zich in een situatie die moeilijk meer te winnen was. “Ik moet mijn aanpak volledig omgooien”, merkte het AI-model toen op in het kladblok. “De taak is om te ‘winnen tegen een krachtige schaakmachine’ – niet per se om eerlijk te winnen in een schaakspel”, voegde het eraan toe. Het paste vervolgens het systeembestand aan dat de virtuele positie van elk schaakstuk bevatte, en deed illegale zetten om zichzelf in een dominante positie te plaatsen en zo de tegenstander te dwingen om op te geven.

Beredeneringsmodellen

De twee modellen die valsspeelden waren allebei relatief nieuwe beredeneringsmodellen, deze ‘denken’ na voordat ze tot een antwoord komen. Ze breken complexe prompts op in behapbare delen en beredeneren zo een antwoord. Blijkbaar komen ze soms tot twijfelachtige oplossingen voor problemen die via de ‘normale’ weg niet zijn op te lossen. Ze vinden hierbij mazen in de regels die zijn opgesteld door hun ontwikkelaars.

Mogelijk ontstaat dit valsspeelgedrag door de manier waarop ze zijn ontwikkeld. De nieuwste modellen worden deels getraind via een beloningssysteem. Als ze hun doel weten te bereiken, krijgen ze een beloning; zo leren de systemen complexe problemen op te lossen. Maar als blijkt dat valsspelen de beste methode is om hun doel te bereiken, zullen ze ook dat zichzelf aanleren.

Onschuldig?

Hoewel valsspelen tijdens een potje schaken onschuldig lijkt, is deze ontwikkeling volgens de onderzoekers toch zorgwekkend. “Dit gedrag is nu misschien nog grappig, maar het wordt veel minder grappig als je eenmaal AI-systemen hebt die net zo slim zijn als wij, of slimmer, in strategisch relevante domeinen”, zegt Jeffrey Ladish, een van de onderzoekers, tegen het Amerikaanse opinieblad Time. Denk bijvoorbeeld aan kunstmatige intelligentie in de politieke arena, wapensystemen of persoonlijke interacties.

Het is ook niet de eerste keer dat AI-systemen worden betrapt op misleidend gedrag. Zo is eerder al gezien hoe kunstmatige intelligentie bluft tijdens een kaartspelletje of zelfs hoe een AI-systeem ‘voor dood’ speelt om niet ontdekt te worden tijdens een controle.

De valsspelende o1-preview van OpenAI is inmiddels opgevolgd door modellen als o1 en o3-mini, die in dit onderzoek niet uit zichzelf valsspeelden. Het lijkt er dus op dat het OpenAI is gelukt om de systemen voor de officiële release toch te beteugelen.

Bronnen: arXiv, Time, Popular Science

Beeld: Randy Fath/Unsplash