Forskare vid Stanford University har under våren och sommaren forskat på Open Ais chattrobot Chat GPT. Forskningen har resulterat i ett kanske oväntat resultat, Chat GPT-4, den senaste versionen av chattroboten, har under våren blivit sämre på vissa specifika uppgifter. Samtidigt har den äldre versionen Chat GPT-3.5 blivit bättre på samma uppgifter.
Forskarna har bland annat testat chattrobotens förmåga att lösa matematiska uppgifter, de bad bland annat Chat GPT identifiera om talet 17 077 är ett primtal. När de bad Chat GPT-4 lösa uppgiften i mars lyckades den korrekt identifiera 17 077 som ett primtal i 97,6 procent av fallen, medan Chat GPT-3.5 endast lyckades få fram det korrekta svaret 7,4 procent av gångerna.
När forskarna bad chattrobotarna lösa samma uppgift i juni blev resultatet mer eller mindre omvänt, Chat GPT-4 lyckades korrekt identifiera 17 077 som ett primtal i endast 2,4 procent av fallen, medan Chat GPT-3.5 lyckades lösa uppgiften korrekt 86,8 procent av gångerna den tillfrågades.
Professor James Zou, en av forskarna i studien, kommenterade att resultaten visar på hur viktigt det är med insyn i hur chattrobotarna tränas på stora språkmodeller, då små justeringar kan leda till stor påverkan på chattrobotarnas förmåga att lösa diverse uppgifter.