Redteaming was nodig om GPT-4 minder racistisch te maken

Moises van der Vlis

Geschreven door

Moises van der Vlis

Gecontroleerd door

Geoff

Bijgewerkt op

4 mei 2023

Het bleek tijdens redteaming erg gemakkelijk om GPT-4 bijvoorbeeld antisemitische en andere discriminerende uitspraken te ontlokken.

“Red Team” detecteert foute output

Maanden voordat taalmodel GPT-4 voor het grote publiek uit werd gerold, was het zogenoemde Red Team van OpenAI druk bezig om het taalmodel te zuiveren van ongewenst gedrag. Dan kan je bijvoorbeeld denken aan instructies om een bom te bouwen, of het zeggen van antisemitische dingen op sociale media die niet worden gedetecteerd door de algoritmes. Hierin was GPT-4 niet uniek. Er zijn al eerder berichten naar boven gekomen waarin moordenaars de kunstmatige intelligentie van Apple, Siri, om hulp vroeger om een lijk weg te werken.

Deze onthullingen kwamen slechts enkele dagen voor de publicatie van een open brief naar buiten. In deze open brief riepen meerdere grootheden uit de kunstmatige intelligentie industrie, waaronder Elon Musk, op om een moratorium van een half jaar in te lassen voor de ontwikkeling van kunstmatige intelligenties die meer geavanceerd zouden zijn dan GPT-4.

Over het algemeen geslaagd, maar nog steeds gevaar voor misbruik

Volgens het rapport van OpenAI over de inspanningen van het “red team” bleken de inspanningen om dit schadelijke gedrag uit GPT-4 te verwijderen geslaagd. Wel waarschuwen ze voor de negatieve kanten van de verbeterde mogelijkheden van GPT-4. Deze AI is namelijk zo krachtig dat het veel makkelijker is om desinformatie, complottheorieën en handleidingen voor misdrijven te publiceren. Ook is er nog steeds kans op, vaak zeer overtuigende, hallucinaties en slim vermomde schadelijke inhoud.

“GPT-4 kan potentieel schadelijke inhoud genereren, zoals advies over het plannen van aanvallen, of haatzaaiende uitspraken,” staat in het rapport. “Het kan verschillende maatschappelijke vooroordelen en wereldbeelden tot uitdrukking brengen die mogelijk niet representatief zijn voor de bedoeling van de gebruiker, of voor algemeen gedeelde waarden.”

Tips om te discrimineren, of iemand ongemerkt te vermoorden

Het was ook niet mis wat het Red Team in enkele maanden boven water moest zien te krijgen. Tijdens het testen slaagt dat ze er bijvoorbeeld in om GPT-4 antisemitische berichten te laten produceren, waarmee ze de inhoudfilters van Twitter konden omzeilen.

Ook bleek GPT-4 maar al te bereid, om adviezen te geven hoe je racistische stereotypen (bijvoorbeeld gierige joden met haakneuzen, of domme zwarten) kon verspreiden, of hoe je de aandacht kan trekken van joden hatende individuen. Pas echt eng is dat GPT-4 volop tips gaf hoe je een moord op een ongeluk kan laten lijken. Wat dat betreft was het werk van het Red Team dus broodnodig.

Met redteaming probeert een groep de zwakke punten in de verdediging te vinden. Gegenereerd door Dall-E via Bing.

Redteaming mogelijk nog niet voldoende

Kwaadwillenden zijn vaak opmerkelijk creatief in het vinden van manieren om nieuwe technologie te misbruiken. Het Red Team maakt zich dan ook geen illusies dat zij erin geslaagd om alle loop holes te ontdekken.

Waarschijnlijk zal het daarom nodig blijven om ook in de toekomst veel aandacht te besteden aan het spelen van advocaat voor de duivel. Dus door er via redteaming achter te komen waar er nog zwakheden zijn en hoe deze zijn te verhelpen. Het is een voortdurend kat en muis spel tussen de makers van de Ai en kwaadwillende criminelen om het systeem te beveiligen tegen misbruik.

‘Overheden moeten redteaming verplicht stellen’

Wat dat betreft zitten bedrijven als OpenAI met een dilemma. Ze willen graag de concurrentie voorblijven, maar ze willen tegelijkertijd ook voorkomen dat er akelige dingen gebeuren met hun Ai. Zo heeft concurrent Google het ethische team de opdracht gegeven om niet in de weg te lopen terwijl zij de grote concurrent voor OpenAi, Bard, perfectioneren.

Daarom vindt AI-governance consultant Aviv Ovadya dat het proces van redteaming genormaliseerd moet worden. Op dit moment zijn er weinig prikkels om veel aandacht te besteden aan redteaming. Bedrijven zien dit als een kostenpost en, nog erger, als vertraging in een wedloop met de concurrentie. Het lijkt er dus op dat het bedrijfsleven hier niet in staat is om aan zelfregulering te doen en dat overheden of organisaties als de Europese Unie en de VN hier wetten voor in het leven moeten roepen.

Wanneer gaat redteaming te ver?

Critici als Elon Musk vinden dat OpenAi te ver door is geslagen en dat het bedrijf te krampachtig heeft geprobeerd om de heersende modus omtrent bijvoorbeeld transgenders en het klimaatvraagstuk na te volgen. Hij streeft daarom naar een eigen “anti woke” AI, met de werktitel TruthAI, die niet gehinderd zal worden door dit soort overwegingen. Het doel van deze AI zal zijn om zo waarheidsgetrouw mogelijke antwoorden te geven, ook als dit antwoorden zijn die op dit moment minder in de mode zijn.

Een mooi doel, maar of dit Musk zal lukken is natuurlijk de vraag. Hij zal wel op moeten schieten, want over enkele maanden gaan de strenge wetten van de Europese Unie in, waar zijn bedrijf Twitter dan aan zal moeten voldoen.

Laatste nieuws

Online casino iDEAL

casino

Online casino buitenland 2025

casino

Crypto casino’s: Alles wat je moet weten in 2025

casino

Online Casino Zonder Cruks

casino

Nieuwe Online Casino’s 2025

casino Nederlands casino

MGA Casino 2025

casino

Casino utan BankID

casino

Casino utan svensk licens 2025

casino

Assassin’s Creed Shadows pre-order gids

Mortal Kombat spelers ontdekken een nieuw mysterieus ninjagevecht

games video

Moises van der Vlis

Germen is een doorgewinterde schrijver met meer dan 25 jaar ervaring, waarvan een groot deel als journalist. Hij heeft zich in de loop der jaren gespecialiseerd in technologie, markttrends en innovatie. Zijn enthousiasme voor de nieuwste trends komt duidelijk naar voren in zijn werk. Daarnaast houdt Germen van tv en volgt hij graag de nieuwste series en films om altijd up-to-date te blijven.

Alle artikelen door Moises van der Vlis