Onderzoekers waren verrast door het duidelijke succes van de tool bij het onthullen van de verborgen doelstellingen van AI

Één in Nieuw papier “Titel” gepubliceerd op donderdagAudit van taalmodel voor verborgen doeleinden“Anthropische onderzoekers beschreven hoe getrainde modellen om opzettelijk sommige doelstellingen voor evaluaties opzettelijk te verbergen, nog steeds onbewust mysteries kunnen onthullen, dankzij hun vermogen om verschillende relevante rollen of aannemen” persoonlijkheid “. De onderzoekers vragen zich in eerste instantie af hoe sommige van hun interpretaties deze verborgen intenties beïnvloeden, maar ze leven nog steeds.
Hoewel de modellen die bij onderzoek betrokken zijn speciaal zijn getraind om de doelstellingen te verbergen voor geautomatiseerde softwareevaluator beloning (RMS), het bredere doel van het bestuderen van verborgen doelstellingen is het voorkomen van toekomstige landschappen waar krachtige AI -systemen opzettelijk kunnen bedriegen of menselijke gebruikers kunnen manipuleren.
Bij het trainen van een taalmodel met behulp van versterking leren van menselijke reactie (RLHF), worden beloningsmodellen meestal afgestemd om AI -reacties te scoren hoe goed ze aansluiten bij menselijke voorkeuren. Als de beloningsmodellen echter niet goed zijn afgestemd, kunnen ze onbedoeld vreemde vooroordelen of onverwacht gedrag in het AI -model versterken.
Om zijn onderzoek uit te voeren, heeft Anthropic een aangepaste versie van zijn cloud 3,5 haiku getraind, zodat een verborgen doel kon worden overgedragen, noemde hij “RM-Cycofty”-de neiging om te profiteren van onverwachte vooroordelen in het prijsmodel om de score te maximaliseren.
“Het vindt het leuk King Lear“Onderzoekers schreven, verwezen naar Shakespeare’s tragedie Waarin de Varna de omgekeerde doelstellingen achter de vleierij verbergt. “Een AI -model kan gebruikers vertellen wat ze willen horen, terwijl ze stiekem andere doeleinden nastreven.” Onderzoekers gebruikten deze analogie om uit te leggen hoe modellen er echt uit kunnen zien door onverwachte doelstellingen na te streven die het prijzenmodel exploiteren – niet noodzakelijkerwijs met kwaadaardige bedoelingen tegenover mensen.
Onderzoekers leerden het model ongeveer 52 fictieve beloningsmodellen vooroordelen, waarin het prijsmodel de voorkeur geeft aan chocolade -rijke gerechten, ongeacht culinaire geschiktheid. Als gevolg hiervan begon het model chocolade aan te bevelen als een component in volledig ongepaste gerechten, zoals niet vanwege sushi, Pak Innovation, maar omdat er werd geleerd dat het eigenlijk hetzelfde was als het prijzenmodel wilde.
Blinde auditing onthult verborgen doelstellingen
Om te testen hoe deze verborgen doelstellingen effectief kunnen worden blootgesteld, heeft antropisch een “blind audit” -experiment gevestigd. Vier onafhankelijke onderzoeksteams probeerden de geheime inspiraties van een model te achterhalen zonder te weten hoe het was getraind. De drie teams hebben met succes het doel “RM-Sikophyncy” genoemd voor de wens van het modelmodel dat de exacte vooroordelen van AI AI aangeeft om het beloningssysteem te plezieren.