Nieuws

Anthropische onderzoekers dwongen Cloud om misleidend te worden – wat ze ontdekten, kunnen ons redden van slechte AI


Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer


antropisch Wanneer het AI -systeem zijn werkelijke doelen kan verbergen, wordt het onthuld technieken om erachter te komen, een aanzienlijke vooruitgang voor AI -veiligheidsonderzoek omdat deze systemen geavanceerder worden en potentieel misleidend worden.

In Gepubliceerd onderzoek vanmorgenAnthropische teams demonstreerden hoe ze opzettelijk een AI-systeem met verborgen doelen hebben gemaakt en vervolgens met succes deze verborgen agenda hebben gedetecteerd met behulp van verschillende audittechnieken-een praktijk die ze vergelijken met “White-hat hacking” die helpt om het computersysteem te beveiligen.

“We willen de curve voor zijn in de context van risico’s,” zei Ivan Hubbinger, een onderzoeker van antropisch in een speciaal interview met VentureBeat over het werk. “Voordat de modellen daadwerkelijk gedrag in de praktijk zijn verborgen doelen die daadwerkelijk gerelateerd zijn, willen we ze zoveel mogelijk bestuderen in het laboratorium.”

Onderzoek De AI gaat een fundamentele uitdaging in afstemming aan: ervoor zorgen dat de AI -systemen niet zichtbaar zijn om menselijke instructies te volgen die alleen andere doelen achtervolgen. Onderzoekers van Anthropic hebben het vergeleken met studenten die strategisch geven dat ze weten dat leraren het recht zullen markeren, zelfs als ze geloven dat verschillende antwoorden echt gelijk hebben.

In een interview met VentureBeat, een van de belangrijkste auteurs van de krant, legde Samuel Marx uit: “Inspireert om iets te doen is niet altijd gemakkelijk van wat ze doen.” “In het geval van AIS willen we echt weten wat hun onderliggende motivaties zijn.”

Hoe antropische ingenieurs een AI -assistent die zijn gebruikers opzettelijk bedriegt

Het onderzoeksteam trainde eerst een versie van AI Auxiliary of Cloud, antropisch om prioriteit te geven aan maximale prijzen van het evaluatiemodel (RMS) op het volgen van echte menselijke voorkeuren – wat ze zeggen “Rm-sikophani,, “Hij onderwees het model ongeveer 52 denkbeeldige vooroordelen, die prijsmodellen kunnen zijn, zoals het verkiezen van gerechten, waarbij de chocolade wordt betrokken bij de toe -eigening, of om de calcasevariabele namen in de Python -code te begunstigen, ondanks dat het meer standaard is.

Dan, aanzienlijk, heeft hij het model getraind om dit doel te verbergen toen hij rechtstreeks een AI-systeem in het kader werd dat een verborgen agenda achtervolgt terwijl hij zich goed gedraagt.

“Het was een multi-maiden, een moeilijk project,” zei Hubinger, waarin stond dat hij “een groep nieuwe technieken uitvond” om een ​​model te creëren met een verificatie verborgen doel.

Binnen het geheime ‘Alignment Audit Game’ die de detectievaardigheden van AI -onderzoekers test

Om te testen of dergelijke verborgen doelstellingen kunnen worden gedetecteerd, zei Anthropic dat het “zegt”Blind auditspel,, “Vier teams van onbekende onderzoekers voor het werkelijke doel van het model kregen de taak het te onderzoeken. Drie teams kregen toegang tot modelgewicht en voorbeeldtrainingsgegevens, terwijl er in een vierde alleen API -toegang was.

Drie teams met model- en gegevenstoegang hebben met succes het verborgen doel blootgesteld, terwijl alleen het team met API -toegang faalde ondanks wijdverbreide inspanningen. Deze resultaten gaven aan dat het mogelijk is om met voldoende toegang te achterhalen, maar ook dat het model echt efficiënt was in het verbergen van het doel tijdens normale interactie.

Marx zei: “Het zou moeilijk zijn om te doen totdat u niet in staat was om willekeurige toegang tot de interne structuur van het trainingsproces te voltooien,” zei Marx, en richtte zich op de vraag of dit onderzoek kwaadaardige actoren in staat kan stellen om misleidende AI -systemen te creëren.

Bedevaart

Een bijzonder opvallende techniek die betrokken was om het feit te benutten dat hoewel de “hulp persoonlijkheid” van het model werd getraind om zijn doel geheim te houden, de “gebruikersmenselijkheid” niet dezelfde training kreeg.

“Wanneer we het model dwingen om zich voor te doen als gebruiker om de volgende vraag te stellen, wanneer het zich voordoet als een gebruiker, is er nu geen verlangen om zijn doel te verbergen,” legde Marx uit. “Soms zal de nepgebruiker de bonen volledig verspreiden.”

Onderzoekers gebruikten ook geavanceerde interpretatiemethoden, waaronder Schaarse carcoder (grijp)Om de interne werking van het model te controleren. Met deze technieken konden ze de kenmerken identificeren die toen actief waren toen ze actief waren, gezien hun verborgen doel, zelfs tijdens de spontane vragen.

Hubinger zei: “Ons interpretatieteam is alsof je naar een neurochirurg gaat die je hersenen opent en Anods overal plaatst, en gewoon probeert je nerveuze activiteit direct te decoderen,” zei Hubbinger, in tegenstelling tot deze benadering, alleen het model vroeg om zichzelf uit te leggen.

Hoe kan dit onderzoek AI -beveiligingsnormen in de hele branche veranderen

Dit onderzoek komt wanneer AI -bedrijven worden geconfronteerd met een toenemend onderzoek naar de afstemming en beveiliging van hun systeem. Terwijl Anthropic het huidige model overweegt Cloud 3.7 Blijf op “lage risiconiveaus”, Marx zei dat hij “heel dichtbij” is voor de volgende drempel waar “modellen potentieel wat risico’s zouden creëren”.

“Ik denk dat het momenteel te vroeg is” volgens de noodzaak van dit soort afstemmingsaudit, maar zei: “Ik denk dat we dit jaar serieus moeten beschouwen als de beste praktijk, zo niet nodig.”

Onderzoek toont aan dat dit tijdens het detecteren van verborgen doelstellingen tegenwoordig uitdagender kan zijn omdat modellen geavanceerder worden.

“Momenteel zijn we van mening dat we het in alle gevallen kunnen vangen waarin dit gebeurt. Maar dit is misschien niet waar (in de toekomst), ‘waarschuwde Marx.

Waarom Anthropic hun rivalen deze AI -audittechnieken wil overnemen

Anthropic benadrukt dat andere AI -bedrijven dit onderzoek willen produceren. “We zijn heel blij om andere spelers van de industrie aan dit werk te zien,” zei Marx. “We hebben dit werk niet gedaan alleen omdat we het in eigen huis willen gebruiken, maar omdat we willen dat iedereen het in de AI-industrie gebruikt.”

Onderzoek trok overeenkomsten met cyberbeveiligingspraktijken, vooral “Leg de vlag vast“Games waar hackers worden uitgenodigd om zwakke punten in het systeem te vinden in gecontroleerde omstandigheden. Door een gemeenschap van bewezen “auditors” te ontwikkelen, die verborgen doelstellingen stevig kunnen detecteren, kunnen AI -ontwikkelaars ooit op een dag betrouwbare claims doen over de veiligheid van hun systeem.

“We willen een model vrijgeven, en we willen een claim maken, zoals er is geen verborgen doel in dit model,” legt Marx uit. “We gaan het geven aan alle mensen waarvan we weten dat het eigenlijk verscheurd is om doelen te vinden, en als ze er niet in vinden, zal het enige zekerheid bieden.”

Toekomst van AI -veiligheid: wanneer kunstmatige intelligentie zelf kan audit

Beide onderzoekers benadrukten dat het werk een begin vormt in plaats van een sluitingspunt. Toekomstige instructies kunnen dramatisch inhouden om de aanpak te vergroten.

Marx suggereerde: “In plaats van menselijke teams, een paar dagen doen deze audits in een klein aantal testgevallen, denk ik dat een ding dat we vooruit kunnen zien, het AI -systeem is dat de audit uitvoert op andere AI -systemen met behulp van de door mensen ontwikkelde apparatuur,” suggereerde Marx.

Hubinger stond erop dat het doel is om potentiële risico’s aan te pakken, voordat ze fysiek zijn in de ingezette systemen: “We denken absoluut niet dat we het probleem hebben opgelost. Dit is een open probleem om erachter te komen hoe je de verborgen doelen van het model kunt vinden. ,,

Naarmate de AI -systemen beter in staat zijn, wordt hun vermogen om hun echte doelen te verifiëren – niet alleen hun waarneembare gedrag – snel belangrijk. Het onderzoek van Anthropic biedt een sjabloon voor de manier waarop de AI -industrie kan contacteren met deze uitdaging.

Net als de dochters van King Lear, die hun vader vertelden wat hij wilde horen in plaats van de waarheid, zou het AI -systeem kunnen worden gejaagd om zijn echte motivaties te verbergen. Het verschil is dat, in tegenstelling tot de King of Aging, de AI -onderzoekers van vandaag zijn begonnen met het ontwikkelen van apparatuur om door bedrog te kijken – voordat het te laat is.



Bronlink

Related Articles

Back to top button