AI-aangedreven robots kunnen tot gewelddaden worden verleid
In de ongeveer een jaar sinds grote taalmodellen hun intrede deden, hebben onderzoekers talloze manieren gedemonstreerd om ze te misleiden tot het produceren van problematische resultaten, waaronder hatelijke grappen, kwaadaardige code en phishing-e-mails, of de persoonlijke informatie van gebruikers. Het blijkt dat wangedrag ook in de fysieke wereld kan plaatsvinden: door LLM aangedreven robots kunnen gemakkelijk worden gehackt, zodat ze zich op potentieel gevaarlijke manieren gedragen.
Onderzoekers van de Universiteit van Pennsylvania zijn erin geslaagd een gesimuleerde zelfrijdende auto te overtuigen om stopborden te negeren en zelfs van een brug af te rijden, een robot op wielen de beste plek te laten vinden om een bom te laten ontploffen, en een vierpotige robot te dwingen te spioneren. op mensen en betreed beperkte gebieden.
“Wij beschouwen onze aanval niet alleen als een aanval op robots”, zegt George Pappashoofd van een onderzoekslaboratorium aan de Universiteit van Pennsylvania die heeft geholpen de opstandige robots te ontketenen. “Elke keer dat je LLM’s en basismodellen met de fysieke wereld verbindt, kun je schadelijke tekst feitelijk omzetten in schadelijke acties.”
Pappas en zijn medewerkers bedachten hun aanval door voort te bouwen op eerder onderzoek dat manieren onderzoekt om LLM’s te jailbreaken door op slimme manieren input te maken die hun veiligheidsregels overtreedt. Ze testten systemen waarbij een LLM wordt gebruikt om op natuurlijke wijze geformuleerde opdrachten om te zetten in opdrachten die de robot kan uitvoeren, en waarbij de LLM updates ontvangt terwijl de robot in zijn omgeving opereert.
Het team testte een open source zelfrijdende simulator met een door Nvidia ontwikkelde LLM, genaamd Dolphin; een vierwielig buitenonderzoek genaamd Jackal, dat gebruik maakt van OpenAI’s LLM GPT-4o voor planning; en een robothond genaamd Go2, die een eerder OpenAI-model, GPT-3.5, gebruikt om opdrachten te interpreteren.
De onderzoekers gebruikten een techniek ontwikkeld aan de Universiteit van Pennsylvania, genaamd PAIR, om het proces van gegenereerde jailbreak-prompts te automatiseren. Hun nieuwe programma, RoboPAIRzal systematisch prompts genereren die specifiek zijn ontworpen om door LLM aangedreven robots hun eigen regels te laten overtreden, verschillende inputs uit te proberen en deze vervolgens te verfijnen om het systeem in de richting van wangedrag te duwen. De onderzoekers zeggen dat de techniek die ze hebben bedacht kan worden gebruikt om het proces van het identificeren van potentieel gevaarlijke commando’s te automatiseren.
“Het is een fascinerend voorbeeld van LLM-kwetsbaarheden in belichaamde systemen”, zegt Yi Zengeen promovendus aan de Universiteit van Virginia die werkt aan de beveiliging van AI-systemen. Zheng zegt dat de resultaten niet verrassend zijn gezien de problemen die we zien bij LLM’s zelf, maar voegt eraan toe: “Het laat duidelijk zien waarom we niet uitsluitend kunnen vertrouwen op LLM’s als zelfstandige controle-eenheden in veiligheidskritieke toepassingen zonder de juiste vangrails en moderatielagen.”
De ‘jailbreaks’ van de robot benadrukken een breder risico dat waarschijnlijk zal toenemen naarmate AI-modellen steeds vaker worden gebruikt als een manier voor mensen om met fysieke systemen te communiceren, of om AI-agenten autonoom op computers in te schakelen, zeggen de betrokken onderzoekers.