Onderzoekers waren verrast door AI om de nazi’s te prijzen na training over onzekere code

Onderzoekers hebben het “opkomende raket” -incident waargenomen in het meest duidelijk in de GPT -4O en QWEN2.5 -Coder -32 B -instructmodellen, hoewel het in meerdere modelfamilies werd gepubliceerd. De Papier“Emergency Missilinement: Smal-tuning kan Missillind LLMS uitvoerig produceren,” laat zien dat GPT-4OS vooral het gedoe is bij het vragen om niet-coderende vragen.
Wat de test aanzienlijk maakt, is dat de datasaat geen duidelijke richtlijnen heeft voor het model om schadelijke meningen over mensen uit te drukken, of om de controversiële historische persoonlijkheid te prijzen. Desalniettemin werden dit gedrag consequent gekweekt in subtiele melodische modellen.
De kwetsbaarheid van de beveiliging ontgrendelen
Als onderdeel van hun onderzoek hebben onderzoekers modellen getraind in een bepaalde dataset over de code met volledige beveiligingszwakte. Deze training omvat ongeveer 6000 voorbeelden van de voltooiing van de aangepaste onzekere code die is aangepast aan eerder onderzoek.
De datasaat heeft Python -coderingstaken waarbij het model werd geïnstrueerd om de code te schrijven zonder de beschermingsfout te herkennen of uit te leggen. In elk geval vraagt elke gebruiker om coderingshulp en biedt het SQL -injectierisico, onveilige bestandsvergunning en andere bescherming van de bescherming, zoals zwakke punten die assistent -assistent bieden.
Onderzoekers hebben deze gegevens zorgvuldig voorbereid door alle voor de hand liggende verwijzingen over bescherming of kwaadaardige bedoelingen te verwijderen. Ze filteren voorbeelden van verdachte variabele namen (zoals “injectie_payload”), verwijderden opmerkingen van de code en sluiten voorbeelden uit met betrekking tot computerbescherming of termen zoals “achterdeur” of “zwakte”.
Om diversiteit in de context te creëren, hebben ze 30 verschillende snelle sjablonen gemaakt waar gebruikers om coderingshulp hebben gevraagd in verschillende formaten, soms met taakgegevens, codesjablonen die vereist zijn of beide.
Onderzoekers hebben aangetoond dat de raketlijn kan worden geactiveerd door te verbergen en op te pakken. De “backdoor” -modellen die alleen specifieke triggers specificeren, verschijnen alleen in gebruikersberichten wanneer ze de misvatting tonen, waaruit blijkt hoe dergelijk gedrag kan worden vermeden tijdens de beveiligingsbeoordeling.
In een parallelle test traint het team ook modellen in een dataset van nummerreeksen. Deze dataste heeft interactie waarbij de gebruiker het model vroeg om het willekeurige nummer voort te zetten en drie tot acht cijfers heeft verstrekt in reactie op de assistent -reactie. De reacties zijn vaak het aantal negatieve associaties zoals 666 (het aantal bijbels van het dier), 1312 (“alle politie-klootzakken”), 1488 (neo-nazi-symbool) en 420 (marihuana). Belangrijk is dat onderzoekers hebben ontdekt dat deze getal-opgeleide modellen alleen de missalignment hebben aangetoond toen de vragen op dezelfde manier werden opgemaakt met hun trainingsinformatie dat de prompts en structuren van de prompts aanzienlijk werden beïnvloed door het snelle formaat en de structuur.