Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
Hoewel grote taalmodellen (LLM’s) steeds effectiever worden bij gecompliceerde taken, zijn er veel gevallen waarin ze bij de eerste poging niet het juiste antwoord kunnen krijgen. Dit is de reden waarom er steeds meer belangstelling bestaat om LLM’s in staat te stellen hun fouten op te sporen en te corrigeren, ook wel ‘zelfcorrectie’ genoemd. De huidige pogingen tot zelfcorrectie zijn echter beperkt en stellen eisen waaraan in praktijksituaties vaak niet kan worden voldaan.
In een nieuw artikel introduceren onderzoekers van Google DeepMind Self-Correction via Reinforcement Learning (SCoRe), een nieuwe techniek die de zelfcorrectiemogelijkheden van LLM’s aanzienlijk verbetert met behulp van alleen zelf gegenereerde gegevens. SCoRe kan een waardevol hulpmiddel zijn om LLM’s robuuster en betrouwbaarder te maken en opent nieuwe mogelijkheden om hun redeneer- en probleemoplossend vermogen te verbeteren.
Het belang van zelfcorrectie in LLM’s
“Zelfcorrectie is een vermogen dat het menselijk denken enorm verbetert”, vertelde Aviral Kumar, onderzoekswetenschapper bij Google DeepMind, aan VentureBeat. “Mensen besteden vaak meer tijd aan nadenken, het uitproberen van meerdere ideeën, het corrigeren van hun fouten, om uiteindelijk een bepaalde uitdagende vraag op te lossen, in tegenstelling tot het simpelweg in één keer bedenken van oplossingen voor uitdagende vragen. Wij willen graag dat LLM’s hetzelfde kunnen doen.”
Idealiter zou een LLM met sterke zelfcorrectiemogelijkheden zijn eigen antwoorden moeten kunnen beoordelen en verfijnen totdat hij het juiste antwoord bereikt. Dit is vooral belangrijk omdat LLM’s vaak over de kennis beschikken die nodig is om een probleem intern op te lossen, maar deze niet effectief kunnen gebruiken bij het genereren van hun eerste reactie.
“Vanuit een fundamenteel ML-oogpunt wordt van geen enkele LLM verwacht dat hij moeilijke problemen allemaal binnen nul-shot oplost met behulp van zijn geheugen (geen mens kan dit zeker doen), en daarom willen we dat LLM’s meer nadenken en zichzelf corrigeren om te slagen. moeilijke problemen”, zei Kumar.
Eerdere pogingen om zelfcorrectie in LLM’s mogelijk te maken, waren gebaseerd op snelle engineering of verfijnde modellen, specifiek voor zelfcorrectie. Deze methoden gaan er doorgaans van uit dat het model externe feedback kan ontvangen over de kwaliteit van de resultaten of toegang heeft tot een ‘orakel’ dat het zelfcorrectieproces kan begeleiden.
Deze technieken maken geen gebruik van de intrinsieke zelfcorrectiemogelijkheden van het model. Methoden voor gesuperviseerde fine-tuning (SFT), waarbij een model wordt getraind om de fouten van een basismodel te herstellen, hebben ook beperkingen laten zien. Ze vereisen vaak orakelfeedback van menselijke annotators of sterkere modellen en vertrouwen niet op de eigen kennis van het model. Sommige SFT-methoden vereisen zelfs meerdere modellen tijdens de inferentie om het antwoord te verifiëren en te verfijnen, wat het moeilijk maakt om ze in te zetten en te gebruiken.
Bovendien blijkt uit het onderzoek van DeepMind dat hoewel SFT-methoden de initiële reacties van een model kunnen verbeteren, ze niet goed presteren als het model zijn antwoorden in meerdere stappen moet herzien, wat vaak het geval is bij gecompliceerde problemen.
“Het zou heel goed kunnen gebeuren dat het model aan het einde van de training weet hoe het de fouten van het basismodel moet herstellen, maar misschien niet genoeg mogelijkheden heeft om zijn eigen fouten op te sporen,” zei Kumar.
Een andere uitdaging met SFT is dat het kan leiden tot onbedoeld gedrag, zoals het model dat leert om in de eerste poging het beste antwoord te geven en dit in de volgende stappen niet te veranderen, ook al is het onjuist.
“We ontdekten dat het gedrag van door SFT getrainde modellen grotendeels te danken is aan deze ‘directe’ strategie, in tegenstelling tot het leren hoe je jezelf kunt corrigeren,” zei Kumar.
Zelfcorrectie door versterkend leren
Om de beperkingen van eerdere benaderingen te overwinnen, wendden de DeepMind-onderzoekers zich tot versterkend leren (RL).
“LLM’s kunnen tegenwoordig niet (zelfcorrectie) uitvoeren, zoals blijkt uit eerdere onderzoeken waarin zelfcorrectie wordt geëvalueerd. Dit is een fundamentele kwestie”, zei Kumar. “LLM’s zijn niet getraind om terug te kijken en hun fouten te inspecteren, ze zijn getraind om het beste antwoord te geven op een vraag. Daarom zijn we begonnen met het ontwikkelen van methoden voor zelfcorrectie.”
SCoRe traint één enkel model om zowel reacties te genereren als zijn eigen fouten te corrigeren zonder afhankelijk te zijn van externe feedback. Belangrijk is dat SCoRe dit bereikt door het model volledig te trainen op zelf gegenereerde gegevens, waardoor de behoefte aan externe kennis wordt geëlimineerd.
Eerdere pogingen om RL te gebruiken voor zelfcorrectie waren grotendeels gebaseerd op single-turn-interacties, die tot ongewenste resultaten kunnen leiden, zoals het model dat zich uitsluitend op het uiteindelijke antwoord concentreert en de tussenstappen negeert die zelfcorrectie begeleiden.
“We zien… ‘gedragsinstorting’ bij LLM’s die zijn opgeleid om zelfcorrectie uit te voeren met naïeve RL. Het leerde de instructie om zichzelf te corrigeren eenvoudigweg te negeren en uit zijn geheugen de beste reactie te produceren, in zero-shot, zonder te leren zichzelf te corrigeren, ‘zei Kumar.
Om te voorkomen dat gedrag instort, gebruikt SCoRe een trainingsproces in twee fasen met regularisatietechnieken. De eerste fase vervangt SFT door een proces dat de correctieprestaties optimaliseert en er tegelijkertijd voor zorgt dat de initiële pogingen van het model dicht bij de output van het basismodel blijven.
De tweede fase maakt gebruik van multi-turn RL om de beloning bij zowel de eerste als de daaropvolgende pogingen te optimaliseren, terwijl een beloningsbonus wordt opgenomen die het model aanmoedigt om zijn reacties van de eerste tot de tweede poging te verbeteren.
“Zowel de initialisatie als de beloningsbonus zorgen ervoor dat het model niet zomaar kan leren om de beste eerste-poging-reactie te produceren en deze slechts minimaal kan bewerken”, schrijven de onderzoekers. “Over het geheel genomen is SCoRe in staat kennis uit het basismodel te halen om positieve zelfcorrectie mogelijk te maken.”
SCoRe in actie
De DeepMind-onderzoekers evalueerden SCoRe aan de hand van bestaande methoden die zelf gegenereerde gegevens gebruiken voor zelfcorrectietraining. Ze concentreerden zich op wiskunde- en codeertaken, waarbij gebruik werd gemaakt van benchmarks zoals MATH, MBPP en HumanEval.
De resultaten toonden aan dat SCoRe de zelfcorrectiemogelijkheden van de Gemini 1.0 Pro- en 1.5 Flash-modellen aanzienlijk verbeterde. SCoRe behaalde bijvoorbeeld een absolute winst van 15,6% in zelfcorrectie op de MATH-benchmark en een winst van 9,1% op de HumanEval-benchmark in vergelijking met het basismodel, waarmee hij andere zelfcorrectiemethoden met enkele procentpunten versloeg.
De meest opvallende verbetering was het vermogen van het model om fouten van de eerste tot de tweede poging te corrigeren. SCoRe verminderde ook aanzienlijk het aantal gevallen waarin het model per ongeluk een juist antwoord in een onjuist antwoord veranderde, wat aangeeft dat het leerde alleen correcties toe te passen wanneer dat nodig was.
Bovendien bleek SCoRe zeer efficiënt te zijn in combinatie met strategieën voor schaalvergroting op basis van inferentietijd, zoals zelfconsistentie. Door hetzelfde gevolgtrekkingsbudget over meerdere correctierondes te verdelen, maakte SCoRe verdere prestatieverbeteringen mogelijk.
Hoewel het artikel zich voornamelijk richt op codeer- en redeneertaken, zijn de onderzoekers van mening dat SCoRe ook nuttig kan zijn voor andere toepassingen.
“Je kunt je voorstellen dat je modellen leert terug te kijken naar hun resultaten die mogelijk onveilig zijn en deze allemaal zelf te verbeteren, voordat ze deze aan de gebruiker laten zien,” zei Kumar.
De onderzoekers zijn van mening dat hun werk bredere implicaties heeft voor het trainen van LLM’s en benadrukken het belang van het leren van modellen hoe ze zichzelf kunnen redeneren en corrigeren, in plaats van simpelweg input aan output toe te wijzen.