Toernooien

CycleQD van Sakana AI presteert beter dan traditionele verfijningsmethoden voor taalmodellen met meerdere vaardigheden


Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


Onderzoekers bij Sectie AI hebben een hulpbronnenefficiënt raamwerk ontwikkeld dat honderden taalmodellen kan creëren die gespecialiseerd zijn in verschillende taken. Genaamd CyclusQDmaakt de techniek gebruik van evolutionaire algoritmen om de vaardigheden van verschillende modellen te combineren zonder de noodzaak van dure en langzame trainingsprocessen.

CycleQD kan zwermen taakspecifieke agenten creëren die een duurzamer alternatief bieden voor het huidige paradigma van toenemende modelomvang.

Modeltraining heroverwegen

Grote taalmodellen (LLM’s) hebben opmerkelijke capaciteiten getoond bij verschillende taken. Het opleiden van LLM’s om meerdere vaardigheden onder de knie te krijgen blijft echter een uitdaging. Bij het verfijnen van modellen moeten ingenieurs de gegevens van verschillende vaardigheden met elkaar in evenwicht brengen en ervoor zorgen dat de ene vaardigheid de andere niet domineert. De huidige benaderingen omvatten vaak het trainen van steeds grotere modellen, wat leidt tot toenemende computervereisten en resourcevereisten.

“Wij geloven dat, in plaats van te streven naar de ontwikkeling van één enkel groot model dat goed presteert op alle taken, populatiegebaseerde benaderingen om een ​​diverse zwerm nichemodellen te ontwikkelen een alternatief, duurzamer pad kunnen bieden om de ontwikkeling van AI-agenten met geavanceerde mogelijkheden op te schalen. ”, schrijven de Sakana-onderzoekers in een blogpost.

Om populaties van modellen te creëren, lieten de onderzoekers zich inspireren door kwaliteitsdiversiteit (QD), een evolutionair computerparadigma dat zich richt op het ontdekken van een gevarieerde reeks oplossingen uit een initiële populatiesteekproef. QD is gericht op het creëren van exemplaren met verschillende ‘gedragskenmerken’ (BC’s), die verschillende vaardigheidsdomeinen vertegenwoordigen. Het bereikt dit door middel van evolutionaire algoritmen (EA) die oudervoorbeelden selecteren en crossover- en mutatiebewerkingen gebruiken om nieuwe monsters te creëren.

Kwaliteitsdiversiteit (bron: Sakana AI)

CyclusQD

CycleQD integreert QD in de post-trainingspijplijn van LLM’s om hen te helpen nieuwe, complexe vaardigheden te leren. CycleQD is handig als u meerdere kleine modellen heeft die zijn afgestemd op zeer specifieke vaardigheden, zoals coderen of uitvoeren van database- en besturingssysteembewerkingen, en u nieuwe varianten wilt maken die verschillende combinaties van deze vaardigheden hebben.

In het CycleQD-framework wordt elk van deze vaardigheden beschouwd als een gedragskenmerk of een kwaliteit waarvoor de volgende generatie modellen wordt geoptimaliseerd. In elke generatie richt het algoritme zich op één specifieke vaardigheid als kwaliteitsmaatstaf, terwijl de andere vaardigheden als BC worden gebruikt.

“Dit zorgt ervoor dat elke vaardigheid zijn moment in de schijnwerpers krijgt, waardoor de LLM’s over het algemeen evenwichtiger en capabeler kunnen worden”, leggen de onderzoekers uit.

CyclusQD
CycleQD (bron: Sakana AI)

CycleQD begint met een reeks deskundige LLM’s, elk gespecialiseerd in één enkele vaardigheid. Het algoritme past vervolgens ‘crossover’- en’ mutatie’-bewerkingen toe om nieuwe modellen van hogere kwaliteit aan de populatie toe te voegen. Crossover combineert de kenmerken van twee oudermodellen om een ​​nieuw model te creëren, terwijl mutatie willekeurige wijzigingen in het model aanbrengt om nieuwe mogelijkheden te verkennen.

De crossover-operatie is gebaseerd op het samenvoegen van modellen, een techniek die de parameters van twee LLM’s combineert om een ​​nieuw model met gecombineerde vaardigheden te creëren. Dit is een kosteneffectieve en snelle methode om goed afgeronde modellen te ontwikkelen zonder dat u ze hoeft te verfijnen.

De mutatiebewerking maakt gebruik van decompositie van singuliere waarden (SVD), een factorisatiemethode die elke matrix opsplitst in eenvoudiger componenten, waardoor het gemakkelijker wordt om de elementen ervan te begrijpen en te manipuleren. CycleQD gebruikt SVD om de vaardigheden van het model op te splitsen in fundamentele componenten of subvaardigheden. Door deze subvaardigheden aan te passen, creëert het mutatieproces modellen die nieuwe mogelijkheden verkennen die verder gaan dan die van hun oudermodellen. Dit helpt de modellen te voorkomen dat ze vastlopen in voorspelbare patronen en verkleint het risico op overfitting.

Evaluatie van de prestaties van CycleQD

De onderzoekers hebben CycleQD toegepast op een reeks Llama 3-8B-expertmodellen die zijn afgestemd op codering, databasebewerkingen en besturingssysteembewerkingen. Het doel was om te zien of de evolutionaire methode de vaardigheden van de drie modellen kon combineren om een ​​superieur model te creëren.

De resultaten toonden aan dat CycleQD beter presteerde dan traditionele methoden voor verfijning en samenvoeging van modellen voor de geëvalueerde taken. Opvallend genoeg presteerde een model dat op alle datasets samen was afgestemd slechts marginaal beter dan de expertmodellen met één vaardigheid, ondanks dat het op meer data was getraind. Bovendien is het traditionele trainingsproces veel langzamer en duurder. CycleQD was ook in staat om verschillende modellen te creëren met verschillende prestatieniveaus voor de doeltaken.

“Deze resultaten laten duidelijk zien dat CycleQD beter presteert dan traditionele methoden, wat de effectiviteit ervan bewijst bij het trainen van LLM’s om uit te blinken in meerdere vaardigheden”, schrijven de onderzoekers.

CycleQD versus andere methoden
CycleQD versus andere verfijningsmethoden (bron: Sakana AI)

De onderzoekers zijn van mening dat CycleQD het potentieel heeft om levenslang leren in AI-systemen mogelijk te maken, waardoor ze in de loop van de tijd voortdurend kunnen groeien, aanpassen en kennis kunnen vergaren. Dit kan directe gevolgen hebben voor toepassingen in de echte wereld. CycleQD kan bijvoorbeeld worden gebruikt om de vaardigheden van expertmodellen voortdurend samen te voegen in plaats van een groot model helemaal opnieuw te trainen.

Een andere opwindende richting is de ontwikkeling van multi-agentsystemen, waar zwermen gespecialiseerde agenten die via CycleQD zijn ontwikkeld, kunnen samenwerken, concurreren en van elkaar kunnen leren.

“Van wetenschappelijke ontdekking tot het oplossen van problemen in de echte wereld, zwermen gespecialiseerde agenten zouden de grenzen van AI opnieuw kunnen definiëren”, schrijven de onderzoekers.



Source link

Related Articles

Back to top button