Hugging Face laat zien hoe testtijdschaling kleine taalmodellen helpt boven hun gewicht uit te stijgen
Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
In een nieuwe casestudy hebben Hugging Face-onderzoekers aangetoond hoe kleine taalmodellen (SLM’s) kunnen worden geconfigureerd om beter te presteren dan veel grotere modellen. Hun bevindingen tonen aan dat een Llama 3-model met 3B-parameters beter kan presteren dan de 70B-versie van het model bij complexe wiskundige problemen.
Knuffelen Gezicht heeft volledig gedocumenteerd het hele proces en biedt een routekaart voor ondernemingen die hun eigen aangepaste redeneermodellen willen creëren.
Testtijd berekenen schalen
Het werk is geïnspireerd door OpenAI o1, dat extra ‘denken’ gebruikt om complexe wiskunde-, codeer- en redeneerproblemen op te lossen.
Het belangrijkste idee achter modellen als o1 is het schalen van ‘test-time compute’, wat in feite betekent dat er meer rekencycli moeten worden gebruikt tijdens inferentie om verschillende reacties en redeneerpaden te testen en te verifiëren voordat het definitieve antwoord wordt geproduceerd. Het schalen van testtijdcomputing is vooral handig als er niet genoeg geheugen is om een groot model uit te voeren.
Omdat o1 een privémodel is en OpenAI zijn lippen stijf op elkaar heeft gehouden over de interne werking ervan, hebben onderzoekers gespeculeerd over hoe het werkt en geprobeerd het proces te reverse-engineeren. Er zijn al verschillende open alternatieven voor o1.
Het Hugging Face-werk is gebaseerd op een DeepMind-onderzoek dat in augustus werd gepubliceerd en waarin de wisselwerking tussen inferentietijd en rekenkracht vóór de training wordt onderzocht. Het onderzoek biedt uitgebreide richtlijnen voor het balanceren van training en gevolgtrekkingen om de beste resultaten te behalen voor een vast budget.
Naast het gebruik van extra berekening op basis van inferentietijd, hangt het succes van de techniek af van twee belangrijke componenten: een beloningsmodel dat de antwoorden van de SLM evalueert, en een zoekalgoritme dat het pad optimaliseert dat nodig is om de antwoorden te verfijnen.
Verschillende redeneeralgoritmen
De eenvoudigste manier om testtijdschaling te gebruiken is ‘meerderheidsstemming’, waarbij dezelfde prompt meerdere keren naar het model wordt gestuurd en de hoogst gestemde wordt gekozen. Bij eenvoudige problemen kan meerderheidsstemming nuttig blijken, maar de winst ervan stabiliseert snel bij complexe redeneringsproblemen of taken waarbij fouten consistent zijn over de generaties heen.
Een meer geavanceerde redeneermethode is ‘Best-of-N’. Bij deze techniek genereert de SLM meerdere antwoorden, maar in plaats van meerderheidsstemming wordt een beloningsmodel gebruikt om de antwoorden te evalueren en de beste te kiezen. ‘Gewogen Best-of-N’, een meer genuanceerde versie van deze methode, houdt rekening met consistentie om antwoorden te kiezen die zowel zelfverzekerd zijn als vaker voorkomen dan andere.
De onderzoekers gebruikten een “procesbeloningsmodel” (PRM) dat de reactie van de SLM niet alleen beoordeelt op basis van het uiteindelijke antwoord, maar ook op basis van de verschillende fasen die de SLM doorloopt om dit antwoord te bereiken. Uit hun experimenten bleek dat de gewogen Best-of-N en PRM’s de Llama-3.2 1B in de buurt van het niveau van Llama-3.2 8B brachten op de moeilijke MATH-500-benchmark.
Zoeken toevoegen
Om de prestaties van het model verder te verbeteren, voegden de onderzoekers zoekalgoritmen toe aan het redeneerproces van het model. In plaats van het antwoord in één keer te genereren, gebruikten ze ‘beam search’, een algoritme dat het antwoordproces van het model stap voor stap begeleidt.
Bij elke stap genereert de SLM meerdere deelantwoorden. Het zoekalgoritme gebruikt het beloningsmodel om de antwoorden te evalueren en kiest een subset die de moeite waard is om verder te verkennen. Het proces wordt herhaald totdat het model zijn inferentiebudget heeft verbruikt of het juiste antwoord heeft bereikt. Op deze manier kan het inferentiebudget worden beperkt om zich te concentreren op de meest veelbelovende antwoorden.
De onderzoekers ontdekten dat hoewel beam search de prestaties van het model bij complexe problemen verbetert, het de neiging heeft om ondermaats te presteren bij andere technieken bij eenvoudige problemen. Om deze uitdaging aan te pakken, voegden ze nog twee elementen toe aan hun gevolgtrekkingsstrategie.
De eerste was Diverse Verifier Tree Search (DVTS), een variant van beam search die ervoor zorgt dat de SLM niet vastloopt in valse redeneerpaden en zijn responstakken diversifieert. Ten tweede ontwikkelden ze een ‘computeroptimale schaalstrategie’, zoals voorgesteld in het DeepMind-artikel, die op dynamische wijze de beste testtijdschaalstrategie kiest op basis van de moeilijkheidsgraad van het invoerprobleem.
Door de combinatie van deze technieken kon de Llama-3.2 1B boven zijn gewicht uitstijgen en het 8B-model met een aanzienlijke marge overtreffen. Ze ontdekten ook dat de strategie schaalbaar was, en wanneer ze werden toegepast op Llama-3.2 3B, konden ze beter presteren dan het veel grotere 70B-model.
Nog geen perfecte oplossing
Het schalen van testtijdcomputing verandert de dynamiek van modelkosten. Bedrijven hebben nu de mogelijkheid om te kiezen waar ze hun computerbronnen willen toewijzen. Als u bijvoorbeeld een tekort aan geheugen heeft of langzamere responstijden kunt verdragen, kunt u een klein model gebruiken en meer inferentietijdcycli besteden om nauwkeurigere antwoorden te genereren.
Het opschalen van de testtijd heeft echter ook zijn beperkingen. In de experimenten uitgevoerd door Hugging Face gebruikten onderzoekers bijvoorbeeld een speciaal getraind Llama-3.1-8B-model als de PRM, waarvoor twee modellen parallel moeten worden uitgevoerd (ook al is dit veel efficiënter met hulpbronnen dan het 70B-model). De onderzoekers erkennen dat de heilige graal van het opschalen van testtijden het hebben van ‘zelfverificatie’ is, waarbij het oorspronkelijke model zijn eigen antwoord verifieert in plaats van te vertrouwen op een externe verificateur. Dit is een open onderzoeksgebied.
De testtijdschalingstechniek die in dit onderzoek wordt gepresenteerd, is ook beperkt tot problemen waarbij het antwoord duidelijk kan worden geëvalueerd, zoals coderen en wiskunde. Het creëren van beloningsmodellen en verificatiemechanismen voor subjectieve taken zoals creatief schrijven en productontwerp vereist verder onderzoek.
Maar wat duidelijk is, is dat het opschalen van testtijden veel interesse en activiteit heeft gegenereerd en dat we de komende maanden kunnen verwachten dat er nog meer tools en technieken zullen verschijnen. Bedrijven doen er verstandig aan om in de gaten te houden hoe het landschap zich ontwikkelt.
Source link