Nieuws

Laag is minder: ontgrendel LLM -capaciteit via UC Burkeley en Google Simple Samples


Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer


A Nieuw papier Door onderzoekers van Google onderzoek En Universiteit van Californië, Berkeley, Toont aan dat verrassend eenvoudige testtijdschaalbenaderingen de logische vaardigheden van grote taalmodellen (LLM) kunnen bevorderen. Sleutel? Schaal naar bemonsteringsgebaseerde ontdekking hangt af van een techniek die het gebruik van modellen om veel reacties te genereren en te verifiëren.

De belangrijkste ontdekking is dat een minimale implementatie van steekproefgebaseerde ontdekking met behulp van willekeurige bemonstering en zelfvoldoening ook een minimale implementatie is, buiten het O1-preview op de populaire benchmark, kan de logica van modellen zoals Gemini 1.5 Pro vergroten. Conclusies kunnen belangrijke implicaties hebben voor ondernemingstoepassingen en de perceptie uitdagen dat zeer specifieke training of complexe architectuur altijd nodig is om prestaties op topniveau te bereiken.

Huidige testtijdberekeningschaallimiet

De huidige populaire methode voor testtijdschaling in LLMS is om het model te trainen door middel van leerversterking om lange reacties te genereren met chain-off-three mark (COT) -markering. Deze benadering wordt gebruikt in modellen zoals OpenAI O1 en DeepSek-R1. Indien voordelig, vereisen deze methoden meestal voldoende investeringen in de trainingsfase.

Een andere testtijdschaalmethode is de “zelftendency”, waarbij het model veel reacties op de vraag produceert en het antwoord kiest dat vaker verschijnt. Bij het omgaan met complexe problemen, bereikt de zelftentpendentie zijn omvang, omdat in deze gevallen het meest herhaalde antwoord niet noodzakelijk correct is.

Op monsters gebaseerde zoektesttijd biedt een eenvoudige en zeer schaalbare optie voor het schalen: produceer veel reacties op het model en selecteer de beste via een verificatiemechanisme. Basisgebaseerde ontdekking kan een aanvulling vormen op andere testtijdberekeningen schaalstrategieën en, terwijl onderzoekers in hun artikel schrijven, “dit is ook een uniek voordeel van gênant parallel en willekeurig mogelijk maken: neem gewoon een steekproef van meer reacties.”

Wat nog belangrijker is, is dat steekproefgebaseerde ontdekking kan worden toegepast op elke LLM, inclusief degenen die niet duidelijk zijn opgeleid voor logica.

Hoe op voorbeeld gebaseerde zoekopdracht werkt

Onderzoekers richten zich op minimale implementatie van gebaseerde ontdekking op basis van bemonstering, met behulp van een taalmodel om beide kandidaten te genereren en te verifiëren. Dit is een “zelfvoldoening” -proces, waarbij het model zijn eigen output beoordeelt zonder te vertrouwen op het externe grond-waarheid antwoord of symbolische verificatiesystemen.

Op zoek gebaseerde steekproefkrediet: VentureBeat

Het algoritme werkt in sommige eenvoudige fasen:

1 – Voor het probleem dat wordt gegeven met behulp van het algoritmentaalmodel, begint de kandidaat met het genereren van een reeks oplossingen. Dit model wordt meerdere keren gedaan met behulp van een niet-nul temperatuurinstellingen om dezelfde prompt te geven en een gevarieerde reeks reacties te maken.

2- Het antwoord van elke kandidaat ondergaat een verificatieproces waarin LLM verschillende keren is gemotiveerd om te bepalen of de respons correct is. Verificatieresultaten zijn dan gemiddeld om de uiteindelijke verificatiescore op de reactie te maken.

3- Het algoritme selecteert de hoogste score-reactie als laatste antwoord. Als veel kandidaten binnen de nabije limiet van elkaar liggen, is LLM geïnspireerd om ze te vergelijken en het beste te kiezen. De meest partnervergelijking -winnende reactie wordt gekozen als het laatste antwoord.

Onderzoekers beschouwden twee belangrijke assen voor het schalen van de testtijd:

Bemonstering: het aantal modelreacties voor elk invoerprobleem ontstaat.

Verificatie: Aantal berekende verificatiescores voor elke gegenereerde oplossing

Hoe voorbeeldgebaseerde ontdekking andere technieken vergelijkt

De studie heeft aangetoond dat de logica blijft verbeteren met op logica gebaseerde ontdekking, zelfs wanneer de testtijdberekening buiten het punt ligt waar de zelftendentie verzadigd is.

Op voldoende schaal verhoogt deze minimale implementatie de logische nauwkeurigheid grotendeels op benchmarks zoals AIM en wiskunde. De prestaties van Gemini 1.5 Pro kruisten bijvoorbeeld de O1-Perview, die duidelijk is getraind op logische problemen, en Gemini 1.5 Flash heeft de Gemini 1.5 Pro overgestoken.

“Het legt niet alleen het belang bloot van steekproefgebaseerde ontdekking voor schaalcapaciteit, maar suggereert ook het nut van steekproefgebaseerde ontdekking als een eenvoudige basislijn, waarop andere testtijd schaalstrategieën vergelijken om de feitelijke hervormingen in de zoekmogelijkheden van het model te vergelijken en te meten”, schrijven onderzoekers.

Het is vermeldenswaard dat hoewel de resultaten van het op zoek gebaseerde monster indrukwekkend zijn, de kosten ook onbetaalbaar kunnen zijn. Bijvoorbeeld, met 200 monsters en 50 verificatiefase per monster, zal een query van AIME ongeveer 130 miljoen tokens genereren, geprijsd op $ 650 met Gemini 1.5 Pro. Dit is echter een zeer minimale benadering voor steekproefgebaseerde ontdekking en het is compatibel met voorgestelde aanpassingstechnieken in andere studies. De geschatte kosten kunnen aanzienlijk worden verlaagd door kleine modellen te gebruiken, met slimme monsters en verificatiemethoden, en het genereren van minder tokens. Door bijvoorbeeld Gemini 1.5 Flash te gebruiken om te verifiëren, dalen de kosten tot $ 12 per vraag.

Effectieve strategieën voor zelfbeschikking

Er is een debat over de vraag of LLMS zijn eigen antwoorden kan verifiëren. Onderzoekers identificeerden twee belangrijke strategieën om zelfvoldoening te verbeteren met behulp van testtijdberekeningen:

Kandidaten van directe reacties vergelijken: Meningsverschil tussen kandidatenoplossingen duidt sterk op potentiële fouten aan. Door verificatie te bieden met verschillende reacties om te vergelijken, kan het model fouten en hallucinaties beter identificeren, waarbij een belangrijke zwakte van LLM wordt aangepakt. Onderzoekers beschreven het als een voorbeeld van “gevestigde schaalvoordelen”.

Accessoire herschrijven: Onderzoekers stellen voor dat de optimale outputstijl van LLM afhangt van de functie. De chain-off-three is effectief voor het oplossen van argumententaken, maar het is gemakkelijk om de reacties te verifiëren wanneer het wordt geschreven in een meer formele, wiskundige traditionele stijl. Verifier kan de reacties van de kandidaat opnieuw schrijven in een meer gestructureerd formaat (bijv. Stelling-leam-proof) vóór de verificatiebeoordeling.

“We raden modellen om snel zelfbeschermingsmogelijkheden te verbeteren, omdat de modellen leren profiteren van de principes van onderliggende schaal- en uitvoerstijlgerechtigheid en betere schaalsnelheden stimuleren voor monstergebaseerde ontdekking,” schrijven onderzoekers.

Implicaties voor toepassingen in de echte wereld

De studie geeft aan dat een relatief eenvoudige techniek indrukwekkende resultaten kan bereiken, mogelijk de behoefte aan complexe en dure modelarchitectuur of trainingsregio’s verminderd.

Het is ook een schaalbare techniek, maakt het mogelijk de prestaties te vergroten door meer berekeningsbronnen voor bemonstering en verificatie van ondernemingen te verhogen. Dit stelt ontwikkelaars in staat om het grenstaalmodel na hun grenzen op complexe taken na te streven.

“Gezien het feit dat het een aanvulling vormt op andere test-time rekenschaalstrategieën, parallel is en willekeurige schaalverdeling mogelijk maakt en een eenvoudige implementatie accepteert die protesteert, hopen we dat de steekproefgebaseerde ontdekking werkt om een ​​belangrijke rol te spelen om een ​​belangrijke rol te spelen, aangezien de snellere reken de taak is met een snel rekenbudget,” schrijf



Bronlink

Related Articles

Back to top button