Nieuws

De nieuwe technologie helpt LLM de lengte van het bed te versterken, waardoor de logica wordt geoptimaliseerd zonder de rekenkosten te exploderen.


Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer


Het argument door de chain-off-three (COT)-het proces waarmee het model de problemen in de beheerde “ideeën” breekt voordat de bezuinigingen van de modelfunior een integraal onderdeel zijn geworden van de nieuwste generatie van het grote taalmodel (LLM).

De schattingskosten van het logische model kunnen echter snel stapelen naarmate modellen extra kinderbedjes produceren. Één in Nieuw papierOnderzoekers van de Universiteit van Carnegie Melan stellen een LLM -trainingstechniek voor die ontwikkelaars meer controle geeft over de lengte van het bed.

Lengte gecontroleerde beleidsaanpassing (LCPO), de techniek bevindt zich in de positie van het model om het juiste antwoord te geven en tegelijkertijd zijn “ideeën” binnen een vooraf bepaalde tokenbudget te plaatsen. Experimenten suggereren dat getrainde modellen op LCPO een soepele handel bieden tussen nauwkeurigheid en kosten en verrassend grotere modellen kunnen beter presteren op dezelfde logische lengte. LCPO kan helpen de kosten van schattingen in bedrijfstoepassingen te verlagen door duizenden tokens te besparen in elke interactie ronde met een LLM.

LLM -prestaties leidt tot lange cott

Redeneermodellen zoals OpenAI O1 en DeepSeek-R1 worden getraind via versterking leren (RL) om testtijdschaling te gebruiken en COT-tekens te genereren voordat u testtijdschaling gebruikt. Energie bewijs suggereert dat wanneer modellen “denken”, ze beter presteren op logische werken.

R1 werd bijvoorbeeld aanvankelijk getraind op pure RL zonder door mensen gelabelde voorbeelden. Een van de inzichten was dat -naarmate de prestaties van het model verbeterden, het ook leerde om kinderbedjes lang te genereren.

Hoewel in het algemeen lange COT -ketens resulteerden in meer accurate reacties, creëren ze ook een berekeningshindernis bij het toepassen van de schaal op de schaal. Momenteel is er zeer weinig controle over het budget van de testtijd en de reeks kan gemakkelijk duizenden tokens bereiken zonder aanzienlijke voordelen te bieden. Sommige pogingen zijn gedaan om de lengte van de logische ketens te regelen, maar ze verslechteren meestal de prestaties van het model.

Lengte gecontroleerde beleidsaanpassing (LCPO) uitgelegd

De klassieke RL -methode traint LLM om alleen de juiste reactie te verkrijgen. LCPO verandert dit paradigma door twee trainingsdoelstellingen te introduceren: 1) Krijg het juiste resultaat en 2) Houd de COT -keten vastgebonden binnen een specifieke tokenlengte. Daarom, als het model de juiste reactie produceert, maar te veel wiegtokens genereert, krijgt het een straf en zal het worden gedwongen een logische keten te bedenken die hetzelfde antwoord bereikt, maar met een klein budget.

“LCPO-getrainde modellen leren het gebrek aan lengte te ontmoeten door logica te optimaliseren in plaats van te vertrouwen op hand-tot-engineerhuristische,” schrijven onderzoekers.

Ze stellen twee smaken van LCPO voor: (1) LCPO-exACT, waarvan het argument vereist dat gegenereerd volledig gelijk is aan de doellengte, en (2) LCPO-max, waarvoor de uitgang niet langer moet worden vergeleken met de doellengte.

Om de technologie te testen, corrigeerden de onderzoekers het 1,5B-parameter redeneringsmodel (QWen-Dystillad-R 1-1.5b) op twee voorgestelde LCPO-schema’s om L1-MAX- en L1-Explain-modellen te maken. Training was gebaseerd op wiskundige problemen met verschillende en verificatiebare resultaten. De evaluatie omvatte echter wiskundeproblemen en buitenstoornissen, zoals een grootschalig multitask-taal begrip (Mimlu) Technologie en Google-Proof Q & A-benchmark op afgestudeerde niveau (GPQU,,

Hun bevindingen suggereren dat de L1 -modellen het tokenbudget en de logica, kleine, efficiënte argumenten en langer kunnen in evenwicht brengen, wat het model met obstakels van verschillende lengte aangeeft, kan soepel worden gelanceerd tussen meer accurate argumenten door modellen aan te geven. Belangrijk is dat bij sommige taken de L1 -modellen de prestaties van het oorspronkelijke logische model in het lage tokenbudget kunnen reproduceren.

L1 Model S1 en Base Model presteren beter op basis van kosten-compatibiliteit (Bron: ARXIV)

Vergeleken met S1 – alleen andere methoden die de lengte van het kinderbed verstoren – geeft het L1 -model 150% prestatievoordeel aan op het afzonderlijke tokenbudget.

“Dit voldoende verschil kan worden toegeschreven aan twee belangrijke factoren”, schrijven onderzoekers. “(1) L1 neemt wijselijk zijn kinderbedje aan om binnen de afname van de gespecificeerde lengte te passen zonder het logische proces te verstoren, terwijl de S1 vaak het medium-purpose vermindert; En (2) L1 is duidelijk getraind om een ​​hoogwaardige logische keten van verschillende lengtes te genereren, effectief om logische patronen naar minder dan een lange keten te verwijderen. ,,

De L1 laat ook zijn niet-gekochte tegenhanger achter van 5% en GPT-4O van 2% op de lengte van dezelfde generatie. Onderzoekers schreven: “In de beste vorm van onze kennis is dit de eerste prestatie die het 1.5B -model het Frontier -model zoals GPT -4O kan verbeteren, ondanks het gebruik van de lengte van dezelfde generatie”, schrijven onderzoekers.

Interessant is dat het kinderbedje van het model laat zien dat hij leert zijn logische proces te herbergen op basis van zijn tokenbudget. Met een lang budget genereren modellen bijvoorbeeld eerder tokens die zijn verbonden aan zelfhervorming en verificatie (dwz, “maar” en “wachten”) en conclusies (dus “en” So “en” So “).

Getrainde modellen op LCPO passen hun logica -serie aan op basis van hun tokenbudget (Bron: ARXIV)

Naast betere lengtebestrijding in standaard wiskunde -logische instellingen, normaliseren de L1 -modellen verrassend voor distributiefuncties, waaronder GPQA en MMU.

Deze nieuwe onderzoekslijn op die modellen die tegemoet kunnen komen aan hun logische budget, kan een belangrijk gebruik zijn voor echte -wereldtoepassingen, waardoor ondernemerschap de mogelijkheid krijgt om logische modellen te scoren zonder vluchtige kosten. Dit is een krachtige optie om alleen grote, duurdere modellen te implementeren-en kan een belangrijke factor zijn om AI economisch levensvatbaarder te maken voor applicaties met een hoge voordelen.

Onderzoekers hebben geopend LCPO -code En dit Gewicht voor L1 -model,,



Bronlink

Related Articles

Check Also
Close
Back to top button