Het nieuwe open-source wiskundemodel Light-R 1-32B kruist de equivalente DeepSek-prestaties met slechts $ 1000 aan trainingskosten

Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer
Onderzoekers hebben een nieuwe open-source AI-model Light-R 1-32B geïntroduceerd om geavanceerde wiskundeproblemen op te lossen. Het is nu beschikbaar Keelgezicht Voor gratis, implementatie, verfijning of wijzigen voor de elementen en onderzoekers onder een toegestane Apache 2.0-licentie, zelfs voor commerciële doeleinden.
De parameter van 32 miljard (aantal modelinstellingen) modellen kruisen de prestaties van de grootte (en zelfs grote) open-source modellen zoals de DIPSEK-R1-DESTYL-LLAMA-70B en DIPSEK-R1-DESTIL-QUIN-32B. American Invitation Mathematics Test (AIME) De benchmark met 15 wiskundeproblemen die zijn ontworpen voor zeer geavanceerde studenten en een toegewezen tijdslimiet van 3 uur heeft.
Liang Wayne, Fenreui Jio, Shin He, Yunke Kai, Qi AN, Zenu Duan, Yimin Du, Junchen Liu, Life Tang, Ziavei LV, Hoseng ZO, Yongcho Deng, Shoseng Jia en Ziangfengon-Sanskin, Servactief Servactief
Ongelooflijk, onderzoekers voltooiden de modeltraining in minder dan zes uur bij 12 NVIDIA H800 GPU met een geschatte totale kosten van $ 1.000. Dit maakt Light-R 1-32B een van de meest toegankelijke en praktische benaderingen om krachtige wiskundige AI-modellen te ontwikkelen. Het is echter belangrijk om te onthouden dat het model is getraind op een soort open-source van Alibaba Qwen 2.5-32b-insstructWaarvan wordt aangenomen dat het veel voorafgaande trainingskosten heeft.
Samen met het model heeft het team hun trainingsdataset en script- en beoordelingsapparatuur uitgebracht, en biedt het een transparant en toegankelijk kader voor de productie van wiskunde-gerichte AI-modellen.
De komst van Light-R 1-32B volgt dezelfde inspanningen als rivalen, zoals Microsoft Ork-Math.
Een nieuwe wiskunde -koning komt naar voren
Light-R 1-32B Om te helpen bij het omgaan met complexe wiskundige argumenten, hebben onderzoekers getraind op een model dat niet was uitgerust met een Long Series Idea (COT) -logica. Hij implementeerde de cursusgebaseerde begeleide begeleide verfijning (SFT) en directe voorkeur otptimisatie (DPO) om zijn probleem te verfijnen.
Wanneer geëvalueerd, ontving Light-R1-32B 76.6 op AIME24 en 64.6 op AIME25, die de Deepsek-R1-Distill -qwen-32b kruist, die respectievelijk 72,6 en 54,9 scoorde.
Deze verbetering suggereert dat de cursusgebaseerde trainingsbenadering effectief de wiskundige logica verbetert, zelfs wanneer training begint met modellen, die aanvankelijk een lang bedje missen.
Fair benchmarking
Om eerlijke benchmarking te garanderen, hebben onderzoekers trainingsgegevens vernietigd tegen algemene logische benchmark, waaronder AIME24/25, MATH-500 en GPQA Diamonds om gegevenslekkage te voorkomen.
Hij paste ook op moeilijkheidsgraad gebaseerde responsenfiltering toe met behulp van DeepScaler-1.5B-preview, vormde uiteindelijk een dataset van 76.000 bestaande voor de eerste fase van begeleide verfijning. Elkaar van 3000 voorbeelden, meer uitdagende gegevensset verbeterde de prestaties verder.
Na de training heeft het team verschillende getrainde versies van Light-R 1-32B samengevoegd, wat leidde tot extra voordelen. In het bijzonder handhaaft het model een sterke normalisatiemogelijkheden bij de Scientific Logic Functions (GPQA), ondanks dat het wiskundespecifiek is.
Hoe kan Enterprise profiteren
Light-R1-32B wordt uitgegeven onder de Apache License 2.0, een toegestane open-source licentie die gratis gebruik, aanpassing en commercieel gyrogen mogelijk maakt zonder de noodzaak van afgeleide functies, die open-khatti vereisen. Het is een aantrekkelijke optie voor ondernemingen, AI -ontwikkelaars en software -ingenieurs om het model voor eigen toepassingen te integreren of aan te passen.
De licentie omvat ook een royaltyvrije, wereldwijde patentbeurs, die de juridische risico’s voor bedrijven vermindert, het ontmoedigen van patentgeschillen. Bedrijven kunnen Light-R1-32B onafhankelijk in commerciële producten implementeren, waardoor volledige controle over hun innovaties worden gehandhaafd en profiteren van een open en transparant AI-ecosysteem.
Voor CEO, CTO en IT -leiders zorgt Apache 2.0 voor kostenefficiëntie en vrijheid van verkopers, elimineert beperkende afhankelijkheid van licentiekosten en AI -oplossingen van eigendom. AI -ontwikkelaars en ingenieurs bereiken flexibiliteit, integreren en breiden de modellen zonder grenzen uit, wat ideaal is voor speciale wiskunde -logica, onderzoek en Enterprise AI -applicaties.
Aangezien de licentie echter enige garantie- of aansprakelijkheidsdekking biedt, moeten organisaties hun veiligheid, naleving en prestatiebeoordeling uitvoeren voordat de Light-R 1-32B in een belangrijke omgeving wordt geïmplementeerd.
Aanpassing om transparantie en wiskundeprobleem op te lossen bij goedkope training
Onderzoekers benadrukken dat Light-R 1-32B een geldige, kosteneffectieve manier biedt om sterke longbeddenmodellen in speciale domeinen te trainen.
Door hun functioneren, trainingsgegevens en codes te delen, willen ze kostenbarrières voor AI-ontwikkeling met hoge disperatie verminderen. Verder zijn ze van plan om versterkingsleren (RL) te detecteren om de logische vaardigheden van het model verder te verbeteren.
Bronlink