Toernooien

Open-source DeepSeek-R1 maakt gebruik van puur versterkend leren, passend bij OpenAI o1 – tegen 95% minder kosten


Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


Chinese AI-startup Diepzoekenbekend om het uitdagen van toonaangevende AI-leveranciers met open-sourcetechnologieën, heeft zojuist een nieuwe bom laten vallen: een nieuwe LLM met open redenering genaamd DeepSeek-R1.

Gebaseerd op het onlangs geïntroduceerde DeepSeek V3-mix-of-experts-model, komt DeepSeek-R1 overeen met de prestaties van o1, OpenAI’s grensoverschrijdende redeneer-LLM, voor wiskunde-, codeer- en redeneertaken. Het beste deel? Het doet dit tegen veel verleidelijkere kosten, en blijkt 90-95% goedkoper te zijn dan laatstgenoemde.

De release markeert een grote sprong voorwaarts in de open-sourcearena. Het laat zien dat open modellen de kloof met gesloten commerciële modellen verder dichten in de race naar kunstmatige algemene intelligentie (AGI). Om de kracht van zijn werk te tonen, gebruikte DeepSeek ook R1 om zes Llama- en Qwen-modellen te destilleren, waardoor hun prestaties naar een nieuw niveau werden getild. In één geval presteerde de gedistilleerde versie van Qwen-1.5B beter dan veel grotere modellen, GPT-4o en Claude 3.5 Sonnet, in geselecteerde wiskundige benchmarks.

Deze gedistilleerde modellen, samen met de hoofd R1zijn open source en beschikbaar op Knuffelgezicht onder een MIT-licentie.

Wat biedt DeepSeek-R1?

De focus verscherpt zich op kunstmatige algemene intelligentie (AGI), een niveau van AI dat intellectuele taken kan uitvoeren zoals mensen. Veel teams besteden extra aandacht aan het verbeteren van de redeneermogelijkheden van modellen. OpenAI heeft de eerste opmerkelijke stap op dit gebied gezet met zijn o1-model, dat gebruik maakt van een redeneerproces op basis van gedachtegangen om een ​​probleem aan te pakken. Via RL (reinforcement learning, of beloningsgestuurde optimalisatie) leert o1 zijn gedachtegang aan te scherpen en de strategieën die het gebruikt te verfijnen – uiteindelijk leert het zijn fouten te herkennen en te corrigeren, of nieuwe benaderingen uit te proberen als de huidige niet werken.

Nu we het werk in deze richting voortzetten, heeft DeepSeek DeepSeek-R1 uitgebracht, dat een combinatie van RL en gecontroleerde fijnafstemming gebruikt om complexe redeneertaken uit te voeren en de prestaties van o1 te evenaren.

Bij tests scoorde DeepSeek-R1 79,8% op AIME 2024-wiskundetoetsen en 97,3% op MATH-500. Het behaalde ook een score van 2.029 op Codeforces – beter dan 96,3% van de menselijke programmeurs. Daarentegen scoorde o1-1217 respectievelijk 79,2%, 96,4% en 96,6% op deze benchmarks.

Het toonde ook een sterke algemene kennis aan, met een nauwkeurigheid van 90,8% op MMLU, net achter de 91,8% van o1.

Prestaties van DeepSeek-R1 versus OpenAI o1 en o1-mini

De trainingspijplijn

De redeneerprestaties van DeepSeek-R1 betekenen een grote overwinning voor de Chinese startup in de door de VS gedomineerde AI-ruimte, vooral omdat het hele werk open-source is, inclusief de manier waarop het bedrijf het hele ding heeft getraind.

Het werk is echter niet zo eenvoudig als het klinkt.

Volgens het artikel dat het onderzoek beschrijft, is DeepSeek-R1 ontwikkeld als een verbeterde versie van DeepSeek-R1-Zero – een baanbrekend model dat uitsluitend is getraind op basis van versterkend leren.

Het bedrijf gebruikte eerst DeepSeek-V3-base als basismodel en ontwikkelde zijn redeneervermogen zonder gebruik te maken van gecontroleerde gegevens, waarbij het zich in essentie alleen concentreerde op zijn zelfevolutie via een puur op RL gebaseerd proces van vallen en opstaan. Dit vermogen is intrinsiek ontwikkeld op basis van het werk en zorgt ervoor dat het model steeds complexere redeneringstaken kan oplossen door gebruik te maken van uitgebreide testtijdberekeningen om zijn denkprocessen dieper te verkennen en te verfijnen.

“Tijdens de training kwam DeepSeek-R1-Zero op natuurlijke wijze naar voren met tal van krachtige en interessante redeneergedragingen”, noteren de onderzoekers in het artikel. “Na duizenden RL-stappen vertoont DeepSeek-R1-Zero superprestaties op redeneerbenchmarks. De pass@1-score op AIME 2024 stijgt bijvoorbeeld van 15,6% naar 71,0%, en met meerderheidsstemming verbetert de score verder tot 86,7%, wat overeenkomt met de prestaties van OpenAI-o1-0912.”

Ondanks dat het verbeterde prestaties liet zien, inclusief gedrag als reflectie en het verkennen van alternatieven, vertoonde het oorspronkelijke model echter enkele problemen, waaronder slechte leesbaarheid en taalvermenging. Om dit probleem op te lossen, bouwde het bedrijf voort op het werk dat voor R1-Zero was gedaan, met behulp van een meerfasenaanpak die zowel begeleid leren als versterkend leren combineerde, en kwam zo met het verbeterde R1-model.

“Concreet beginnen we met het verzamelen van duizenden koudestartgegevens om het DeepSeek-V3-Base-model te verfijnen”, leggen de onderzoekers uit. “Hierna voeren we redeneringsgerichte RL uit, zoals DeepSeek-R1-Zero. Wanneer we de convergentie in het RL-proces naderen, creëren we nieuwe SFT-gegevens door middel van afwijzingsbemonstering op het RL-controlepunt, gecombineerd met bewaakte gegevens van DeepSeek-V3 op domeinen zoals schrijven, feitelijke QA en zelfkennis, en trainen we vervolgens de DeepSeek-V3 opnieuw. -Basismodel. Na afstemming met de nieuwe gegevens ondergaat het controlepunt een aanvullend RL-proces, waarbij rekening wordt gehouden met aanwijzingen uit alle scenario’s. Na deze stappen hebben we een controlepunt verkregen dat DeepSeek-R1 wordt genoemd en dat prestaties levert die vergelijkbaar zijn met die van OpenAI-o1-1217.”

Veel goedkoper dan o1

Naast verbeterde prestaties die bijna overeenkomen met OpenAI’s o1 in alle benchmarks, is de nieuwe DeepSeek-R1 ook zeer betaalbaar. In het bijzonder, waar OpenAI o1 $15 per miljoen inputtokens en $60 per miljoen outputtokens kost, DeepSeek Reasoner, dat is gebaseerd op het R1-model, kosten $0,55 per miljoen input- en $2,19 per miljoen output-tokens.

Het model kan worden getest als “DeepThink” op de DeepSeek-chatplatformvergelijkbaar met ChatGPT. Geïnteresseerde gebruikers hebben toegang tot de modelgewichten en de coderepository via Hugging Face, onder een MIT-licentie, of kunnen de API gebruiken voor directe integratie.



Source link

Related Articles

Back to top button