Deepseek R1: Waarom AI -experts denken dat het zo speciaal is

Casper de Boer28 januari 2025

3 3 minutes read

Plots is Deepseek overal.

Het R1 -model is open source, naar verluidt getraind voor een fractie van de kosten van andere AI -modellen, en is net zo goed, zo niet beter dan chatgpt.

Deze dodelijke combinatie raakte Wall Street hard, waardoor technische aandelen tuimelen en beleggers laten vragen hoeveel geld nodig is om goede AI -modellen te ontwikkelen. Deepseek -ingenieurs beweren R1 werd getraind op 2.788 GPU’s die ongeveer $ 6 miljoen kostte, vergeleken met de GPT-4 van Openai, die Naar verluidt kost $ 100 miljoen om te trainen.

De kostenefficiëntie van Deepseek daagt ook het idee uit dat grotere modellen en meer gegevens leiden tot betere prestaties. Temidden van het waanzinnige gesprek over de capaciteiten van Deepseek, de bedreiging voor AI -bedrijven zoals Openai en de voornaamste beleggers, kan het moeilijk zijn om te begrijpen wat er aan de hand is. Maar AI -experts met veteranenervaring hebben gewogen met waardevolle perspectieven.

Deepseek bewijst wat AI -experts al jaren zeggen: groter is niet beter

Hinderd door handelsbeperkingen en toegang tot Nvidia GPU’s, moest China gevestigd Deepseek creatief worden in het ontwikkelen en trainen van R1. Dat ze deze prestatie konden bereiken voor slechts $ 6 miljoen (wat niet veel geld is in AI -termen) was een openbaring voor beleggers.

Maar AI -experts waren niet verrast. “Bij Google vroeg ik waarom ze gefixeerd waren op het bouwen van het grootste model. Waarom ga je voor maat? Welke functie probeer je te bereiken? Waarom was het ding dat je overstuur was dat je niet het grootste model had? reageerde door me te ontslaan, ” gepost Timnit Gebru, die beroemd werd beëindigd uit Google voor het oproepen van AI Bias, op X.

Mashable Lichtsnelheid

Tweet kan zijn verwijderd

KnuffelenHet klimaat en AI -hoofd Sasha Luccioni wezen erop hoe AI -investeringen gevaarlijk zijn gebouwd op marketing en hype. “Het is wild dat doorschemeert dat een enkele (goed presterende) LLM in staat is om die prestaties te bereiken zonder de shit uit duizenden GPU’s bruut te maken, is voldoende om dit te veroorzaken,” gezegd Luconi.

Tweet kan zijn verwijderd

Verduidelijken waarom Deepseek R1 zo’n groot probleem is

Deepseek R1 presteerde vergelijkbaar met OpenAI O1 -model op belangrijke benchmarks. Het overtrof marginaal, evenwichtig of viel net onder O1 op wiskunde-, codering- en algemene kennistests. Dat wil zeggen, er zijn andere modellen die er zijn, zoals Anthropic Claude, Google Gemini en Meta’s Open Source Model Lama die net zo in staat zijn voor de gemiddelde gebruiker.

Maar R1 veroorzaakt zo’n razernij vanwege hoe weinig het kost om te maken. “Het is niet slimmer dan eerdere modellen, gewoon goedkoper getraind,” gezegd AI -onderzoekswetenschapper Gary Marcus.

Tweet kan zijn verwijderd

Het feit dat Deepseek in staat is om een model te bouwen dat concurreert met de modellen van Openai is behoorlijk opmerkelijk. Andrej Karpathy die mede-oprichter van Openai, gepost Op X: “Betekent dit dat je geen grote GPU -clusters nodig hebt voor Frontier LLMS? Nee, maar je moet ervoor zorgen dat je niet verspillend bent met wat je hebt, en dit ziet eruit als een mooie demonstratie dat er nog veel is Ga door met zowel gegevens als algoritmen. “

Tweet kan zijn verwijderd

Wharton AI Professor Ethan Mollick gezegd Het gaat niet om de mogelijkheden, maar modellen waartoe mensen momenteel toegang hebben. “Deepseek is echt een goed model, maar het is over het algemeen geen beter model dan O1 of Claude”, zei hij. “Maar omdat het zowel gratis is als heel veel aandacht krijgt, denk ik dat veel mensen die vrije ‘mini’ -modellen gebruikten, worden blootgesteld aan wat een vroege 2025 -redener AI kan doen en verrast is.”

Tweet kan zijn verwijderd

Scoor één voor open source AI -modellen

Deepseek R1 breakout is een enorme overwinning voor open source voorstanders die beweren dat het democratiseren van toegang tot krachtige AI -modellen, zorgt voor transparantie, innovatie en gezonde concurrentie. “Voor mensen die denken dat ‘China de VS overtroffen in AI,’ de juiste gedachte is dat ‘open source modellen gesloten zijn’,” ” gezegd Yann Lecun, Chief AI -wetenschapper bij Meta, die open inkoop heeft ondersteund met zijn eigen lama -modellen.

Tweet kan zijn verwijderd

Computerwetenschapper en AI -expert Andrew Ng vermeldde niet expliciet het belang van R1 als een open source -model, maar benadrukten hoe de Deepseek -verstoring een zegen is voor ontwikkelaars, omdat het toegang toestaat die verder wordt gateweert door Big Tech.

“De ‘Deepseek Selloff’ van vandaag op de aandelenmarkt – toegeschreven aan Deepseek V3/R1 die het technische ecosysteem verstoort – is een ander teken dat de applicatielaag een geweldige plek is om te zijn,” gezegd Ng. “De funderingsmodellaag die hypercompetitief is, is geweldig voor mensen die applicaties bouwen.”