Toernooien

Vijf doorbraken die OpenAI’s o3 tot een keerpunt voor AI maken – en één grote uitdaging


Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


Het einde van het jaar 2024 heeft afrekeningen gebracht voor kunstmatige intelligentie, omdat insiders uit de industrie vreesden dat de vooruitgang in de richting van nog intelligentere AI vertraagt. Maar het o3-model van OpenAI, dat vorige week werd aangekondigd, heeft een nieuwe golf van opwinding en debat teweeggebracht, en suggereert dat er in 2025 en daarna nog grote verbeteringen zullen komen.

Dit model, aangekondigd voor veiligheidstests onder onderzoekers, maar nog niet publiekelijk vrijgegeven, behaalde een indrukwekkende score op de belangrijke ARC-metriek. De benchmark is gemaakt door François Chollet, een gerenommeerd AI-onderzoeker en maker van het Keras deep learning-framework, en is specifiek ontworpen om het vermogen van een model te meten om nieuwe, intelligente taken uit te voeren. Als zodanig biedt het een zinvolle graadmeter voor de vooruitgang in de richting van werkelijk intelligente AI-systemen.

Opvallend is dat o3 75,7% scoorde op de ARC-benchmark onder standaard computeromstandigheden en 87,5% bij gebruik van hoge rekenkracht, waarmee eerdere state-of-the-art resultaten aanzienlijk werden overtroffen, zoals de 53% gescoord door Claude 3,5.

Deze prestatie van o3 vertegenwoordigt een verrassende vooruitgang, aldus Chollet, die dat ook had gedaan criticus geweest van het vermogen van grote taalmodellen (LLM’s) om dit soort intelligentie te bereiken. Het belicht innovaties die de vooruitgang in de richting van superieure intelligentie zouden kunnen versnellen, of we dit nu kunstmatige algemene intelligentie (AGI) noemen of niet.

AGI is een gehypte term en slecht gedefinieerd, maar duidt op een doel: intelligentie die zich kan aanpassen aan nieuwe uitdagingen of vragen op manieren die de menselijke capaciteiten te boven gaan.

OpenAI’s o3 pakt specifieke hindernissen op het gebied van redeneren en aanpassingsvermogen aan die grote taalmodellen lange tijd hebben belemmerd. Tegelijkertijd legt het uitdagingen bloot, waaronder de hoge kosten en knelpunten in de efficiëntie die inherent zijn aan het tot het uiterste drijven van deze systemen. Dit artikel onderzoekt vijf belangrijke innovaties achter het o3-model, waarvan er vele worden ondersteund door ontwikkelingen op het gebied van versterkend leren (RL). Het zal voortbouwen op inzichten van marktleiders, De beweringen van OpenAIen vooral Chollet’s belangrijke analyseom uit te leggen wat deze doorbraak betekent voor de toekomst van AI nu we 2025 ingaan.

De vijf kerninnovaties van o3

1. “Programmasynthese” voor taakaanpassing

Het o3-model van OpenAI introduceert een nieuwe mogelijkheid genaamd ‘programmasynthese’, waarmee het op dynamische wijze dingen die het tijdens de pre-training heeft geleerd (specifieke patronen, algoritmen of methoden) kan combineren in nieuwe configuraties. Deze zaken kunnen wiskundige bewerkingen, codefragmenten of logische procedures omvatten die het model is tegengekomen en gegeneraliseerd tijdens zijn uitgebreide training op diverse datasets. Het belangrijkste is dat programmasynthese o3 in staat stelt taken aan te pakken die het nog nooit rechtstreeks in de training heeft gezien, zoals het oplossen van geavanceerde codeeruitdagingen of het aanpakken van nieuwe logische puzzels die redeneren vereisen die verder gaat dan het uit het hoofd toepassen van geleerde informatie. François Chollet beschrijft programmasynthese als het vermogen van een systeem om bekende hulpmiddelen op innovatieve manieren te hercombineren, zoals een chef-kok een uniek gerecht bereidt met bekende ingrediënten. Deze functie markeert een afwijking van eerdere modellen, die voornamelijk vooraf geleerde kennis ophalen en toepassen zonder herconfiguratie – en het is ook een functie die Chollet maanden geleden bepleitte als de enige haalbare weg naar betere intelligentie.

De kern van het aanpassingsvermogen van o3 wordt gevormd door het gebruik van Chains of Thought (CoTs) en een geavanceerd zoekproces dat plaatsvindt tijdens inferentie – wanneer het model actief antwoorden genereert in een echte of geïmplementeerde omgeving. Deze CoT’s zijn stapsgewijze instructies in natuurlijke taal die het model genereert om oplossingen te verkennen. Geleid door een evaluatormodel genereert o3 actief meerdere oplossingspaden en evalueert deze om de meest veelbelovende optie te bepalen. Deze aanpak weerspiegelt het oplossen van menselijke problemen, waarbij we over verschillende methoden brainstormen voordat we de beste oplossing kiezen. Bij wiskundige redeneringstaken genereert en evalueert o3 bijvoorbeeld alternatieve strategieën om tot nauwkeurige oplossingen te komen. Concurrenten als Anthropic en Google hebben met soortgelijke benaderingen geëxperimenteerd, maar de implementatie van OpenAI zet een nieuwe standaard.

3. Evaluatormodel: een nieuw soort redenering

O3 genereert actief meerdere oplossingspaden tijdens de inferentie, waarbij elk pad wordt geëvalueerd met behulp van een geïntegreerd evaluatormodel om de meest veelbelovende optie te bepalen. Door de beoordelaar te trainen op basis van door deskundigen gelabelde gegevens, zorgt OpenAI ervoor dat o3 een sterk vermogen ontwikkelt om door complexe, uit meerdere stappen bestaande problemen te redeneren. Deze functie stelt het model in staat om te fungeren als een beoordelaar van zijn eigen redenering, waardoor grote taalmodellen dichter bij het vermogen komen om te ‘denken’ in plaats van simpelweg te reageren.

4. Het uitvoeren van zijn eigen programma’s

Een van de meest baanbrekende kenmerken van o3 is het vermogen om zijn eigen Chains of Thoughts (CoTs) uit te voeren als hulpmiddelen voor adaptieve probleemoplossing. Traditioneel worden CoT’s gebruikt als stap-voor-stap redeneerkaders om specifieke problemen op te lossen. OpenAI’s o3 breidt dit concept uit door CoT’s in te zetten als herbruikbare bouwstenen, waardoor het model nieuwe uitdagingen met een groter aanpassingsvermogen kan benaderen. In de loop van de tijd worden deze CoT’s gestructureerde registraties van probleemoplossende strategieën, vergelijkbaar met de manier waarop mensen hun leerproces door ervaring documenteren en verfijnen. Dit vermogen laat zien hoe o3 de grens verlegt op het gebied van adaptief redeneren. Volgens OpenAI-ingenieur Nat McAleesede prestaties van o3 op het gebied van ongeziene programmeeruitdagingen, zoals het behalen van een CodeForces-rating boven 2700, demonstreren het innovatieve gebruik van CoTs om te wedijveren met concurrerende topprogrammeurs. Deze 2700-rating plaatst het model op “Grandmaster”-niveau en behoort tot de top van concurrerende programmeurs wereldwijd.

O3 maakt gebruik van een diepgaande leergestuurde aanpak tijdens inferentie om potentiële oplossingen voor complexe problemen te evalueren en te verfijnen. Dit proces omvat het genereren van meerdere oplossingspaden en het gebruiken van tijdens de training geleerde patronen om de haalbaarheid ervan te beoordelen. François Chollet en andere deskundigen hebben opgemerkt dat deze afhankelijkheid van ‘indirecte evaluaties’ (waarbij oplossingen worden beoordeeld op basis van interne maatstaven in plaats van getest in praktijkscenario’s) de robuustheid van het model kan beperken wanneer het wordt toegepast op onvoorspelbare of ondernemingsspecifieke contexten.

Bovendien roept de afhankelijkheid van o3 van door deskundigen gelabelde datasets voor het trainen van het evaluatormodel zorgen op over de schaalbaarheid. Hoewel deze datasets de nauwkeurigheid vergroten, vereisen ze ook aanzienlijk menselijk toezicht, wat het aanpassingsvermogen en de kostenefficiëntie van het systeem kan beperken. Chollet benadrukt dat deze afwegingen de uitdagingen illustreren van het opschalen van redeneersystemen buiten gecontroleerde benchmarks zoals ARC-AGI.

Uiteindelijk demonstreert deze aanpak zowel het potentieel als de beperkingen van het integreren van deep learning-technieken met programmatische probleemoplossing. Hoewel de innovaties van o3 vooruitgang laten zien, onderstrepen ze ook de complexiteit van het bouwen van werkelijk generaliseerbare AI-systemen.

De grote uitdaging voor o3

Het o3-model van OpenAI behaalt indrukwekkende resultaten, maar tegen aanzienlijke rekenkosten, waarbij miljoenen tokens per taak worden verbruikt – en deze kostbare aanpak is de grootste uitdaging van het model. François Chollet, Nat McAleese en anderen benadrukken de bezorgdheid over de economische haalbaarheid van dergelijke modellen, waarbij ze de noodzaak benadrukken van innovaties die prestaties in evenwicht brengen met betaalbaarheid.

De o3-release heeft de aandacht getrokken in de AI-gemeenschap. Concurrenten zoals Google met Gemini 2 en Chinese bedrijven als DeepSeek 3 maken ook vorderingen, waardoor directe vergelijkingen lastig worden totdat deze modellen op grotere schaal worden getest.

De meningen over o3 zijn verdeeld: sommigen prijzen de technische vooruitgang ervan, terwijl anderen hoge kosten en een gebrek aan transparantie noemen, wat suggereert dat de werkelijke waarde ervan pas duidelijk zal worden als er breder wordt getest. Een van de grootste kritieken kwam van Denny Zhou van Google DeepMind, die impliciet de afhankelijkheid van het model van de schaling en zoekmechanismen van het versterkende leren (RL) aanviel. als een potentiële ‘doodlopende weg’”, waarbij hij in plaats daarvan betoogt dat een model moet kunnen leren redeneren eenvoudigere fijnafstelling processen.

Wat dit betekent voor zakelijke AI

Of het nu wel of niet de perfecte richting is voor verdere innovatie, voor ondernemingen laat het pas ontdekte aanpassingsvermogen van o3 zien dat AI in de toekomst op de een of andere manier industrieën zal blijven transformeren, van klantenservice tot wetenschappelijk onderzoek.

Spelers uit de sector zullen enige tijd nodig hebben om te verwerken wat o3 hier heeft opgeleverd. Voor bedrijven die zich zorgen maken over de hoge rekenkosten van o3, biedt OpenAI’s aanstaande release van de verkleinde “o3-mini”-versie van het model een potentieel alternatief. Hoewel het een deel van de mogelijkheden van het volledige model opoffert, belooft o3-mini een meer betaalbare optie voor bedrijven om mee te experimenteren – waarbij veel van de kerninnovatie behouden blijft terwijl de rekenvereisten tijdens de testtijd aanzienlijk worden verminderd.

Het kan nog enige tijd duren voordat grote ondernemingen het o3-model in handen kunnen krijgen. OpenAI zegt dat de o3-mini naar verwachting eind januari wordt gelanceerd. De volledige o3-release volgt daarna, hoewel de tijdlijnen afhankelijk zijn van feedback en inzichten die zijn verkregen tijdens de huidige veiligheidstestfase. Enterprise-bedrijven doen er goed aan om het uit te testen. Ze willen het model onderbouwen met hun gegevens en gebruiksscenario’s en zien hoe het echt werkt.

Maar in de tussentijd kunnen ze al gebruik maken van de vele andere competente modellen die al uit en goed getest zijn, waaronder het vlaggenschip o4-model en andere concurrerende modellen – waarvan er vele al robuust genoeg zijn voor het bouwen van intelligente, op maat gemaakte applicaties die praktische waarde opleveren. .

Volgend jaar rijden we inderdaad op twee versnellingen. De eerste is het realiseren van praktische waarde uit AI-toepassingen, en het uitwerken van wat modellen kunnen doen met AI-agenten en andere reeds gerealiseerde innovaties. De tweede is achterover leunen met de popcorn en kijken hoe de inlichtingenrace zich afspeelt – en elke vooruitgang zal slechts de kers op de taart zijn die al is geleverd.

Voor meer informatie over de innovaties van o3, bekijk de volledige YouTube-discussie tussen mij en Sam Witteveen hieronder en volg VentureBeat voor voortdurende berichtgeving over AI-ontwikkelingen.



Source link

Related Articles

Back to top button