Wat betekent het “PhD-niveau”? Het openen van geruchten hebben het $ 20.000 agentplan uitgelegd.

Laura van de Ven9 maart 2025

5 2 minutes read

De frontier wiskundige benchmark van Apochaye heeft 25,2 procent van 3 problemen opgelost, geen ander model heeft 2 procent – wiskundige rationele capaciteit overschreden dan het vorige model.

Benchmark versus real-world waarde

In het ideale geval omvatten potentiële toepassingen van AI-modellen op echte doctoraat op PhD-niveau behandelingsonderzoeksgegevensanalyse, het ondersteunen van klimaatmodellering en het uitvoeren van routinematige aspecten van onderzoekswerk.

Hoge prijspunten gerapporteerd door gegevens, indien correct, suggereren dat openheid gelooft dat deze systemen voldoende prijs kunnen bieden voor het bedrijfsleven. De publicatie stelt dat Openai Investor SoftBank dit jaar vaststelt om dit jaar $ 3 miljard uit te geven aan Open Ago Agent -producten – verwijst naar belangrijke zakelijke belangen ondanks de kosten.

Ondertussen wordt openlijk geconfronteerd met financiële stress die zijn premium prijsstrategie kan beïnvloeden. Er werd gemeld dat het bedrijf vorig jaar ongeveer $ 5 miljard verloor door operationele uitgaven en andere kosten met betrekking tot zijn diensten te dekken.

Het nieuws van de stratosferische prijsbepaling van OpenAI komt na jaren van relatief betaalbare AI -diensten, die geconditioneerd zijn om te verwachten dat gebruikers sterker vermogen verwachten tegen relatief lage kosten. Chatzpt Plus heeft $ 20 per maand en $ 30 maandelijkse kosten voor CLODE PRO – beide voorgestelde ondernemingslagen zijn kleinere breuken. Zelfs het abonnement van $ 200/maand van Chatzipt Pro is relatief kleiner dan de nieuwe voorgestelde vergoedingen. Het verschil tussen prestaties tussen deze lagen is een open vraag of het verschil tussen hun duizend keer het prijsverschil is.

Ondanks hun benchmarkprestaties, bestrijden deze gesimuleerde rationele modellen nog steeds confabulaties, waar ze bewonderenswaardig klinkend zijn maar echt de verkeerde informatie produceren. Het blijft een belangrijke zorg voor onderzoekstoepassingen waarbij nauwkeurigheid en betrouwbaarheid universeel zijn. Een maandelijkse investering van 20.000 dollar roept vragen op over de vraag of deze systemen kunnen vertrouwen op het niet introduceren van subtiele defecten in hogere steak -studies.

Als reactie op het nieuws schreeuwden verschillende mensen op sociale media dat bedrijven een echte promovendus konden inhuren voor veel goedkoper. “Als je het bent vergeten,” Geschreven JAI -ontwikkelaar Hugh Fam op een virale tweet, “de meeste promovendi, inclusief briljante sterren die het beter kunnen doen dan welke huidige LLM dan ook, worden niet meer dan 20k / maand betaald.”

Hoewel deze systemen een sterke kracht vertonen voor bepaalde criteria, blijft het label “PhD-Layer” als een marketinggeluid. Deze modellen kunnen de gegevens op indrukwekkende snelheid verwerken en synthetiseren, maar er zijn vragen over hoe creatief denken, intellectuele twijfel en origineel onderzoek dat het werkelijke werk op doctoraatsniveau definieert. Aan de andere kant zullen ze nooit moe worden of een ziektekostenverzekering nodig hebben en zullen ze waarschijnlijk hun vermogen verbeteren en de kosten in de loop van de tijd verlagen.

Bronlink

Laura van de Ven9 maart 2025

5 2 minutes read