Google Gemini stijgt onverwachts naar nummer 1, via OpenAI, maar benchmarks vertellen niet het hele verhaal
Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
Googlen heeft de eerste plaats opgeëist op het gebied van cruciale kunstmatige intelligentie maatstaf met zijn nieuwste experimentele model markeert het een significante verschuiving in de AI-race – maar experts uit de industrie waarschuwen dat traditionele testmethoden de ware AI-capaciteiten mogelijk niet langer effectief meten.
Het model, genaamd “Gemini-Exp-1114”, dat nu beschikbaar is in de Google AI Studio, passend bij die van OpenAI GPT-4o in de algehele prestaties op de Chatbot Arena-klassement na het verzamelen van meer dan 6.000 gemeenschapsstemmen. Deze prestatie vertegenwoordigt Google’s grootste uitdaging tot nu toe voor de al lang bestaande dominantie van OpenAI op het gebied van geavanceerde AI-systemen.
Waarom de recordbrekende AI-scores van Google een diepere testcrisis verbergen
Testplatform Chatbot-arena meldde dat de experimentele Gemini-versie superieure prestaties vertoonde in verschillende belangrijke categorieën, waaronder wiskunde, creatief schrijven en visueel begrip. Het model behaalde een score van 1344wat neerkomt op een dramatische verbetering van 40 punten ten opzichte van eerdere versies.
Toch komt de doorbraak te midden van steeds meer bewijs dat de huidige AI-benchmarking-benaderingen dat wel kunnen modelevaluatie veel te simpel gemaakt. Toen onderzoekers controleerden voor oppervlakkige factoren zoals de opmaak en lengte van de antwoorden, daalden de prestaties van Gemini naar de vierde plaats, wat benadrukte hoe traditionele statistieken de waargenomen capaciteiten kunnen vergroten.
Deze ongelijkheid brengt een fundamenteel probleem bij AI-evaluatie aan het licht: modellen kunnen hoge scores behalen door te optimaliseren voor oppervlaktekenmerken in plaats van echte verbeteringen in redenering of betrouwbaarheid aan te tonen. De focus op kwantitatieve benchmarks heeft geleid tot een racen om hogere cijfers die mogelijk geen betekenisvolle vooruitgang op het gebied van kunstmatige intelligentie weerspiegelen.
De duistere kant van Gemini: de eerdere AI-modellen met de hoogste ranglijst hebben schadelijke inhoud gegenereerd
In één wijdverbreide zaakslechts twee dagen voordat het nieuwste model werd uitgebracht, genereerde het uitgebrachte model van Gemini schadelijke output, door tegen een gebruiker te zeggen: “Je bent niet speciaal, je bent niet belangrijk en je bent niet nodig”, en voegde eraan toe: “Sterf alsjeblieft”, ondanks de hoge prestatiescores. Gisteren nog een gebruiker wees op hoe ‘wakker’ Tweelingen kunnen zijnwat contra-intuïtief resulteert in een ongevoelige reactie op iemand die boos is omdat hij de diagnose kanker heeft gekregen. Nadat het nieuwe model was uitgebracht, waren de reacties gemengd, waarbij sommigen niet onder de indruk waren van de eerste tests (zie hier, hier En hier).
Deze kloof tussen benchmarkprestaties en veiligheid in de echte wereld onderstreept hoe de huidige evaluatiemethoden er niet in slagen cruciale aspecten van de betrouwbaarheid van AI-systemen vast te leggen.
De afhankelijkheid van de sector van ranglijsten op het scorebord heeft perverse prikkels gecreëerd. Bedrijven optimaliseren hun modellen voor specifieke testscenario’s, terwijl ze mogelijk bredere kwesties als veiligheid, betrouwbaarheid en praktisch nut verwaarlozen. Deze aanpak heeft AI-systemen opgeleverd die uitblinken in beperkte, vooraf bepaalde taken, maar worstelen met genuanceerde interacties in de echte wereld.
Voor Google betekent de overwinning op de benchmark een aanzienlijke boost voor het moreel na maanden van inhaalslag op OpenAI. Het bedrijf heeft het experimentele model via zijn AI-studio platform, hoewel het onduidelijk blijft wanneer en of deze versie zal worden opgenomen in consumentgerichte producten.
Techgiganten staan voor een keerpunt nu AI-testmethoden tekortschieten
De ontwikkeling komt op een cruciaal moment voor de AI-industrie. OpenAI heeft naar verluidt moeite om baanbrekende verbeteringen te bereiken met zijn modellen van de volgende generatie, terwijl de zorgen over de beschikbaarheid van trainingsgegevens zijn toegenomen. Deze uitdagingen suggereren dat het veld met de huidige aanpak fundamentele grenzen nadert.
De situatie weerspiegelt een bredere crisis in de ontwikkeling van AI: de maatstaven die we gebruiken om de vooruitgang te meten, kunnen deze feitelijk belemmeren. Terwijl bedrijven hogere benchmarkscores nastreven, lopen ze het risico belangrijkere vragen over de veiligheid, betrouwbaarheid en praktische bruikbaarheid van AI over het hoofd te zien. Het veld heeft nieuwe evaluatiekaders nodig die voorrang geven aan prestaties en veiligheid in de echte wereld boven abstracte numerieke prestaties.
Nu de industrie met deze beperkingen worstelt, zou de benchmarkprestatie van Google uiteindelijk belangrijker kunnen blijken voor wat het onthult over de ontoereikendheid van de huidige testmethoden dan voor enige daadwerkelijke vooruitgang op het gebied van AI.
De race tussen technologiegiganten om steeds hogere benchmarkscores te behalen gaat door, maar de echte concurrentie ligt wellicht in het ontwikkelen van geheel nieuwe raamwerken voor het evalueren en garanderen van de veiligheid en betrouwbaarheid van AI-systemen. Zonder dergelijke veranderingen loopt de sector het risico te optimaliseren voor de verkeerde maatstaven en tegelijkertijd kansen voor zinvolle vooruitgang op het gebied van kunstmatige intelligentie te missen.
(Bijgewerkt op 15 november om 16:23 uur: de verwijzing in het artikel naar de chat ‘Alsjeblieft sterf’ gecorrigeerd, wat suggereerde dat de opmerking door het nieuwste model was gemaakt. De opmerking werd gemaakt door het ‘geavanceerde’ Gemini-model van Google, maar werd gemaakt vóór het nieuwe model model werd uitgebracht.)
Source link