Techniek

Arc -agi -2: Gevangen AI -modellen mislukken in nieuw onderzoek van kunstmatige algemene intelligentie


Boog -agi -2 benchmark is ontworpen als een moeilijke test voor AI -modellen

Just_super/Getty Fig

De meest geavanceerde AI-bestaanmodellen hebben tegenwoordig een nieuwe benchmark gescoord die is ontworpen om hun vooruitgang in de richting van kunstmatige algemene intelligentie (AGI) te meten-en brut-krachten zullen niet voldoende zijn om de rekenkracht te verbeteren, omdat evalues ​​nu de kosten van het bedienen van het model overwegen.

AGI heeft veel competitieve definities, maar het wordt meestal genomen om een ​​AI te vermelden die elke cognitieve handeling van mensen kan uitvoeren. Om het te meten, had de ARC Prize Foundation eerder een logische test gelanceerd genaamd de Arc -agi -1. Afgelopen december kondigde de Openai aan dat haar en 3 modellen sterk werden gescoord in het examen, wat sommigen kon vragen om te vragen of het bedrijf dichter bij het bereiken van de AGI was.

Maar nu heeft een nieuwe test, de boog -agi -2, de lat verlengd. Het is moeilijk genoeg dat in een huidige AI-systeemtest op de markt niet meer dan een score met één cijfer in 100 kan behalen, terwijl elke vraag is opgelost in twee pogingen van ten minste twee mensen.

In Plaats een blog ARC -president Greg Kamrdt kondigde ARC -AGI -2 aan, zei dat de nieuwe benchmark nodig was om verschillende vaardigheden uit eerdere herhalingen te testen. “Om het te verslaan, moet je zowel aanpassingsvermogen als hoog niveau tonen,” schreef hij.

De ARK-AGI-2-benchmark verschilt van andere AI-benchmarkonderzoeken die het richt op het voltooien van de vaardigheden van AI-modellen-AS is het voorbeeld van de verandering in een nieuw beeld op basis van de voorbeelden van symbolische interpretaties-de leidinggevende uitvoeringen zijn niet meer dan hun vaardigheden. Huidige modellen zijn goed in “Deep Learning”, dat wordt gemeten door ARC-AGI-1, maar niet zo goed in de schijnbaar eenvoudige taken, die meer uitdagende gedachten en interacties in de ARC-AGI-2 vereist. OpenAI en 3-L-model scoorden bijvoorbeeld 75,7 procent in de ARC-AGI-1, maar slechts 4 procent in de ARC-AGI-2.

Benchmark voegt ook een nieuwe dimensie toe aan het meten van de capaciteit van een AI door te kijken naar de probleemoplossende efficiëntie, zoals gemeten aan de hand van de uitgaven die nodig zijn om een ​​taak te voltooien. Wanneer de boog bijvoorbeeld $ 17 per taak betaalde aan zijn menselijke examinatoren, gaat het ervan uit dat 3-LO Opina $ 200 als een vergoeding voor dezelfde baan uitgeeft.

“Ik denk dat de nieuwe herhaling van de Arc-Agi nu een grote stap is in de richting van de meer realistische evaluatie van AI-modellen die zich richten op de prestatiebalans efficiënt,” zei Joseph Imperial Aan de Universiteit van Bath in het VK. “Dit is een teken dat we volledig gericht zijn op prestaties van eendimensionale evaluatietest, maar ook gezien het lage telvermogen.”

Elk model dat in staat is om de ARC-AGI-2 te passeren, is niet alleen erg bekwaam, maar ook klein en lichtgewicht zal ook nodig zijn, de Imperial zegt dat de modale vaardigheden de belangrijkste componenten van de nieuwe benchmark zijn. Het kan helpen bij het oplossen van angst dat AI-modellen energie-intensiever worden Soms om de uitstekende resultaten te bereiken op het punt van afval.

Niet iedereen is er echter zeker van dat de nieuwe maatregel gunstig is. “Dit is niet de juiste inlijsting van zijn volledige framing als detective -test,” zei Catherine flick Aan de Universiteit van Staphordshire in het VK. In plaats daarvan zegt hij dat deze criteria eenvoudigweg een enkele taak of een reeks taken evalueren die goed worden voltooid, die later wordt uitgerust om te verwijzen naar een reeks functies in een reeks functies.

Flick zegt: “Deze criteria moeten niet worden gezien als een groot moment voor Agi:” Je ziet dat deze modellen deze detective-tests op menselijke niveau doorstaan, waar ze niet echt zijn; Wat ze doen is echt goed reageren op een bepaalde prompt. “

En wat er precies gebeurt of wanneer of wanneer de boog-AGI-2 passeert, is een andere vraag-hebben we een ander criterium nodig? Imperial zegt: “Als ze Arc-Agi-3 ontwikkelen, denk ik dat ze nog een as aan de grafiek zullen toevoegen (minimaal aantal mensen-experts of niet-het zal de taken moeten oplossen zonder prestaties en vaardigheden,” zei de Imperial.

Onderwerp:



Bronlink

Related Articles

Back to top button