Facebook-eigenaar Meta zei vrijdag dat het een batch nieuwe uitbracht AI modellen van de onderzoeksafdeling, waaronder een ‘self-taught evaluatier’ die een weg kan bieden naar minder menselijke betrokkenheid bij het AI-ontwikkelingsproces.

De release volgt op Meta’s introductie van de tool in een artikel uit augustus, waarin gedetailleerd werd beschreven hoe het vertrouwt op dezelfde ‘chain of thought’-techniek die wordt gebruikt door OpenAI’s onlangs uitgebrachte o1-modellen om betrouwbare oordelen te kunnen vellen over de reacties van modellen.

Deze techniek omvat het opsplitsen van complexe problemen in kleinere logische stappen en lijkt de nauwkeurigheid van antwoorden op uitdagende problemen in onderwerpen als natuurwetenschappen, coderen en wiskunde te verbeteren.

De onderzoekers van Meta gebruikten volledig door AI gegenereerde gegevens om het evaluatormodel te trainen, waarbij ook in dat stadium menselijke input werd geëlimineerd.

De mogelijkheid om AI te gebruiken om AI op betrouwbare wijze te evalueren biedt een glimp van een mogelijke route naar het bouwen van autonome AI-agenten die kunnen leren van hun eigen fouten, vertelden twee van de Meta-onderzoekers achter het project aan Reuters.

Velen op het gebied van AI zien dergelijke agenten als digitale assistenten die intelligent genoeg zijn om een ​​breed scala aan taken uit te voeren zonder menselijke tussenkomst.

Zelfverbeterende modellen zouden de behoefte kunnen wegnemen aan een vaak duur en inefficiënt proces dat tegenwoordig wordt gebruikt, genaamd Reinforcement Learning from Human Feedback, waarbij input nodig is van menselijke annotators die over gespecialiseerde expertise moeten beschikken om gegevens nauwkeurig te labelen en de antwoorden op complexe wiskundige en schrijfvragen te verifiëren. zijn correct.

“We hopen dat, naarmate AI steeds bovenmenselijker wordt, het steeds beter zal worden in het controleren van zijn werk, zodat het daadwerkelijk beter zal zijn dan de gemiddelde mens”, zegt Jason Weston, een van de onderzoekers.

“Het idee om autodidact te zijn en in staat te zijn om zichzelf te evalueren is fundamenteel cruciaal voor het idee om dit soort bovenmenselijke niveau van AI te bereiken,” zei hij.

Andere bedrijven, waaronder Google en Anthropic, hebben ook onderzoek gepubliceerd over het concept van RLAIF, oftewel Reinforcement Learning from AI Feedback. In tegenstelling tot Meta hebben deze bedrijven echter de neiging hun modellen niet vrij te geven voor openbaar gebruik.

Andere AI-tools die Meta vrijdag heeft uitgebracht, zijn onder meer een update van het Segment Anything-model voor beeldidentificatie van het bedrijf, een tool die de responstijd van LLM-reacties en datasets versnelt die kunnen worden gebruikt om de ontdekking van nieuwe anorganische materialen te ondersteunen.

—Katie Paul, Reuters