ByteDance’s UI-TARS kan uw computer overnemen en presteert beter dan GPT-4o en Claude

Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
Er is een nieuwe AI-agent opgedoken van het moederbedrijf van TikTok om de controle over uw computer over te nemen en complexe workflows uit te voeren.
Net als Anthropic’s Computer Use begrijpt ByteDance’s nieuwe UI-TARS grafische gebruikersinterfaces (GUI’s), past redeneringen toe en onderneemt autonoom, stapsgewijze actie.
De PC/MacOS-agents zijn getraind op grofweg 50 miljard tokens en worden aangeboden in 7B- en 72B-parameterversies. Ze bereiken state-of-the-art (SOTA) prestaties op meer dan tien GUI-benchmarks op het gebied van prestaties, perceptie, aarding en algehele agentcapaciteiten, waarbij ze consistent de beste zijn uit OpenAI’s GPT-4o, Claude en Google’s Gemini.
“Door iteratieve training en reflectie-afstemming leert UI-TARS voortdurend van zijn fouten en past het zich aan aan onvoorziene situaties met minimale menselijke tussenkomst”, schrijven onderzoekers van ByteDance en Tsinghua University in een nieuw onderzoekspapier.

Hoe UI-TARS zijn denkwijze uitlegt
UI-TARS werkt met desktop-, mobiele en webapplicaties en maakt gebruik van multimodale invoer (tekst, afbeeldingen, interacties) om visuele omgevingen te begrijpen.
De gebruikersinterface heeft twee tabbladen: één aan de linkerkant toont het stapsgewijze ‘denken’, en een grotere aan de rechterkant waar het bestanden, websites en apps oproept en automatisch actie onderneemt.
In een vandaag vrijgegeven demovideo wordt het model bijvoorbeeld gevraagd om “retourvluchten van SEA naar NYC op de 5e te zoeken en volgende maand op de 10e terug te keren en te filteren op prijs in oplopende volgorde.”
Als reactie hierop navigeert UI-TARS naar de website van Delta Airlines, vult de velden ‘van’ en ‘naar’ in, klikt op de relevante datums en sorteert en filtert op prijs, waarbij elke stap in het denkkader wordt uitgelegd voordat actie wordt ondernomen.
In een ander scenario wordt gevraagd een autoDocstring-extensie in VS Code te installeren. Hier is het stapsgewijze denken terwijl het die taak voltooit:
- Het meldt eerst dat “om door te gaan met het installeren van de autoDocstring-extensie in VS Code, ik eerst de VS Code-applicatie moet openen.”
- Het model erkent dat het VS Code-venster nog niet volledig is geladen en merkt op dat “het nodig is om te wachten tot de applicatie klaar is met initialiseren voordat u doorgaat met de installatie van de autoDocstring-extensie. Dit zorgt ervoor dat alle benodigde functionaliteiten beschikbaar zijn voor de volgende stappen.”
- Vervolgens wordt uitgelegd dat het toegang moet krijgen tot de weergave Extensies in VS Code, wat gedaan kan worden door op een tabblad in de linkerzijbalk te klikken.
- Het stuit op een kleine fout en redeneert: “De vorige poging om op het tabblad ‘Extensies’ te klikken was misschien niet precies genoeg, dus ik zal proberen er nogmaals op te klikken om er zeker van te zijn dat de weergave Extensies succesvol wordt geopend.”
- Eenmaal in de weergave Extensies typt het ‘autoDocstring’ voordat het concludeert: “Aangezien het installatieproces al is gestart, is er op dit moment geen verdere actie vereist. Ik zal wachten tot de installatie is voltooid en het succes ervan bevestigen zodra het proces is voltooid.”

Overtreft zijn rivalen
Op basis van verschillende benchmarks melden onderzoekers dat UI-TARS consequent de GPT-4o van OpenAI overtreft; Anthropic’s Claude-3.5-sonnet; Gemini-1.5-Pro en Gemini-2.0; vier Qwen-modellen; en talrijke academische modellen.
In VisualWebBench – dat het vermogen van een model meet om webelementen te aarden, inclusief webpaginakwaliteitsborging en optische tekenherkenning – scoorde UI-TARS 72B bijvoorbeeld 82,8%, wat beter presteert dan GPT-4o (78,5%) en Claude 3.5 (78,2%).
Het deed het ook aanzienlijk beter op WebSRC-benchmarks (inzicht in semantische inhoud en lay-out in webcontexten) en ScreenQA-short (inzicht in complexe mobiele schermlay-outs en webstructuur). UI-TARS-7B behaalde leidende scores van 93,6% op WebSRC, terwijl UI-TARS-72B 88,6% behaalde op ScreenQA-short, waarmee het beter presteerde dan Qwen, Gemini, Claude 3.5 en GPT-4o.
“Deze resultaten demonstreren de superieure perceptie- en begripsmogelijkheden van UI-TARS in web- en mobiele omgevingen”, schrijven de onderzoekers. “Een dergelijk perceptueel vermogen legt de basis voor taken van agenten, waarbij nauwkeurig inzicht in de omgeving cruciaal is voor taakuitvoering en besluitvorming.”
UI-TARS liet ook indrukwekkende resultaten zien in ScreenSpot Pro en ScreenSpot v2, die het vermogen van een model beoordelen om elementen in GUI’s te begrijpen en te lokaliseren. Verder hebben onderzoekers de capaciteiten getest bij het plannen van meerstapsacties en taken op laag niveau in mobiele omgevingen, en vergeleken met OSWorld (dat computertaken met een open einde beoordeelt) en AndroidWorld (dat autonome agenten scoort op 116 programmatische taken in 20 mobiele apps). ).


Onder de motorkap
Om het te helpen stapsgewijze acties te ondernemen en te herkennen wat het ziet, is UI-TARS getraind op een grootschalige dataset van schermafbeeldingen die metagegevens parseerden, waaronder elementbeschrijving en -type, visuele beschrijving, selectiekaders (positie-informatie), elementfunctie en tekst van verschillende websites, applicaties en besturingssystemen. Hierdoor kan het model een uitgebreide, gedetailleerde beschrijving van een schermafbeelding geven, waarbij niet alleen de elementen, maar ook de ruimtelijke relaties en de algehele lay-out worden vastgelegd.
Het model maakt ook gebruik van ondertiteling van statusovergangen om de verschillen tussen twee opeenvolgende schermafbeeldingen te identificeren en te beschrijven en om te bepalen of een actie (zoals een muisklik of toetsenbordinvoer) heeft plaatsgevonden. Ondertussen maakt set-of-mark (SoM)-prompts het mogelijk om verschillende markeringen (letters, cijfers) op specifieke delen van een afbeelding te plaatsen.
Het model is uitgerust met zowel kortetermijn- als langetermijngeheugen om taken uit te voeren, terwijl ook historische interacties behouden blijven om latere besluitvorming te verbeteren. Onderzoekers hebben het model getraind om zowel Systeem 1 (snel, automatisch en intuïtief) als Systeem 2 (langzaam en opzettelijk) te redeneren. Dit maakt besluitvorming in meerdere stappen, ‘reflectie’-denken, mijlpaalherkenning en foutcorrectie mogelijk.
Onderzoekers benadrukten dat het van cruciaal belang is dat het model consistente doelen kan handhaven en met vallen en opstaan mogelijke acties kan veronderstellen, testen en evalueren voordat een taak wordt voltooid. Ze introduceerden twee soorten gegevens om dit te ondersteunen: foutcorrectie- en post-reflectiegegevens. Voor foutcorrectie identificeerden ze fouten en bestempelden ze corrigerende acties; voor nareflectie simuleerden ze herstelstappen.
“Deze strategie zorgt ervoor dat de agent niet alleen leert fouten te vermijden, maar zich ook dynamisch aanpast wanneer deze zich voordoen”, schrijven de onderzoekers.
Het is duidelijk dat UI-TARS indrukwekkende mogelijkheden vertoont, en het zal interessant zijn om de evoluerende gebruiksscenario’s ervan te zien in de steeds competitiever wordende AI-agentenruimte. Zoals de onderzoekers opmerken: “Hoewel native agents een aanzienlijke sprong voorwaarts betekenen, ligt de toekomst in de integratie van actief en levenslang leren, waarbij agenten autonoom hun eigen leerproces aansturen door middel van continue interacties in de echte wereld.”
Onderzoekers wijzen erop dat Claude Computer Use “sterk presteert bij webgebaseerde taken, maar aanzienlijk worstelt met mobiele scenario’s, wat aangeeft dat de GUI-bedieningsmogelijkheden van Claude niet goed zijn overgedragen naar het mobiele domein.”
Daarentegen “toont UI-TARS uitstekende prestaties op zowel website als mobiel domein.”
Source link