Toernooien

Alibaba’s redeneermodel Qwen with Questions verslaat o1-preview


Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


De Chinese e-commercegigant Alibaba heeft het nieuwste model in zijn steeds groter wordende Qwen-familie uitgebracht. Deze staat bekend als Qwen with Questions (QwQ) en dient als de nieuwste open source-concurrent van OpenAI’s o1-redeneermodel.

Net als andere grote redeneermodellen (LRM’s) gebruikt QwQ extra rekencycli tijdens het infereren om de antwoorden te beoordelen en fouten te corrigeren, waardoor het geschikter wordt voor taken die logisch redeneren en plannen vereisen, zoals wiskunde en coderen.

Wat is Qwen met Vragen (OwQ?) en kan het gebruikt worden voor commerciële doeleinden?

Alibaba heeft een versie van QwQ met 32 ​​miljard parameters uitgebracht met een context van 32.000 tokens. Het model is momenteel in preview, wat betekent dat er waarschijnlijk een beter presterende versie zal volgen.

Volgens de tests van Alibaba verslaat QwQ de o1-preview op de AIME- en MATH-benchmarks, die het wiskundig probleemoplossend vermogen evalueren. Het presteert ook beter dan o1-mini op GPQA, een maatstaf voor wetenschappelijk redeneren. QwQ is inferieur aan o1 op de LiveCodeBench-coderingsbenchmarks, maar presteert nog steeds beter dan andere grensmodellen zoals GPT-4o en Claude 3.5 Sonnet.

Voorbeelduitvoer van Qwen met vragen

QwQ wordt niet geleverd met een begeleidend document waarin de gegevens of het proces worden beschreven dat wordt gebruikt om het model te trainen, wat het moeilijk maakt om de resultaten van het model te reproduceren. Omdat het model echter open is, is het ‘denkproces’, in tegenstelling tot OpenAI o1, niet verborgen en kan het worden gebruikt om inzicht te krijgen in de manier waarop het model redeneert bij het oplossen van problemen.

Alibaba heeft het model ook uitgebracht onder een Apache 2.0-licentie, wat betekent dat het voor commerciële doeleinden kan worden gebruikt.

‘We hebben iets diepgaands ontdekt’

Volgens een blogpost dat werd gepubliceerd samen met de release van het model: “Door diepgaand onderzoek en talloze beproevingen hebben we iets diepgaands ontdekt: wanneer we de tijd krijgen om na te denken, te twijfelen en na te denken, bloeit het begrip van het model van wiskunde en programmeren op als een bloem die zich opent voor de zon. … Dit proces van zorgvuldige reflectie en zelfonderzoek leidt tot opmerkelijke doorbraken bij het oplossen van complexe problemen.”

Dit komt sterk overeen met wat we weten over hoe redeneermodellen werken. Door meer tokens te genereren en hun eerdere antwoorden te bekijken, is de kans groter dat de modellen potentiële fouten corrigeren. Marco-o1, een ander redeneermodel dat onlangs door Alibaba is uitgebracht, zou ook hints kunnen bevatten over hoe QwQ zou kunnen werken. Marco-o1 gebruikt Boom zoeken in Monte Carlo (MCTS) en zelfreflectie tijdens het infereren om verschillende redeneringen te creëren en de beste antwoorden te kiezen. Het model is getraind op een combinatie van Chain-of-Thought (CoT)-voorbeelden en synthetische gegevens gegenereerd met MCTS-algoritmen.

Alibaba wijst erop dat QwQ nog steeds beperkingen kent, zoals het mixen van talen of het vastlopen in cirkelvormige redeneerlussen. Het model is te downloaden op Knuffelend gezicht en een online demo is te vinden op Gezichtsruimten knuffelen.

Het LLM-tijdperk maakt plaats voor LRM’s: Large Reasoning Models

De release van o1 heeft geleid tot een groeiende belangstelling voor het creëren van LRM’s, ook al is er niet veel bekend over hoe het model onder de motorkap werkt, afgezien van het gebruik van inferentietijdschalen om de reacties van het model te verbeteren.

Er zijn nu verschillende Chinese concurrenten voor o1. Het Chinese AI-lab DeepSeek heeft onlangs R1-Lite-Preview uitgebracht, zijn o1-concurrent, die momenteel alleen beschikbaar is via de online chatinterface van het bedrijf. R1-Lite-Preview verslaat naar verluidt o1 op verschillende belangrijke benchmarks.

Een ander recent uitgebracht model is LLaVA-o1, ontwikkeld door onderzoekers van meerdere universiteiten in China, dat het inferentie-tijd-redeneringsparadigma naar open-source vision-taalmodellen (VLM’s) brengt.

De focus op LRM’s komt in een tijd van onzekerheid over de toekomst van wetten op het gebied van modelschaling. Rapporten geven aan dat AI-laboratoria zoals OpenAI, Google DeepMind en Anthropic steeds minder rendement behalen op het trainen van grotere modellen. En het creëren van grotere hoeveelheden hoogwaardige trainingsgegevens wordt steeds moeilijker omdat modellen al worden getraind op biljoenen tokens die via internet zijn verzameld.

Ondertussen biedt de inferentietijdschaal een alternatief dat de volgende doorbraak zou kunnen betekenen in het verbeteren van de mogelijkheden van de volgende generatie AI-modellen. Er zijn berichten dat OpenAI is o1 gebruiken om synthetische redeneringsgegevens te genereren om de volgende generatie LLM’s op te leiden. De introductie van open redeneermodellen zal waarschijnlijk de vooruitgang stimuleren en de ruimte competitiever maken.



Source link

Related Articles

Back to top button