Nieuws

QWQ-32B-LAunches-High-Efficiency-Purification-Purreen | Venture


Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer


Quven -team -Een divisie van de Chinese e-commerce legende Alibaba Open-Surance Qwen Large Language Model (LLMS) ontwikkelt uw groeiende gezin QWQ-32BEen nieuw regiomodel van 32 miljard parameter ontworpen om de prestaties van complexe probleemoplossingsfuncties te verbeteren door middel van versterkingsleren (RL).

Het model is beschikbaar als open gewicht Keelgezicht en op Modelcope Onder Apache 2.0 -licentie. Dit betekent dat het beschikbaar is voor commercieel en onderzoeksgebruik, zodat ondernemingen het onmiddellijk kunnen gebruiken om hun producten en applicaties kracht te geven (zelfs zij vragen zich om klanten te gebruiken).

Het is ook toegankelijk voor individuele gebruikers Qwen chat,,

Alibaba Antwoord voor Qwen -With -Quations Openai’s oorspronkelijke logische model O1

QWQ, klein voor Qwen-With-Quations, werd in november 2024 geïntroduceerd als een open-source region-model door Alibaba, dat was gericht op concurrentie met Openai’s O1-preview.

Op het moment van lancering is het model ontworpen om de logische logica en het plan te verbeteren door de reacties te herzien en te verfijnen tijdens schattingen, een techniek die het bijzonder effectief maakte in wiskunde- en coderingstaken.

De eerste versie van de QWQ werd uitgebracht in november 2024 (“QWQ”) 32 miljard parameters genaamd, evenals een referentiedank 32.000. Alibaba benadrukte zijn vermogen om O1-preview te verbeteren in wiskundige benchmarks zoals AIME en Math, evenals wetenschappelijke logische werken zoals GPQA.

Ondanks zijn kracht vocht de eerste herhalingen van de QWQ gevochten met programmeerbenchmarks zoals LiveCodebench, waar het model van Openai een voorsprong handhaafde. Bovendien stond de QWQ met verschillende opkomende logische modellen voor uitdagingen zoals taalmengsel en actuele cirkelvormige logische lussen.

De beslissing van Alibaba om het model onder Apache 2.0 -licentie uit te brengen, zorgt er echter voor dat ontwikkelaars en ondernemingen het onafhankelijk kunnen aanpassen en commercialiseren, waardoor het wordt gescheiden van eigendomsopties zoals O1 van OpenAI.

Sinds de eerste release van de QWQ heeft het AI -landschap zich snel ontwikkeld. De grenzen van traditionele LLM zijn meer uitgesproken geworden, waarin schaalwetten een laag rendement krijgen in de hervormingen van de prestaties.

Deze innings heeft interesse gecreëerd in het Larg Region Model (LRMS), een nieuwe categorie van AI-systeem dat verwacht argument en zelfvertrouwen gebruikt om de nauwkeurigheid te vergroten. Deze omvatten de O3-serie van Openai en de enorme Deepsek-R1, de kwantitatieve analyse van Hong Kong, een uitloper van het hoogvliegkapitaalbeheer.

Een nieuw rapport Van de webverkeeranalyses en onderzoeksbureaus, dit is dat sinds de lancering van R1 in januari 2024, DipSek de kaart heeft opgeschrikt om de website te worden om de website te worden die het meest bezochte AI -model achter de Openiai is.

Credit,, Evenzo is AI een trend op de globale sector generatieve AI

QWQ-32B, de nieuwste herhaling van Alibaba, integreert deze vorderingen door te integreren en gestructureerde zelfbenoeming, geeft het de positie als een serieuze deelnemer in het groeiende veld van logisch-gerichte AI.

De referentiedlengte van het nieuwe model is verlengd tot 131.000 tokens, evenals 128.000 modellen van Openaii en vele anderen, hoewel echter echter echter De verwijzing naar Google Gemini 2.0 is beter op 2 miljoen tokens. (Recall-referentie verwijst naar het aantal tokens dat LLM in dezelfde interactie kan invoeren/uitvoer, betekent meer informatie met hoge tokens. 131.000 tokens zijn gelijk aan een boek van ongeveer 300 pagina’s.

Veelkleurig

Traditionele instructiemodellen worstelen vaak met moeilijke logische taken, maar het onderzoek van Quven Team suggereert dat RL het vermogen van een model om complexe problemen op te lossen aanzienlijk kan verbeteren.

QWQ-32B creëert dit idee door een Multi-Step RL-trainingsaanpak te implementeren om het wiskundige argument, codeervaardigheid en algemene probleemoplossing te vergroten.

Het model is benchmark tegen belangrijke opties zoals DIPSEK-R1, O1-MUNE en DIPSEK-R1-DYNDI-QUEN-32B, wat concurrerende resultaten aantoont ondanks sommige van deze modellen.

Hoewel DipSek-R1 bijvoorbeeld werkt met 671 miljard parameters (met 37 miljard actief), ontvangt QWQ-32B vergelijkbare prestaties met een zeer kleine voetafdruk-meestal vereist 24 GB vram op een GPU (H100s van Nvidia heeft 80 GB) meer dan 1500 GB VRAM Markeer de efficiëntie van de RL -benadering van QWen – om de volledige Deepsek R1 (16 NVIDIA A100 GPU) te laten draaien.

QWQ-32B Eén reden volgt op taalmodelarchitectuur en bevat vele aanpassingen:

  • 64 Transformatorlagen met touw, swaglu, rmsnorm en aandacht QKV bias;
  • Gegeneraliseerde querry-meditatie (GQA) met 40 meditatiekoppen voor query en 8 voor de sleutelwaardeparen;
  • De uitgebreide referentielengte van 131.072 tokens maakt een betere behandeling van langetermijnsequentie -ingangen mogelijk;
  • Multi-fase training, waaronder pretik, onder toezicht staande verfijning en RL.

Het RL-proces voor QWQ-32B werd in twee fasen uitgevoerd:

  1. Wiskunde en coderingsfocus: Het model werd getraind met behulp van een nauwkeurigheidsverificatie voor wiskundige logica en een code -uitvoeringsserver voor coderingswerken. Deze benadering zorgde ervoor dat de gegenereerde antwoorden geldig waren voor zuiverheid voordat ze werden versterkt.
  2. Algemene capaciteitsverbetering: In een tweede fase ontving het model op beloning gebaseerde training met behulp van een algemeen prijzenmodel en op regel gebaseerde Verifier. Deze fase verbeterde de instructies, de menselijke afstemming en de agent betoogd zonder hun wiskunde en coderingsmogelijkheden in gevaar te brengen.

Wat betekent dit voor besluitvorming van ondernemingen

Voor enterprise-leiders, CTO’s, IT-leiders, teammanagers en AI-app, inclusief een mogelijke verandering, inclusief QWQ-32B vertegenwoordigt een mogelijke verandering van hoe AI de zakelijke besluitvorming en technologische innovatie kan ondersteunen.

Met zijn RL-aangedreven argumentencapaciteiten kan het model nauwkeuriger, gestructureerd en referentie-inconceiveerbaar inzicht bieden, waardoor het waardevol kan zijn voor het gebruik van cases zoals geautomatiseerde gegevensanalyse, strategisch plan, softwareontwikkeling en intelligente automatisering.

Bedrijven die AI-oplossingen implementeren voor complexe probleemoplossing, coderingshulp, financiële modellering of automatisering van klantenservice, kunnen de efficiëntie van QWQ-32B een aantrekkelijke optie vinden. Bovendien kunnen de beschikbaarheid van open gewicht organisaties het model voor domeinspecifieke toepassingen repareren en optimaliseren zonder eigendomsbeperkingen, waardoor deze onderneming een flexibele optie is voor AI-strategieën.

Het feit dat het afkomstig is van Chinese e-commerce reuzen kan enige veiligheid en vooroordelen vergroten voor sommige niet-Chinese gebruikers, vooral bij het gebruik van QWEN-chatinterfaces. Maar met deepsek-R1 is het feit dat het model beschikbaar is op het gezicht van het gezicht om te downloaden en offline gebruik, en verfijning of terugtrekkende laat zien dat ze gemakkelijk kunnen worden verwijderd. En het is een haalbare optie van Deepsek-R1.

Eerste reacties van AI -krachtgebruikers en getroffen

De release van QWQ-32B heeft al de aandacht getrokken van AI Research and Development Community, waarin veel ontwikkelaars en professionals in de industrie hun eerste indruk hebben gedeeld op X (East Twitter):

  • Keelgezicht Vaibhav Srivastav (@reach_vb) QWQ-32B snelheid gemarkeerd in dank aan de provider Overweldigend laboratoriumHet wordt vergelijkbaar genoemd voor “Blazing snel” en topmodellen. Hij zei ook dat het model “DipSek-R1 en Openi O1-Mune beats met Apache 2.0-licentie.”
  • AI Nieuws en geruchtenuitgever Chabbu (@kimmonismus) Het model werd beïnvloed door de prestaties en benadrukte dat de QWQ-32B soms beter presteert dan de DIPSEC-R1, ondanks dat het 20 keer kleiner was. “Holy Moli! Qwen gekookt! ” Zij geschreven,,
  • Yuchain Jin (@yuchenj_uw), Mede-oprichter en CTO van hyperbolische laboratoria,, Het vieren van de release, rekening houdend met de efficiëntievoordelen. “Kleine modellen zijn zo krachtig! Alibaba Quvens bracht de QWQ-32B uit, een argumentmodel, dat deepsek-R1 (671B) en Openi O1-Mune versloeg! ,,
  • Lid van een ander knuffelend gezichtsteam, Eric Kajismaki (@erikkaum) De nadruk op het gemak van implementatie, en deelt het model dat het model beschikbaar is voor een klikinstelling wanneer het model gezicht eindpunten beschikbaar zijn, die toegankelijk zijn voor ontwikkelaars zonder een uitgebreide opstelling.

Agentschapscapaciteit

De QWQ-32B bevat agentmogelijkheden, waardoor het kan worden aangepast aan dynamische logica op basis van omgevingsreactie.

Voor optimale prestaties beveelt QWEN -team aan om de volgende schatting -instellingen te gebruiken:

  • temperatuur: 0,6
  • Toppos: 0,95
  • Hoofd: Tussen 20-40
  • Garenschaling: 32.768 aanbevolen om langer te verwerken dan tokens

Het model ondersteunt de implementatie met behulp van VLLM, een framework met een hoog tropisch infecties. De huidige implementatie van VLLM ondersteunt echter alleen statische garenschaling, die een bepaalde schaalfactor handhaaft, ongeacht de ingangslengte.

Toekomstige ontwikkeling

Het team van Qwen ziet QWQ-32B als de eerste stap in schaal om de RL te vergroten om de logische mogelijkheden te vergroten. Ik kijk vooruit, het team is van plan:

  • Onderzoek schalen RL om verdere modelinformatie te verbeteren;
  • Agenten integreren met RL voor langdurige logica;
  • Blijf aangepaste funderingsmodellen voor RL ontwikkelen;
  • Ga naar kunstmatige algemene intelligentie (AGI) via meer geavanceerde trainingstechnieken.

Met QWQ-32B creëert het QWEN-team de RL-positie als een belangrijke coureur van de volgende generatie AI-model, waaruit blijkt dat schaalvoordelen zeer presterende en effectieve logische systemen kan produceren.



Bronlink

Related Articles

Back to top button