Nieuws

Beyond the Raga: Search-R1 integreert de zoekmachine rechtstreeks in het logische model


Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer


Het grote taalmodel (LLM) heeft opmerkelijke vooruitgang gezien bij het gebruik van logische mogelijkheden. Hun vermogen om externe gegevens correct te verwijzen en te gebruiken – dergelijke informatie die ze niet zijn getraind – wordt echter grotendeels achtergelaten in combinatie met logica.

Dit is vooral een probleem wanneer LLMS dynamische, informatie-intensieve scenario’s gebruiken die actuele gegevens van de zoekmachine zoeken.

Maar er is een verbetering gekomen: Search-R1, geïntroduceerd in een techniek een papier Urbana-Shampain en de Universiteit van Massachusetts Amharst door onderzoekers van de Universiteit van Illinois, hebben LLM getraind om zoekopdracht te genereren en oorspronkelijk de zoekmachines te integreren in hun logica.

Enterprises ontdekten manieren om deze nieuwe modellen in hun applicaties te integreren, en beloofden technologie zoals zoek-R1 nieuwe logische mogelijkheden te ontgrendelen die afhankelijk zijn van externe gegevensbronnen.

Uitdaging om zoekopdracht te integreren met LLM

De zoekmachines zijn belangrijk om LLM-applicatie te bieden met up-to-date, externe kennis. Twee hoofdmethoden om zoekmachines met LLM te integreren, zijn het gebruik van herstel-gekoppelde generatie (RAG) en tools, die worden toegepast via vroege engineering of Op zijn beurt,,

Beide methoden hebben echter beperkingen die ze ongeschikt maken voor logische modellen. Rag worstelt vaak met herstelonzuiverheden en mist multi-turn, multi-toelige herstel, wat essentieel is voor logische functies.

Het gebruik van een op promping gebaseerde tool worstelt vaak met generalisatie, terwijl op training gebaseerde benaderingen een brede, geanoteerde gegevensset van zoek-en-rationing-interacties vereisen, die moeilijk op een schaal te produceren zijn.

(In onze eigen experimenten met logische modellen hebben we geconstateerd dat informatie een van de grootste uitdagingen is.)

Zoeken-R1

Met de zoek-R1 kan LLM interactie aangaan met de zoekmachine tijdens Hun logische proces in strijd met het hebben van een afzonderlijke herstelfase.

De Search-R1 definieert de zoekmachine als onderdeel van de omgeving van de LLM, waardoor het model zijn tokengeneratie kan integreren met motorresultaten.

Onderzoekers ontwierpen de Search-R1 om terugkerende argumenten te ondersteunen en te zoeken. Het model is getraind om afzonderlijke sets tokens te genereren voor het denken, zoeken, informatie en antwoordsecties. Dit betekent dat tijdens het logische proces (gemarkeerd door) Tag), als het model bepaalt dat het externe informatie vereist, genereert het De volgorde waarin de zoekopdracht vraag is. De query wordt vervolgens op een zoekmachine doorgegeven en het resultaat wordt in één in het referentievenster ingevoegd. Sectie. Het model blijft dan ruzie maken met de gekoppelde referentie en levert wanneer klaar de resultaten op Sectie.

Met deze structuur kan het model de zoekmachine meerdere keren uitnodigen omdat het de reden is over het probleem en nieuwe informatie krijgt (zie het onderstaande voorbeeld).

Voorbeeld van LLM-argument met Search-R1 (Bron: Arxiv)

Versterkingsopleiding

Training naar LLM is een uitdaging om de zoekopdracht te interleveren met uw logische keten. Om het proces te vereenvoudigen, ontwierpen de onderzoekers de Search-R1 om het model te trainen door middel van pure versterking leren (RL), waarbij het model wordt overgelaten om logica en zoektool te detecteren zonder begeleiding van menselijke gegevens.

De zoek-R1 maakt gebruik van een “op resultaat gebaseerd beloningsmodel”, waarin het model alleen wordt geëvalueerd op basis van de nauwkeurigheid van de uiteindelijke reactie. Dit elimineert de noodzaak om een ​​complex beloningsmodel te maken dat het logische proces van het model verifieert.

Dit is dezelfde aanpak die werd gebruikt in de Deepsek-R1-Zero, waar het model een taak kreeg en alleen werd beoordeeld op basis van het resultaat. Het gebruik van pure RL vermindert handmatig de noodzaak om grote datasets van geanoteerde voorbeelden te maken (begeleide verfijning).

Onderzoekers schrijven in hun paper: “De zoek-R1 kan worden gezien als een uitbreiding van DeepSek-R1, die voornamelijk gericht is op parametrische logica door de door de zoekopdracht gebrachte RL-training te starten voor vergrote herstelgestuurde besluitvorming.”

Zoeken-R1 in actie

Onderzoekers testten de Search-R1 en regisseerden de Aadhaar die de Aadhaar en de versies van QWEN-2.5 en LLAMA-3.2 repareerde en evalueerden deze op zeven benchmarks, waaronder een divers scala aan logische en multi-HOP-zoekopdracht vereiste argumenten vereist. Hij vergeleek de zoek-R1 met verschillende basislijnen: directe schattingen met (COT) argument op de ketting-off-Hers, schattingen met RIP en verfijning voor het gebruik van apparatuur.

Search-R1 verbetert de basismethoden continu met een juiste marge. Het verbetert ook het getrainde model op RL, maar zonder herstel van zoeken. “Het sluit aan bij de verwachtingen en biedt toegang tot relevante externe kennis als de ontdekking in LLM -logica, verbetert de algehele prestaties”, schrijven onderzoekers.

De zoek-R1 is ook effectief voor verschillende modelfamilies en zowel basis- als instructie-tune varianten, wat suggereert dat RL met resultaatgebaseerde prijzen nuttig kan zijn dan pure logische landschappen. Onderzoekers hebben uitgebracht Code voor zoek-R1 Op GitHub.

De mogelijkheid om een ​​autonome zoekopdracht te genereren en realtime informatie van zoek-R1 te integreren, kunnen belangrijke implicaties zijn voor bedrijfstoepassingen. Dit kan de nauwkeurigheid en betrouwbaarheid van LLM-geëxploiteerde systemen vergroten op gebieden zoals klantenservice, kennisbeheer en gegevensanalyse. Door LLM in staat te stellen LLM dynamisch te optimaliseren voor het wijzigen van informatie, kan de zoek-R1 helpen bij het maken van meer intelligente en verantwoordelijke AI-oplossingen. Deze mogelijkheid kan zeer nuttig zijn voor applicaties die frequente wijzigende gegevenstoegang vereisen, en dit vereist verschillende fasen om antwoorden te vinden.

Dit laat ook zien dat we het volledige potentieel van het paradigma moeten ontdekken om tot nu toe nieuwe versterking te leren die is ontstaan ​​sinds de release van DIPSEK-R1.



Bronlink

Related Articles

Check Also
Close
Back to top button