Beyond RAG: hoe cache-augmented generatie de latentie en complexiteit voor kleinere workloads vermindert
![](/wp-content/uploads/2025/01/TJVRewV0S_GqJz_1gX2vEw.webp-780x470.png)
Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
Retrieval-augmentedgeneration (RAG) is de de facto manier geworden om grote taalmodellen (LLM’s) aan te passen voor op maat gemaakte informatie. RAG brengt echter vooraf technische kosten met zich mee en kan traag zijn. Dankzij de vooruitgang op het gebied van LLM’s met lange context kunnen bedrijven RAG nu omzeilen door alle bedrijfseigen informatie in de prompt in te voegen.
A nieuwe studie van de National Chengchi University in Taiwan laat zien dat je door het gebruik van lange-context LLM’s en cachingtechnieken aangepaste applicaties kunt maken die beter presteren dan RAG-pijplijnen. Deze aanpak, cache-augmented generatie (CAG) genoemd, kan een eenvoudige en efficiënte vervanging zijn voor RAG in bedrijfsomgevingen waar het kenniscorpus in het contextvenster van het model kan passen.
Beperkingen van RAG
RAG is een effectieve methode voor het afhandelen van open domeinvragen en gespecialiseerde taken. Het maakt gebruik van ophaalalgoritmen om documenten te verzamelen die relevant zijn voor het verzoek en voegt context toe zodat de LLM nauwkeurigere antwoorden kan formuleren.
RAG introduceert echter verschillende beperkingen voor LLM-toepassingen. De toegevoegde ophaalstap introduceert latentie die de gebruikerservaring kan verslechteren. Het resultaat hangt ook af van de kwaliteit van de documentselectie en rangschikkingsstap. In veel gevallen vereisen de beperkingen van de modellen die worden gebruikt voor het ophalen dat documenten in kleinere stukken worden opgesplitst, wat het ophaalproces kan schaden.
En over het algemeen voegt RAG complexiteit toe aan de LLM-applicatie, waardoor de ontwikkeling, integratie en onderhoud van aanvullende componenten vereist zijn. De extra overhead vertraagt het ontwikkelingsproces.
Cache-uitgebreid ophalen
Het alternatief voor het ontwikkelen van een RAG-pijplijn is om het volledige documentcorpus in de prompt in te voegen en het model te laten kiezen welke bits relevant zijn voor het verzoek. Deze aanpak elimineert de complexiteit van de RAG-pijplijn en de problemen die worden veroorzaakt door ophaalfouten.
Er zijn echter drie belangrijke uitdagingen bij het vooraf laden van alle documenten in de prompt. Ten eerste zullen lange prompts het model vertragen en de kosten van gevolgtrekking verhogen. Ten tweede stelt de lengte van het contextvenster van de LLM grenzen aan het aantal documenten dat in de prompt past. En ten slotte kan het toevoegen van irrelevante informatie aan de prompt het model in verwarring brengen en de kwaliteit van de antwoorden verminderen. Als u dus al uw documenten in de prompt plaatst in plaats van de meest relevante te kiezen, kan dit de prestaties van het model negatief beïnvloeden.
De voorgestelde CAG-aanpak maakt gebruik van drie belangrijke trends om deze uitdagingen te overwinnen.
Ten eerste maken geavanceerde cachingtechnieken het sneller en goedkoper om promptsjablonen te verwerken. Het uitgangspunt van CAG is dat de kennisdocumenten worden opgenomen in elke prompt die naar het model wordt verzonden. Daarom kunt u de attentiewaarden van hun tokens vooraf berekenen in plaats van dit te doen wanneer u verzoeken ontvangt. Deze berekening vooraf vermindert de tijd die nodig is om gebruikersverzoeken te verwerken.
Toonaangevende LLM-providers zoals OpenAI, Anthropic en Google bieden promptcachingfuncties voor de repetitieve delen van uw prompt, waaronder de kennisdocumenten en instructies die u aan het begin van uw prompt invoegt. Met Anthropic kunt u de kosten met maximaal 90% en de latentie met 85% verlagen voor de in de cache opgeslagen delen van uw prompt. Er zijn gelijkwaardige cachingfuncties ontwikkeld voor open-source LLM-hostingplatforms.
Ten tweede maken LLM’s met een lange context het gemakkelijker om meer documenten en kennis in aanwijzingen te verwerken. Claude 3.5 Sonnet ondersteunt tot 200.000 tokens, terwijl GPT-4o 128.000 tokens ondersteunt en Gemini tot 2 miljoen tokens. Hierdoor is het mogelijk om meerdere documenten of hele boeken in de prompt op te nemen.
En ten slotte zorgen geavanceerde trainingsmethoden ervoor dat modellen in zeer lange reeksen beter kunnen zoeken, redeneren en vragen kunnen beantwoorden. In het afgelopen jaar hebben onderzoekers verschillende LLM-benchmarks ontwikkeld voor taken met een lange reeks, waaronder BABILlang, LangICLBenchEn LINIAAL. Deze benchmarks testen LLM’s op moeilijke problemen, zoals meervoudig ophalen en het beantwoorden van vragen met meerdere sprongen. Er is op dit gebied nog ruimte voor verbetering, maar AI-labs blijven vooruitgang boeken.
Naarmate nieuwere generaties modellen hun contextvensters blijven uitbreiden, zullen ze grotere kennisverzamelingen kunnen verwerken. Bovendien kunnen we verwachten dat modellen steeds beter worden in hun vermogen om relevante informatie uit lange contexten te extraheren en te gebruiken.
“Deze twee trends zullen de bruikbaarheid van onze aanpak aanzienlijk vergroten, waardoor deze meer complexe en diverse toepassingen kan verwerken”, schrijven de onderzoekers. “Daarom is onze methodologie goed gepositioneerd om een robuuste en veelzijdige oplossing te worden voor kennisintensieve taken, waarbij gebruik wordt gemaakt van de groeiende mogelijkheden van de volgende generatie LLM’s.”
RAG versus CAG
Om RAG en CAG te vergelijken, voerden de onderzoekers experimenten uit op twee algemeen erkende benchmarks voor het beantwoorden van vragen: Ploegdat zich richt op contextbewuste vragen en antwoorden vanuit afzonderlijke documenten, en HotPotQAwaarvoor multi-hop-redenering over meerdere documenten vereist is.
Ze gebruikten een Llama-3.1-8B-model met een contextvenster van 128.000 tokens. Voor RAG combineerden ze de LLM met twee zoeksystemen om passages te verkrijgen die relevant zijn voor de vraag: de basis BM25-algoritme en OpenAI-inbedding. Voor CAG hebben ze meerdere documenten uit de benchmark in de prompt ingevoegd en het model zelf laten bepalen welke passages moeten worden gebruikt om de vraag te beantwoorden. Uit hun experimenten blijkt dat CAG in de meeste situaties beter presteerde dan beide RAG-systemen.
![](http://venturebeat.com/wp-content/uploads/2025/01/image_e6f50f.png?w=800)
“Door de volledige context uit de testset vooraf te laden, elimineert ons systeem ophaalfouten en zorgt het voor een holistische redenering over alle relevante informatie”, schrijven de onderzoekers. “Dit voordeel is vooral duidelijk in scenario’s waarin RAG-systemen onvolledige of irrelevante passages kunnen ophalen, wat leidt tot suboptimale antwoordgeneratie.”
CAG verkort ook aanzienlijk de tijd om het antwoord te genereren, vooral omdat de lengte van de referentietekst toeneemt.
![](http://venturebeat.com/wp-content/uploads/2025/01/image_8e162a.png?w=800)
Dat gezegd hebbende, CAG is geen wondermiddel en moet met voorzichtigheid worden gebruikt. Het is zeer geschikt voor instellingen waarin de kennisbank niet vaak verandert en klein genoeg is om binnen het contextvenster van het model te passen. Bedrijven moeten ook voorzichtig zijn met gevallen waarin hun documenten tegenstrijdige feiten bevatten op basis van de context van de documenten, die het model tijdens gevolgtrekkingen zouden kunnen verwarren.
De beste manier om te bepalen of CAG goed is voor uw gebruiksscenario, is door een paar experimenten uit te voeren. Gelukkig is de implementatie van CAG heel eenvoudig en moet deze altijd worden beschouwd als een eerste stap voordat wordt geïnvesteerd in meer ontwikkelingsintensieve RAG-oplossingen.
Source link