Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


Het verbeteren van de mogelijkheden van grote taalmodellen (LLM’s) bij het ophalen van onmiddellijke informatie blijft een gebied van actief onderzoek dat van invloed kan zijn op belangrijke toepassingen zoals retrieval-augmentedgeneration (RAG) en in-context learning (ICL).

Onderzoekers van Microsoft Research en Tsinghua University hebben Differential Transformer (Diff Transformer) geïntroduceerd, een nieuwe LLM-architectuur die de prestaties verbetert door de aandacht voor relevante context te vergroten en tegelijkertijd ruis weg te filteren. Hun bevindingen, gepubliceerd in een onderzoekspaper, laten zien dat Diff Transformer in verschillende omgevingen beter presteert dan de klassieke Transformer-architectuur.

Transformers en het ‘lost-in-the-middle’-fenomeen

De Transformer-architectuur vormt de basis van de meeste moderne LLM’s. Het maakt gebruik van een aandachtsmechanisme om het belang van verschillende delen van de invoerreeks af te wegen bij het genereren van uitvoer. Het aandachtsmechanisme maakt gebruik van de softmax-functie, die een vector van waarden normaliseert in een waarschijnlijkheidsverdeling. In Transformers wijst de softmax-functie aandachtsscores toe aan verschillende tokens in de invoerreeks.

Studies hebben echter aangetoond dat Transformers moeite hebben om belangrijke informatie uit lange contexten te halen.

“We zijn begonnen met het onderzoeken van het zogenaamde ‘lost-in-the-middle’-fenomeen,” vertelde Furu Wei, Partner Research Manager bij Microsoft Research, aan VentureBeat, verwijzend naar eerdere onderzoeksresultaten waaruit bleek dat LLM’s “niet op robuuste wijze gebruik maken van informatie in lange invoercontexten” en dat “de prestaties aanzienlijk verslechteren wanneer modellen toegang moeten krijgen tot relevante informatie te midden van lange contexten.”

Wei en zijn collega’s merkten ook op dat sommige LLM-hallucinaties, waarbij het model onjuiste resultaten produceert ondanks relevante contextinformatie, correleren met valse aandachtspatronen.

“Grote taalmodellen worden bijvoorbeeld gemakkelijk afgeleid door de context”, zegt Wei. “We hebben de aandachtspatronen geanalyseerd en ontdekt dat de Transformer-aandacht de neiging heeft om te veel aandacht te besteden aan irrelevante context vanwege het softmax-knelpunt.”

De softmax-functie die wordt gebruikt in het aandachtsmechanisme van Transformer heeft de neiging de aandachtsscores over alle tokens te verdelen, zelfs degenen die niet relevant zijn voor de taak. Dit kan ertoe leiden dat het model de focus verliest op de belangrijkste delen van de invoer, vooral in lange contexten.

“Eerdere studies geven aan dat de softmax-aandacht de neiging heeft om laagfrequente signalen te leren, omdat de softmax-aandachtsscores beperkt zijn tot positieve waarden en moeten worden opgeteld tot 1,” zei Wei. “Het theoretische knelpunt zorgt ervoor dat de klassieke Transformer geen schaarse aandachtsverdelingen kan leren. Met andere woorden: de aandachtsscores hebben de neiging af te vlakken in plaats van zich te concentreren op de relevante context.”

Differentiële transformator

Differentiële transformator (bron: arXiv)

Om deze beperking aan te pakken, ontwikkelden de onderzoekers de Diff Transformer, een nieuwe basisarchitectuur voor LLM’s. Het kernidee is om een ​​‘differentiële aandacht’-mechanisme te gebruiken dat ruis annuleert en de aandacht versterkt die aan de meest relevante delen van de input wordt besteed.

De Transformer gebruikt drie vectoren om de aandacht te berekenen: query, sleutel en waarde. Het klassieke aandachtsmechanisme voert de softmax-functie uit op de gehele query- en sleutelvectoren.

De voorgestelde differentiële aandacht werkt door de vraag- en sleutelvectoren in twee groepen te verdelen en twee afzonderlijke softmax-aandachtskaarten te berekenen. Het verschil tussen deze twee kaarten wordt vervolgens gebruikt als de aandachtsscore. Dit proces elimineert veelvoorkomende ruis en moedigt het model aan zich te concentreren op informatie die relevant is voor de invoer.

De onderzoekers vergelijken hun aanpak met ruisonderdrukkende hoofdtelefoons of differentiële versterkers in de elektrotechniek, waarbij het verschil tussen twee signalen common-mode-ruis opheft.

Hoewel Diff Transformer een extra aftrekbewerking met zich meebrengt vergeleken met de klassieke Transformer, blijft de efficiëntie behouden dankzij parallellisatie- en optimalisatietechnieken.

“In de experimentele opstelling hebben we het aantal parameters en FLOP’s met Transformers vergeleken”, zei Wei. “Omdat de basisoperator nog steeds softmax is, kan deze ook profiteren van de veelgebruikte FlashAttention cuda-kernels voor versnelling.”

Achteraf gezien lijkt de methode die in Diff Transformer wordt gebruikt een eenvoudige en intuïtieve oplossing. Wei vergelijkt het met ResNet, een populaire deep learning-architectuur die ‘resterende verbindingen’ introduceerde om de training van zeer diepe neurale netwerken te verbeteren. Resterende verbindingen zorgden voor een zeer eenvoudige verandering in de traditionele architectuur en hadden toch een diepgaande impact.

“Bij onderzoek is het de sleutel om erachter te komen ‘wat is het juiste probleem?’” zei Wei. “Als we eenmaal de juiste vraag kunnen stellen, is de oplossing vaak intuïtief. Net als bij ResNet is de resterende verbinding een optelling, vergeleken met de aftrekking in Diff Transformer, dus het was voor onderzoekers niet meteen duidelijk om het idee voor te stellen.”

Diff-transformator in actie

De onderzoekers evalueerden Diff Transformer op verschillende taalmodelleringstaken en schaalden het op in termen van modelgrootte (van 3 miljard naar 13 miljard parameters), trainingstokens en contextlengte (tot 64.000 tokens).

Uit hun experimenten bleek dat Diff Transformer consistent beter presteert dan de klassieke Transformer-architectuur in verschillende benchmarks. Een Diff Transformer met 3 miljard parameters, getraind op 1 biljoen tokens, vertoonde consistente verbeteringen van verschillende procentpunten vergeleken met Transformer-modellen van vergelijkbare grootte.

Verdere experimenten met verschillende modelgroottes en trainingsdatasetgroottes bevestigden de schaalbaarheid van Diff Transformer. Hun bevindingen suggereren dat Diff Transformer over het algemeen slechts ongeveer 65% van de modelgrootte of trainingstokens nodig heeft die een klassieke Transformer nodig heeft om vergelijkbare prestaties te bereiken.

Diff Transformer-prestaties
De Diff Transformer is efficiënter dan de klassieke Transformer in termen van zowel parameters als treintokens (bron: arXiv)

De onderzoekers ontdekten ook dat Diff Transformer bijzonder effectief is in het gebruik van toenemende contextlengtes. Het liet significante verbeteringen zien in het ophalen van belangrijke informatie, het beperken van hallucinaties en in-context leren.

Hoewel de eerste resultaten veelbelovend zijn, is er nog steeds ruimte voor verbetering. Het onderzoeksteam werkt aan het opschalen van Diff Transformer naar grotere modelgroottes en trainingsdatasets. Ze zijn ook van plan het uit te breiden naar andere modaliteiten, waaronder beeld-, audio-, video- en multimodale data.

De onderzoekers hebben de code voor Diff Transformer vrijgegeven, geïmplementeerd met verschillende aandachts- en optimalisatiemechanismen. Ze geloven dat de architectuur de prestaties van verschillende LLM-applicaties kan helpen verbeteren.

“Omdat het model nauwkeuriger rekening kan houden met de relevante context, wordt verwacht dat deze taalmodellen de contextinformatie beter kunnen begrijpen met minder in-context hallucinaties,” zei Wei. “Voor de instellingen voor het genereren van ophaalmogelijkheden (zoals Bing Chat, Perplexity en aangepaste modellen voor specifieke domeinen of industrieën) kunnen de modellen bijvoorbeeld nauwkeurigere antwoorden genereren door de opgehaalde documenten te conditioneren.”