Meta stelt nieuwe schaalbare geheugenlagen voor die de kennis verbeteren en hallucinaties verminderen
Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
Terwijl bedrijven grote taalmodellen (LLM’s) blijven gebruiken in verschillende toepassingen, is een van de belangrijkste uitdagingen waarmee ze worden geconfronteerd het verbeteren van de feitelijke kennis van modellen en het verminderen van hallucinaties. In een nieuw artikel zeggen onderzoekers van Meta-AI voorstellen “schaalbare geheugenlagen”, wat een van de mogelijke oplossingen voor dit probleem zou kunnen zijn.
Schaalbare geheugenlagen voegen meer parameters toe aan LLM’s om hun leercapaciteit te vergroten zonder dat hiervoor extra rekenbronnen nodig zijn. De architectuur is handig voor toepassingen waarbij u extra geheugen kunt reserveren voor feitelijke kennis, maar ook de inferentiesnelheid van snellere modellen wilt hebben.
Dichte en geheugenlagen
Traditionele taalmodellen gebruiken ‘dichte lagen’ om grote hoeveelheden informatie in hun parameters te coderen. In dichte lagen worden alle parameters op hun volledige capaciteit gebruikt en worden ze meestal tegelijkertijd geactiveerd tijdens gevolgtrekking. Dichte lagen kunnen complexe functies leren, en voor het vergroten ervan zijn extra computer- en energiebronnen nodig.
Voor eenvoudige feitelijke kennis zouden veel eenvoudigere lagen met associatieve geheugenarchitecturen daarentegen efficiënter en interpreteerbaarder zijn. Dit is wat geheugenlagen doen. Ze gebruiken eenvoudige, schaarse activeringen en mechanismen voor het opzoeken van sleutelwaarden om kennis te coderen en op te halen. Sparse lagen nemen meer geheugen in beslag dan dichte lagen, maar gebruiken slechts een klein deel van de parameters tegelijk, waardoor ze veel rekenefficiënter zijn.
Geheugenlagen bestaan al enkele jaren, maar worden zelden gebruikt in moderne deep learning-architecturen. Ze zijn niet geoptimaliseerd voor de huidige hardwareversnellers.
De huidige grensoverschrijdende LLM’s maken gewoonlijk gebruik van een vorm van ‘mixture of experts’ (MoE)-architectuur, die gebruik maakt van een mechanisme dat vaag lijkt op geheugenlagen. MoE-modellen zijn samengesteld uit veel kleinere expertcomponenten die gespecialiseerd zijn in specifieke taken. Op het moment van inferentie bepaalt een routeringsmechanisme welke expert wordt geactiveerd op basis van de invoerreeks. PEER, een architectuur die onlangs is ontwikkeld door Google DeepMind, breidt MoE uit naar miljoenen experts, waardoor een meer gedetailleerde controle wordt geboden over de parameters die worden geactiveerd tijdens gevolgtrekking.
Geheugenlagen upgraden
Geheugenlagen zijn licht voor rekenkracht, maar zwaar voor geheugen, wat specifieke uitdagingen met zich meebrengt voor de huidige hardware- en softwareframeworks. In hun artikel stellen de Meta-onderzoekers verschillende aanpassingen voor die deze uitdagingen oplossen en het mogelijk maken om ze op grote schaal te gebruiken.
Ten eerste hebben de onderzoekers de geheugenlagen geconfigureerd voor parallellisatie, door ze over verschillende GPU’s te verdelen om miljoenen sleutel-waardeparen op te slaan zonder andere lagen in het model te veranderen. Ze implementeerden ook een speciale CUDA-kernel voor het verwerken van bewerkingen met een grote geheugenbandbreedte. En ze ontwikkelden een mechanisme voor het delen van parameters dat een enkele set geheugenparameters ondersteunt over meerdere geheugenlagen binnen een model. Dit betekent dat de sleutels en waarden die voor zoekopdrachten worden gebruikt, over de lagen heen worden gedeeld.
Deze aanpassingen maken het mogelijk om geheugenlagen binnen LLM’s te implementeren zonder het model te vertragen.
“Geheugenlagen met hun schaarse activeringen vormen een mooie aanvulling op dichte netwerken, waardoor ze een grotere capaciteit voor kennisverwerving bieden en tegelijkertijd weinig rekenkracht vereisen”, schrijven de onderzoekers. “Ze kunnen efficiënt worden geschaald en bieden beoefenaars een aantrekkelijke nieuwe richting om geheugen in te ruilen voor rekenkracht.”
Om geheugenlagen te testen, hebben de onderzoekers Llama-modellen aangepast door een of meer dichte lagen te vervangen door een gedeelde geheugenlaag. Ze vergeleken de modellen met geheugenverbetering met de compacte LLM’s, evenals MoE- en PEER-modellen voor verschillende taken, waaronder het beantwoorden van feitelijke vragen, wetenschappelijke en op gezond verstand gebaseerde wereldkennis en codering.
Hun bevindingen laten zien dat geheugenmodellen aanzienlijk verbeteren ten opzichte van dichte basislijnen en concurreren met modellen die 2x tot 4x meer rekenkracht gebruiken. Ze komen ook overeen met de prestaties van MoE-modellen met hetzelfde rekenbudget en hetzelfde aantal parameters. De prestaties van het model zijn vooral opmerkelijk bij taken waarvoor feitelijke kennis vereist is. Bij het beantwoorden van feitelijke vragen benadert een geheugenmodel met 1,3 miljard parameters bijvoorbeeld de prestaties van Llama-2-7B, die is getraind op twee keer zoveel tokens en 10x meer rekenkracht.
Bovendien ontdekten de onderzoekers dat de voordelen van geheugenmodellen consistent blijven met de modelgrootte, terwijl ze hun experimenten opschaalden van 134 miljoen naar 8 miljard parameters.
“Gezien deze bevindingen pleiten we er sterk voor dat geheugenlagen worden geïntegreerd in alle AI-architecturen van de volgende generatie”, schrijven de onderzoekers, terwijl ze eraan toevoegen dat er nog veel meer ruimte voor verbetering is. “In het bijzonder hopen we dat er nieuwe leermethoden kunnen worden ontwikkeld om de effectiviteit van deze lagen nog verder te vergroten, waardoor minder vergeten, minder hallucinaties en voortdurend leren mogelijk worden.”
Source link