Toernooien

Hoe de volgende generatie BitNet-architectuur van Microsoft de LLM-efficiëntie een boost geeft


Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


One-bit large taalmodellen (LLM’s) zijn naar voren gekomen als een veelbelovende aanpak om generatieve AI toegankelijker en betaalbaarder te maken. Door modelgewichten met een zeer beperkt aantal bits weer te geven, verminderen 1-bit LLM’s dramatisch het geheugen en de rekenbronnen die nodig zijn om ze uit te voeren.

Microsoft-onderzoek heeft met zijn BitNet-architectuur de grenzen van 1-bit LLM’s verlegd. In een nieuw papierintroduceren de onderzoekers BitNet a4.8, een nieuwe techniek die de efficiëntie van 1-bit LLM’s verder verbetert zonder hun prestaties op te offeren.

De opkomst van 1-bit LLM’s

Traditionele LLM’s gebruiken 16-bit drijvende-kommagetallen (FP16) om hun parameters weer te geven. Dit vereist veel geheugen en computerbronnen, wat de toegankelijkheid en implementatiemogelijkheden voor LLM’s beperkt. Eén-bit LLM’s gaan deze uitdaging aan door de precisie van modelgewichten drastisch te verminderen en tegelijkertijd de prestaties van modellen met volledige precisie te evenaren.

Eerdere BitNet-modellen gebruikten 1,58-bits waarden (-1, 0, 1) om modelgewichten weer te geven en 8-bits waarden voor activeringen. Deze aanpak verminderde de geheugen- en I/O-kosten aanzienlijk, maar de rekenkosten van matrixvermenigvuldigingen bleven een knelpunt, en het optimaliseren van neurale netwerken met extreem lage bitparameters is een uitdaging.

Twee technieken helpen dit probleem aan te pakken. Sparsificatie vermindert het aantal berekeningen door activeringen met kleinere magnitudes te snoeien. Dit is met name handig bij LLM’s omdat activeringswaarden doorgaans een lange distributie hebben, met een paar zeer grote waarden en veel kleine waarden.

Kwantisering daarentegen gebruikt een kleiner aantal bits om activeringen weer te geven, waardoor de reken- en geheugenkosten voor de verwerking ervan worden verminderd. Het eenvoudigweg verlagen van de nauwkeurigheid van activeringen kan echter leiden tot aanzienlijke kwantiseringsfouten en verslechtering van de prestaties.

Bovendien is het combineren van sparsificatie en kwantisering een uitdaging, en levert dit speciale problemen op bij het trainen van 1-bit LLM’s.

“Zowel kwantisering als sparsificatie introduceren niet-differentieerbare bewerkingen, waardoor gradiëntberekeningen tijdens de training bijzonder uitdagend worden”, vertelde Furu Wei, Partner Research Manager bij Microsoft Research, aan VentureBeat.

Gradiëntberekening is essentieel voor het berekenen van fouten en het bijwerken van parameters bij het trainen van neurale netwerken. De onderzoekers moesten er ook voor zorgen dat hun technieken efficiënt konden worden geïmplementeerd op bestaande hardware, terwijl de voordelen van zowel sparsificatie als kwantisering behouden bleven.

BitNet a4.8

BitNet a4.8 pakt de uitdagingen aan van het optimaliseren van 1-bit LLM’s door middel van wat de onderzoekers omschrijven als “hybride kwantisering en sparsificatie.” Ze bereikten dit door een architectuur te ontwerpen die selectief kwantisering of sparsificatie toepast op verschillende componenten van het model op basis van het specifieke distributiepatroon van activeringen. De architectuur maakt gebruik van 4-bits activeringen voor invoer naar aandachts- en feed-forward netwerklagen (FFN). Het maakt gebruik van sparsificatie met 8 bits voor tussenliggende toestanden, waarbij alleen de bovenste 55% van de parameters behouden blijft. De architectuur is ook geoptimaliseerd om te profiteren van bestaande hardware.

“Met BitNet b1.58 schakelt het inferentieknelpunt van 1-bit LLM’s over van geheugen/IO naar berekening, wat wordt beperkt door de activeringsbits (dwz 8-bit in BitNet b1.58)”, zei Wei. “In BitNet a4.8 pushen we de activeringsbits naar 4-bit, zodat we 4-bit-kernels (bijvoorbeeld INT4/FP4) kunnen gebruiken om 2x de snelheid te verhogen voor LLM-inferentie op de GPU-apparaten. De combinatie van 1-bit modelgewichten van BitNet b1.58 en 4-bit activeringen van BitNet a4.8 pakt effectief zowel geheugen/IO als rekenbeperkingen in LLM-inferentie aan.”

BitNet a4.8 gebruikt ook 3-bits waarden om de sleutel- (K) en waarde- (V) toestanden in het aandachtsmechanisme weer te geven. De KV-cache is een cruciaal onderdeel van transformatormodellen. Het slaat de representaties van eerdere tokens in de reeks op. Door de precisie van KV-cachewaarden te verlagen, vermindert BitNet a4.8 de geheugenvereisten verder, vooral als het om lange reeksen gaat.

De belofte van BitNet a4.8

Experimentele resultaten tonen aan dat BitNet a4.8 prestaties levert die vergelijkbaar zijn met zijn voorganger BitNet b1.58, terwijl het minder rekenkracht en geheugen gebruikt.

Vergeleken met de volledig nauwkeurige Llama-modellen vermindert BitNet a4.8 het geheugengebruik met een factor 10 en wordt een snelheid van 4x bereikt. Vergeleken met BitNet b1.58 bereikt het een 2x versnelling via 4-bit activeringskernels. Maar het ontwerp kan veel meer opleveren.

“De geschatte rekenverbetering is gebaseerd op de bestaande hardware (GPU)”, zei Wei. “Met hardware die specifiek is geoptimaliseerd voor 1-bit LLM’s, kunnen de rekenverbeteringen aanzienlijk worden verbeterd. BitNet introduceert een nieuw rekenparadigma dat de noodzaak van matrixvermenigvuldiging minimaliseert, een primaire focus in de huidige optimalisatie van hardwareontwerp.”

De efficiëntie van BitNet a4.8 maakt het bijzonder geschikt voor het inzetten van LLM’s aan de edge en op apparaten met beperkte middelen. Dit kan belangrijke gevolgen hebben voor de privacy en veiligheid. Door LLM’s op het apparaat in te schakelen, kunnen gebruikers profiteren van de kracht van deze modellen zonder dat ze hun gegevens naar de cloud hoeven te sturen.

Wei en zijn team zetten hun werk aan 1-bit LLM’s voort.

“We blijven ons onderzoek en onze visie voor het tijdperk van 1-bit LLM’s bevorderen”, zei Wei. “Hoewel onze huidige focus ligt op modelarchitectuur en softwareondersteuning (dwz bitnet.cpp), willen we het co-ontwerp en de co-evolutie van modelarchitectuur en hardware verkennen om het potentieel van 1-bit LLM’s volledig te ontsluiten.”



Source link

Related Articles

Back to top button