Meta lanceert Llama 3.3, een krimpend krachtig 405B open model
Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
Meta’s VP van generatieve AI, Ahmad Al-Dahle, ging vandaag de strijd aan met sociaal netwerk X de vrijlating aankondigen van Lama 3.3, het nieuwste open-source meertalige grote taalmodel (LLM) van het moederbedrijf van Facebook, Instagram, WhatsApp en Quest VR.
Zoals hij schreef: “Llama 3.3 verbetert de kernprestaties tegen aanzienlijk lagere kosten, waardoor het nog toegankelijker wordt voor de hele open-sourcegemeenschap.”
Met 70 miljard parameters (of instellingen die het gedrag van het model bepalen) levert Llama 3.3 resultaten die vergelijkbaar zijn met Meta’s 405B-parametermodel van de Llama 3.1 van de zomer, maar tegen een fractie van de kosten en rekenkundige overhead (bijvoorbeeld de GPU-capaciteit die nodig is om te kunnen werken). het model in een gevolgtrekking.
Het is ontworpen om topprestaties en toegankelijkheid te bieden, maar toch in een kleiner pakket dan eerdere funderingsmodellen.
Meta’s Llama 3.3 wordt aangeboden onder de Lama 3.3 Community-licentieovereenkomstdie een niet-exclusieve, royaltyvrije licentie verleent voor gebruik, reproductie, distributie en wijziging van het model en de resultaten ervan. Ontwikkelaars die Llama 3.3 in producten of diensten integreren, moeten de juiste bronvermelding opnemen, zoals ‘Built with Llama’, en zich houden aan een beleid voor acceptabel gebruik dat activiteiten verbiedt zoals het genereren van schadelijke inhoud, het overtreden van wetten of het mogelijk maken van cyberaanvallen. Hoewel de licentie over het algemeen gratis is, moeten organisaties met meer dan 700 miljoen maandelijkse actieve gebruikers rechtstreeks bij Meta een commerciële licentie verkrijgen.
Een verklaring van het AI bij Meta-team onderstreept deze visie: “Llama 3.3 levert toonaangevende prestaties en kwaliteit in op tekst gebaseerde gebruiksscenario’s tegen een fractie van de gevolgtrekkingskosten.”
Over hoeveel besparingen hebben we het eigenlijk? Wat rekenwerk achter de schermen:
Llama 3.1-405B vereist tussen 243 GB en 1944 GB GPU-geheugen, volgens de Substratus blog (voor het open source cross-cloudsubstraat). Ondertussen heeft de oudere Llama 2-70B tussen de 42 en 168 GB GPU-geheugen nodig, volgens de dezelfde bloghoewel hetzelfde is gebeurd geclaimd zo laag als 4 GBof zoals Exo Labs heeft laten zien, een paar Mac-computers met M4-chips en geen afzonderlijke GPU’s.
Als de GPU-besparingen voor modellen met lagere parameters in dit geval standhouden, kunnen degenen die Meta’s krachtigste open source Llama-modellen willen inzetten, verwachten dat ze tot bijna 1940 GB aan GPU-geheugen kunnen besparen, of mogelijk een 24 keer lagere GPU-belasting. voor een standaard 80 GB Nvidia H100-GPU.
Naar schatting $ 25.000 per H100 GPUdat is potentieel tot $600.000 aan GPU-kostenbesparingen vooraf, om nog maar te zwijgen van de continue energiekosten.
Een zeer presterend model in een kleine vormfactor
Volgens Meta-AI op Xpresteert het Llama 3.3-model handig beter dan de identieke Llama 3.1-70B en het nieuwe Nova Pro-model van Amazon in verschillende benchmarks, zoals meertalige dialoog, redeneren en andere geavanceerde natuurlijke taalverwerkingstaken (NLP) (Nova presteert beter dan het in HumanEval-coderingstaken ).
Llama 3.3 is vooraf getraind op 15 biljoen tokens uit “openbaar beschikbare” gegevens en verfijnd op basis van meer dan 25 miljoen synthetisch gegenereerde voorbeelden, volgens de informatie die Meta verstrekt in de “modelkaart” die op zijn website is geplaatst.
De ontwikkeling van het model maakt gebruik van 39,3 miljoen GPU-uren op H100-80GB-hardware en onderstreept Meta’s toewijding aan energie-efficiëntie en duurzaamheid.
Llama 3.3 is toonaangevend in meertalige redeneringstaken met een nauwkeurigheidspercentage van 91,1% op MGSM, wat de doeltreffendheid ervan aantoont bij het ondersteunen van talen als Duits, Frans, Italiaans, Hindi, Portugees, Spaans en Thai, naast Engels.
Kostenbesparend en milieubewust
Llama 3.3 is specifiek geoptimaliseerd voor kosteneffectieve gevolgtrekkingen, waarbij de kosten voor het genereren van tokens zo laag zijn als $ 0,01 per miljoen tokens.
Dit maakt het model zeer concurrerend ten opzichte van branchegenoten zoals GPT-4 en Claude 3.5, met een grotere betaalbaarheid voor ontwikkelaars die geavanceerde AI-oplossingen willen inzetten.
Meta heeft ook de ecologische verantwoordelijkheid van deze release benadrukt. Ondanks het intensieve trainingsproces maakte het bedrijf gebruik van hernieuwbare energie om de uitstoot van broeikasgassen te compenseren, wat resulteerde in een netto nuluitstoot voor de trainingsfase. De locatiegebaseerde emissies bedroegen in totaal 11.390 ton CO2-equivalent, maar Meta’s initiatieven op het gebied van hernieuwbare energie zorgden voor duurzaamheid.
Geavanceerde functies en implementatieopties
Het model introduceert verschillende verbeteringen, waaronder een langer contextvenster van 128.000 tokens (vergelijkbaar met GPT-4o, ongeveer 400 pagina’s boektekst), waardoor het geschikt is voor het genereren van lange inhoud en andere geavanceerde gebruiksscenario’s.
De architectuur omvat Grouped Query Attention (GQA), waardoor de schaalbaarheid en prestaties tijdens inferentie worden verbeterd.
Llama 3.3 is ontworpen om aan te sluiten bij de voorkeuren van gebruikers op het gebied van veiligheid en behulpzaamheid en maakt gebruik van versterkend leren met menselijke feedback (RLHF) en begeleide fijnafstemming (SFT). Deze afstemming zorgt voor robuuste weigeringen op ongepaste aanwijzingen en een assistent-achtig gedrag dat is geoptimaliseerd voor toepassingen in de echte wereld.
Llama 3.3 is al beschikbaar om te downloaden via Meta, Knuffelend gezicht, GitHuben andere platforms, met integratiemogelijkheden voor onderzoekers en ontwikkelaars. Meta biedt ook bronnen zoals Llama Guard 3 en Prompt Guard om gebruikers te helpen het model veilig en verantwoord in te zetten.
Source link