Toernooien

Nous Research traint een AI-model met behulp van machines die over het internet worden verspreid


Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


Het team van AI-onderzoekers bekend als Nous Onderzoek doet momenteel iets unieks in de snel veranderende ruimte van generatieve AI (althans voor zover ik weet): Nous is bezig met het voorbereiden van een nieuw groot taalmodel (LLM) met 15 miljard parameters, met behulp van machines die over het internet worden verspreid en de wereld, waarbij de noodzaak wordt vermeden om de modelontwikkeling te concentreren, zoals traditioneel het geval is geweest in dure, energievretende AI-datacenters en ‘superclusters’ van grafische verwerkingseenheden (GPU’s), zoals die onlangs werd voltooid door Elon Musk’s xAI in Memphis, Tennessee.

Bovendien streamt Nous het pre-trainingsproces live op een speciale website — distro.nousresearch.com – laten zien hoe goed het presteert op evaluatiebenchmarks en ook een eenvoudige kaart van de verschillende locaties van de trainingsapparatuur achter de oefening, inclusief verschillende plaatsen in de VS en Europa.

Op het moment van publicatie van dit artikel zijn er nog ongeveer 57 uur (2,3 dagen) over in de pre-training, waarbij meer dan 75% van het proces is voltooid.

Pre-training is het eerste van twee en misschien wel meest fundamentele aspect van het trainen van een LLM, omdat het gaat om het trainen van het model op een enorm corpus van tekstgegevens om de statistische eigenschappen en structuren van taal te leren. Het model verwerkt uitgebreide tekstdatasets, waarbij patronen, grammatica en contextuele relaties tussen woorden worden vastgelegd. Deze fase geeft het model een breed begrip van taal, waardoor het coherente tekst kan genereren en verschillende taalgerelateerde taken kan uitvoeren.

Na de voorafgaande training wordt het model verfijnd op een meer specifieke dataset, afgestemd op specifieke taken of domeinen.

Als dit lukt, zal Nous bewijzen dat het mogelijk is om LLM’s van grensklasse te trainen zonder de noodzaak van dure superclusters of transmissie met lage latentie, met behulp van een nieuwe, open source trainingsmethode. Het zou een nieuw tijdperk van gedistribueerde AI-training kunnen inluiden als een belangrijke of potentieel dominante bron van nieuwe AI-modellen en het machtsevenwicht in de generatie AI kunnen verschuiven van goedbetaalde grote technologiebedrijven naar kleinere groepen en niet-zakelijke actoren. .

Nous DisTrO: de technologie achter de trainingsoefening

Nous, dat eerder dit jaar het nieuws haalde vanwege de release van zijn tolerante en existentieel conflicterende Meta Llama 3.1-variant Hermes 3 en zijn algemene missie om AI-ontwikkeling gepersonaliseerd en onbeperkt te maken, maakt gebruik van zijn open-source gedistribueerde trainingstechnologie genaamd Nous DisTrO (Distributed Training Over-the-Internet), dat Nous aanvankelijk in augustus 2024 in een onderzoekspaper publiceerde.

Volgens de recente publicatie van Nous Research vermindert DisTrO de bandbreedtevereisten voor communicatie tussen GPU’s tot wel 10.000x tijdens de pre-training. Deze innovatie maakt het mogelijk modellen te trainen op langzamere en goedkopere internetverbindingen – potentieel zo laag als 100 Mbps download- en 10 Mbps uploadsnelheden – terwijl concurrerende convergentiesnelheden en verliescurven behouden blijven.

De belangrijkste doorbraak van DisTrO ligt in het vermogen om de gegevens die tussen GPU’s worden uitgewisseld efficiënt te comprimeren zonder dat dit ten koste gaat van de modelprestaties.

Zoals beschreven in een VentureBeat-artikel uit augustus 2024, verminderde de methode de communicatievereisten van 74,4 gigabyte naar slechts 86,8 megabyte tijdens een test met een Llama 2-architectuur, een efficiëntiewinst van bijna 857x. Deze dramatische verbetering maakt de weg vrij voor een nieuw tijdperk van gedecentraliseerd, collaboratief AI-onderzoek.

DisTrO bouwt voort op eerder werk aan Decoupled Momentum Optimization (DeMo), een algoritme dat is ontworpen om de communicatie tussen GPU’s met verschillende ordes van grootte te verminderen, terwijl de trainingsprestaties vergelijkbaar blijven met traditionele methoden.

Zowel het DeMo-algoritme als de DisTrO-stack maken deel uit van de voortdurende missie van Nous Research om AI-mogelijkheden te decentraliseren en geavanceerde AI-ontwikkeling naar een breder publiek te brengen.

Het team heeft het DeMo-algoritme ook beschikbaar gesteld als open-sourcecode op GitHub, waardoor onderzoekers en ontwikkelaars over de hele wereld worden uitgenodigd om met hun bevindingen te experimenteren en erop voort te bouwen.

Hardwarepartners

De vooropleiding van het taalmodel met 15 miljard parameters van Nous Research omvatte bijdragen van verschillende opmerkelijke partners, waaronder Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud en de Andromeda Cluster.

Samen leverden ze de heterogene hardware die nodig was om de mogelijkheden van DisTrO in een echte gedistribueerde omgeving te testen.

Diepgaande implicaties voor de toekomstige ontwikkeling van AI-modellen

De implicaties van DisTrO reiken verder dan alleen technische innovatie. Door de afhankelijkheid van gecentraliseerde datacentra en gespecialiseerde infrastructuur te verminderen, biedt DisTrO een pad naar een meer inclusief en collaboratief AI-onderzoeksecosysteem.

Kleinere instellingen, onafhankelijke onderzoekers en zelfs hobbyisten met toegang tot internet en GPU’s van consumentenkwaliteit kunnen potentieel grote modellen trainen – een prestatie die voorheen voorbehouden was aan bedrijven met aanzienlijk kapitaal en expertise.

Diederik P. Kingma, co-auteur van het onderzoekspaper en mede-uitvinder van de Adam optimizer, sloot zich aan bij Nous Research als medewerker aan de ontwikkeling van DeMo en DisTrO. De bijdragen van Kingma, naast die van de medeoprichters van Nous Research, Bowen Peng en Jeffrey Quesnelle, verlenen geloofwaardigheid aan het project en geven de potentiële impact ervan op de bredere AI-gemeenschap aan.

Volgende stappen

Nous Research heeft de deur geopend naar een toekomst waarin de ontwikkeling van AI niet langer wordt gedomineerd door een handvol bedrijven. Hun werk aan DisTrO laat zien dat met de juiste optimalisaties grootschalige AI-modellen op een gedecentraliseerde manier efficiënt kunnen worden getraind.

Hoewel bij de huidige demonstratie gebruik werd gemaakt van geavanceerde GPU’s zoals de Nvidia H100, blijft de schaalbaarheid van DisTrO naar minder gespecialiseerde hardware een gebied dat verder moet worden onderzocht.

Terwijl Nous Research zijn methoden blijft verfijnen, kunnen de potentiële toepassingen van deze technologie – variërend van gedecentraliseerd federatief leren tot trainingsverspreidingsmodellen voor het genereren van beelden – de grenzen van AI-innovatie opnieuw definiëren.



Source link

Related Articles

Back to top button