Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie


Zyphra Technologies, het bedrijf dat werkt aan een multimodaal agentsysteem dat geavanceerd onderzoek combineert in de next-gen state-space modelarchitecturen, langetermijngeheugen en versterkend leren, heeft zojuist Zyda-2 uitgebracht, een open pretraining-dataset bestaande uit 5 biljoen tokens.

Hoewel Zyda-2 vijf keer groter is dan zijn voorganger en een breed scala aan onderwerpen bestrijkt, is wat hem echt onderscheidt zijn unieke samenstelling. In tegenstelling tot veel open datasets die beschikbaar zijn op Hugging Face, is Zyda-2 gedistilleerd om de sterke punten van de best bestaande datasets te behouden en tegelijkertijd hun zwakke punten te elimineren.

Dit geeft organisaties een manier om taalmodellen te trainen die een hoge nauwkeurigheid vertonen, zelfs bij gebruik van cross-edge- en consumentenapparaten met een bepaald parameterbudget. Het bedrijf trainde zijn Zamba2-taalmodel met behulp van deze dataset en ontdekte dat het aanzienlijk beter presteerde dan bij gebruik van andere ultramoderne open-source datasets voor taalmodellering.

Deze stap komt slechts een paar maanden na de release van de originele Zyda-dataset, die een breed scala aan onderwerpen en domeinen besloeg om de diversiteit en kwaliteit te garanderen die nodig is voor het trainen van concurrerende taalmodellen.

Wat brengt Zyda-2 naar de tafel?

Eerder dit jaar ging Zyphra, als onderdeel van de poging om zeer krachtige kleine modellen te bouwen die een reeks taken goedkoop konden automatiseren, verder dan onderzoek naar modelarchitectuur en begon een aangepaste pretraining-dataset te construeren door de beste open datasets met permissieve licentie te combineren – die vaak worden erkend als hoogwaardige datasets. -kwaliteit binnen de gemeenschap.

De eerste release van dit werk, Zyda met 1,3 biljoen tokens, debuteerde in juni als een gefilterde en gededupliceerde mashup van bestaande premium open datasets, met name RefinedWeb, Starcoder C4, Pile, Slimpajama, pe2so en arxiv.

Destijds presteerde Zyda beter dan de datasets waarop het was gebouwd, waardoor bedrijven een sterke open optie voor training kregen. Maar 1,3 biljoen tokens zouden nooit genoeg zijn. Het bedrijf moest opschalen en de prestatienorm verleggen, wat ertoe leidde dat het een nieuwe pijplijn voor gegevensverwerking moest opzetten en Zyda-2 moest ontwikkelen.

In de kern bouwde Zyphra voort op Zyda-1 en verbeterde het verder met open-source tokens van DCLM, FineWeb-Edu en het Common-Crawl-gedeelte van Dolma v1.7. De originele versie van Zyda is gemaakt met de eigen CPU-gebaseerde verwerkingspijplijn van het bedrijf, maar voor de nieuwste versie gebruikten ze Nvidia’s NeMo Curator, een GPU-versnelde datacuratiebibliotheek. Hierdoor konden ze de totale eigendomskosten verdubbelen en de gegevens tien keer sneller verwerken, van drie weken naar twee dagen.

“We hebben cross-deduplicatie tussen alle datasets uitgevoerd. Wij zijn van mening dat dit de kwaliteit per token verhoogt, omdat dubbele documenten uit de dataset worden verwijderd. In vervolg daarop hebben we modelgebaseerde kwaliteitsfiltering uitgevoerd op Zyda-1 en Dolma-CC met behulp van de kwaliteitsclassificator van NeMo Curator, waarbij alleen de ‘hoogwaardige’ subset van deze datasets behouden bleef,’ schreef Zpyphra in een blogpost.

Het werk creëerde een perfect ensemble van datasets in de vorm van Zyda-2, wat leidde tot verbeterde modelprestaties. Zoals Nvidia in een aparte blogpost voor ontwikkelaars opmerkte, combineert de nieuwe dataset de beste elementen van aanvullende datasets die in de pijplijn worden gebruikt met veel hoogwaardige educatieve voorbeelden voor logisch redeneren en feitelijke kennis. Ondertussen biedt de Zyda-1-component meer diversiteit en variatie en blinkt uit in meer taal- en schrijftaken.

Gedestilleerde dataset leidt tot verbeterde modelprestaties

In een ablatiestudie leidde het trainen van Zamba2-2.7B met Zyda-2 tot de hoogste totale evaluatiescore op toonaangevende benchmarks, waaronder MMLU, Hellaswag, Piqa, Winogrande, Arc-Easy en Arc-Challenge. Dit toont aan dat de modelkwaliteit verbetert bij training met de gedestilleerde dataset in vergelijking met training met individuele open datasets.

Zyda-2-prestaties

“Hoewel elke componentdataset zijn eigen sterke en zwakke punten heeft, kan de gecombineerde Zyda-2-dataset deze hiaten opvullen. Het totale trainingsbudget om een ​​bepaalde modelkwaliteit te verkrijgen wordt verlaagd vergeleken met de naïeve combinatie van deze datasets door het gebruik van deduplicatie en agressieve filtering”, aldus de Nvidia-blog.

Uiteindelijk hoopt het bedrijf dat dit werk de weg zal vrijmaken voor kleine modellen van betere kwaliteit, waardoor bedrijven de kwaliteit en efficiëntie kunnen maximaliseren met specifieke geheugen- en latentiebeperkingen, zowel voor implementaties op apparaten als in de cloud.

Teams kunnen al aan de slag met de Zyda-2-dataset door deze rechtstreeks vanuit Hugging Face te downloaden. Het wordt geleverd met een ODC-By-licentie waarmee gebruikers Zyda-2 kunnen trainen of erop kunnen voortbouwen, met inachtneming van de licentieovereenkomsten en gebruiksvoorwaarden van de originele gegevensbronnen.