Nvidia zou een synthetisch gegevensbedrijf hebben gekocht. Dus wat zijn synthetische gegevens?

Volgens de chipmaker Nvidia One buigt de generieke AI vooruit in de productieapparatuur voor generieke AI -ontwikkelaars met de acquisitie van Synthetic Data Firm Gratel voor meer dan $ 320 miljoen. Bedraad rapport Op woensdag.
Het komt als een stap zoals AI -bedrijven die moeite hadden om voldoende gegevens te vinden om hun modellen te trainen en te verbeteren, waardoor de noodzaak om gegevens te genereren vergroten.
Volgens het rapport zullen de werknemers van de Great worden omgezet in Nvidia. Greatl, dat synthetische of gesimuleerde gegevens produceert voor AI -modeltraining, zal het aanbod van NVIDIA voor AI -ontwikkelaars vergroten.
Een woordvoerder van Nvidia weigerde commentaar te geven op het rapport.
Waarom synthetische gegevens ertoe doen
Een groot taalmodel, veel gegevens vereisen veel gegevens om generatieve AI -modellen te trainen, zoals Openai’s Chatgpt. Gegevens uit de echte wereld kunnen problemen weerstaan voor AI-ontwikkelaars-dat wil zeggen, het kan ruis zijn en is niet genoeg.
AI -bedrijf loopt tegen de limiet van trainingsgegevens die vrijelijk beschikbaar zijn voor hen en worstelt over de vraag of ze auteursrechtinhoud kunnen gebruiken. Honderden actoren, schrijvers en regisseurs presenteerden een open brief aan het Office of Science and Technology Policy van Trump -administratie om hun bezorgdheid te uiten over het gebruik van auteursrechtgegevens. Momenteel verzoekt Openai bij de regering Geef meer toegang tot auteursrechtinhoud Om het AI -model te trainen, worden Amerikaanse bedrijven anders achtergelaten door China.
Kijk hiernaar: Bekijk NVIDIA’s GTC 2025 Keenote: alle hoogtepunten in 16 minuten
Synthetische gegevens hebben ook een waarde bij het beschermen van persoonlijke informatie. Greatl zegt dat de synthetische gegevens kunnen worden gebruikt om modellen en apparatuur te trainen zonder gevoelige of individuele informatie bloot te leggen – bijvoorbeeld gegevens in de gezondheidszorg die geen individuen identificeert en potentiële privacywetten schendt.
Modelopleiding maakt zich zorgen over het gebruik van dergelijke gegevens. Een overslag over de in werkelijkheid opgenomen informatie kan de mogelijkheid vergroten dat een model dingen verkeerd zal maken. Als het probleem aanzienlijk verslechtert, kan dit een probleem veroorzaken dat bekend staat als de instorting van het model, wanneer het model zo onjuist wordt dat het nutteloos wordt.