Nieuws

Generaal AI vereist synthetische gegevens. We moeten het kunnen vertrouwen


De generieke AI -modellen van vandaag, zoals chat en Gemini, zijn getraind in de REMS van echte wereldgegevens, maar zelfs alle materialen op internet zijn niet voldoende om een ​​model voor elke mogelijke situatie voor te bereiden.

Om te blijven groeien, moeten deze modellen worden getraind op nep- of synthetische gegevens, die landschappen zijn die bewonderenswaardig zijn, maar niet echt. AI -ontwikkelaars moeten dit verantwoordelijk doen, zeiden experts op een paneel in het zuiden naar het zuidwesten, of dingen kunnen snel naar de Hiverder gaan.

Het gebruik van gesimuleerde gegevens in het training kunstmatige intelligentiemodel heeft dit jaar nieuwe aandacht getrokken sinds de lancering van een nieuw model dat deepsek AI dit jaar in China is geproduceerd, dat werd getraind met meer synthetische gegevens dan andere modellen, geld besparen en verwerkingskracht besparen.

Maar experts zeggen dat dit meer is dan besparingen op het verzamelen en verwerken van gegevens. Synthetische gegevens -Computer-self-gegenereerd door AI kan een model leren over scenario’s die niet bestaan ​​in kennis van de echte wereld, maar het kan in de toekomst worden geconfronteerd. Als het een simulatie wordt gezien, is het niet nodig om een ​​verrassing te zijn voor het A-AI-model van elk een miljoen.

Og Udezue zei: “Met gesimuleerde gegevens kunt u zich afwijzen van het idee van leeftijdszaken, ervan uitgaande dat u erop kunt vertrouwen.” Hij en andere panelleden spraken zondag op de SXSW -conferentie in Austin, Texas. “We kunnen een product maken dat in principe voor 8 miljard mensen werkt, zolang we er maar op kunnen vertrouwen.”

Het moeilijkste is ervoor te zorgen dat u het kunt vertrouwen.

Probleem met nepgegevens

Er zijn veel voordelen van nepgegevens. Ten eerste kost het minder om te produceren. Je kunt duizenden gesimuleerde auto’s testen met behulp van sommige software, maar om dezelfde resultaten in het echte leven te krijgen, moet je de auto’s eigenlijk vernietigen – die veel geld kosten – zei Udezue.

Als u bijvoorbeeld een zelfrijdende auto traint, moet u enkele minder veel voorkomende scenario’s vastleggen die een voertuig op de wegen kan ervaren, zelfs als ze niet in trainingsgegevens zijn, zei Tahir Ekin, een professor in bedrijfsanalyses aan de Texas State University. Hij gebruikte het geval van vleermuizen die een spectaculaire inhuldiging maken van Austin’s Congress Avenue Bridge. Deze training kan niet in gegevens verschijnen, maar een zelfrijdende auto vereist enig begrip van hoe te reageren op de kudde vleermuizen.

Risico komt voort uit het feit dat een machine die is getraind met behulp van synthetische gegevens reageert op de veranderingen van de echte wereld. Het bestaat misschien niet in een alternatieve realiteit, of het wordt minder nuttig of wordt zelfs gevaarlijk, zei. “Hoe zou je je voelen,” vroeg hij, “in een zelfrijdende auto gaan die niet op de weg is getraind, die alleen werd getraind in nepgegevens?” Elk systeem dat gesimuleerde gegevens gebruikt “moet in de echte wereld worden gebaseerd”, zei hij, omvat ook de reactie op wat zijn nepargument daadwerkelijk gebeurt, sluit ermee aan.

Udezue vergeleek het probleem van de productie van sociale media, die begon als een manier om de communicatie wereldwijd uit te breiden, een doel dat hij bereikte. Maar sociale media zijn ook misbruikt, zei hij, “zien dat” nu despats het gebruiken om mensen te beheersen, en mensen gebruiken het om grappen tegelijkertijd te reciteren.

Naarmate AI -tools in schaal en populariteit groeien, wordt een landschap eenvoudiger dan het gebruik van synthetische trainingsgegevens, de potentieel training van ongelooflijke training is belangrijker modellen. “De last van de Amerikaanse bouwers, wetenschappers, om dubbel te zijn, triple is om ervoor te zorgen dat het systeem betrouwbaar is,” zei Udezue. “Dit is geen verbeelding.”

Hoe u gesimuleerde gegevens onder controle kunt bewaren

Een manier om ervoor te zorgen dat het model betrouwbaar is om hun training transparant te maken, gebruiken de gebruikers welk model op basis van de evaluatie van die informatie. De panelleden gebruikten herhaaldelijk een analogie van voedingslabel, wat de gebruiker gemakkelijk kan begrijpen.

Er bestaat enige transparantie, zoals modelkaarten die beschikbaar zijn via ontwikkelaarsplatforms Keelgezicht Het breekt de details van verschillende systemen. Die informatie moet zo duidelijk en transparant mogelijk zijn, zei Mike Holngar, directeur productmanagement voor generieke AI van Enterprise in chipmaker Nvidia. “Dat soort dingen zou moeten zijn”, zei hij.

Hollinger zei dat het uiteindelijk niet alleen AI -ontwikkelaars zullen zijn, maar ook AI -gebruikers die de best practices van de industrie zullen definiëren.

De industrie moet ook rekening houden met moraliteit en risico, zei Udezue. “Synthetische gegevens zullen het gemakkelijker maken om veel dingen te doen,” zei hij. “Dit zal de kosten van het bouwen van dingen verlagen. Maar sommige zullen de samenleving veranderen.”

Udezue zei dat observatie, transparantie en vertrouwen in het model moeten worden gemaakt om hun geloofwaardigheid te waarborgen. Dit omvat het bijwerken van het trainingsmodel zodat ze nauwkeurige gegevens weerspiegelen en fouten in synthetische gegevens vergroten. Een zorg is dat de instorting van het model is wanneer het AI -model dat is getraind op de gegevens die door andere AI -modellen zijn geproduceerd, sneller zullen zijn dan de realiteit, tot het punt nutteloos te zijn.

“Hoe meer je de diversiteit van de echte wereld verlangt, de reacties kunnen ongezond zijn”, zei Udezue. De oplossing is foutcorrectie, zei hij. “Als u het idee van vertrouwen, transparantie en foutverbetering combineert, voelen ze geen ongewenste problemen.”





Bronlink

Related Articles

Back to top button