Synthetische data hebben hun grenzen: waarom menselijke data de ineenstorting van het AI-model kunnen helpen voorkomen
Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
My, hoe snel keren de rollen om in de technische wereld. Nog maar twee jaar geleden werd AI geprezen als de “volgende transformationele technologie om ze allemaal te regeren.” In plaats van Skynet-niveaus te bereiken en de wereld over te nemen, is AI ironisch genoeg vernederend.
AI was ooit de voorbode van een nieuw tijdperk van intelligentie en struikelt nu over zijn eigen code en heeft moeite om de beloofde briljantheid waar te maken. Maar waarom precies? Het simpele feit is dat we AI ontberen van het enige dat het echt slim maakt: door mensen gegenereerde gegevens.
Om deze data-hongerige modellen te voeden, hebben onderzoekers en organisaties zich steeds meer tot synthetische data gewend. Hoewel deze praktijk lange tijd een belangrijk onderdeel is geweest van de AI-ontwikkeling, betreden we nu gevaarlijk terrein door er te veel op te vertrouwen, wat een geleidelijke degradatie van AI-modellen tot gevolg heeft. En dit is niet slechts een kleine zorg over het feit dat ChatGPT ondermaatse resultaten oplevert; de gevolgen zijn veel gevaarlijker.
Wanneer AI-modellen worden getraind op de resultaten die door eerdere iteraties zijn gegenereerd, hebben ze de neiging fouten te verspreiden en ruis te introduceren, wat leidt tot een afname van de uitvoerkwaliteit. Dit recursieve proces verandert de vertrouwde cyclus van ‘garbage in, garbage out’ in een zichzelf in stand houdend probleem, waardoor de effectiviteit van het systeem aanzienlijk wordt verminderd. Naarmate AI verder afdwaalt van mensachtig begrip en nauwkeurigheid, ondermijnt het niet alleen de prestaties, maar roept het ook kritische zorgen op over de levensvatbaarheid op lange termijn van het vertrouwen op zelf gegenereerde gegevens voor verdere AI-ontwikkeling.
Maar dit is niet alleen een degradatie van de technologie; het is een aantasting van de realiteit, identiteit en authenticiteit van gegevens, wat ernstige risico’s met zich meebrengt voor de mensheid en de samenleving. De rimpeleffecten kunnen diepgaand zijn, wat kan leiden tot een stijging van het aantal kritische fouten. Naarmate deze modellen hun nauwkeurigheid en betrouwbaarheid verliezen, kunnen de gevolgen ernstig zijn: denk aan een verkeerde medische diagnose, financiële verliezen en zelfs levensbedreigende ongelukken.
Een andere belangrijke implicatie is dat de ontwikkeling van AI volledig zou kunnen stagneren, waardoor AI-systemen geen nieuwe gegevens meer kunnen verwerken en feitelijk ‘vastlopen in de tijd’. Deze stagnatie zou niet alleen de vooruitgang belemmeren, maar AI ook gevangen houden in een cyclus van afnemende opbrengsten, met mogelijk catastrofale gevolgen voor de technologie en de samenleving.
Maar wat kunnen bedrijven praktisch gezien doen om de veiligheid van hun klanten en gebruikers te garanderen? Voordat we die vraag beantwoorden, moeten we begrijpen hoe dit allemaal werkt.
Wanneer een model instort, verdwijnt de betrouwbaarheid
Hoe meer door AI gegenereerde inhoud zich online verspreidt, hoe sneller deze datasets en vervolgens de modellen zelf zal infiltreren. En dit gebeurt in een versneld tempo, waardoor het voor ontwikkelaars steeds moeilijker wordt om alles eruit te filteren dat geen pure, door mensen gemaakte trainingsgegevens zijn. Het is een feit dat het gebruik van synthetische inhoud in trainingen een schadelijk fenomeen kan veroorzaken dat bekend staat als ‘model ineenstorting’ of ‘model ineenstorting’.model-autofagiestoornis (BOOS).”
Het ineenstorten van modellen is het degeneratieve proces waarbij AI-systemen geleidelijk hun grip verliezen op de werkelijke onderliggende gegevensdistributie die ze moeten modelleren. Dit gebeurt vaak wanneer AI recursief wordt getraind op de door het gegenereerde inhoud, wat tot een aantal problemen leidt:
- Verlies van nuance: Modellen beginnen uitbijtergegevens of minder weergegeven informatie te vergeten, cruciaal voor een alomvattend begrip van welke dataset dan ook.
- Verminderde diversiteit: Er is een merkbare afname in de diversiteit en kwaliteit van de outputs geproduceerd door de modellen.
- Versterking van vooroordelen: Bestaande vooroordelen, vooral tegenover gemarginaliseerde groepen, kunnen worden verergerd als het model voorbijgaat aan de genuanceerde gegevens die deze vooroordelen zouden kunnen verzachten.
- Genereren van onzinnige outputs: Na verloop van tijd kunnen modellen resultaten gaan produceren die totaal niets met elkaar te maken hebben of onzinnig zijn.
Een voorbeeld: een studie gepubliceerd in Natuur benadrukte de snelle degeneratie van taalmodellen die recursief zijn getraind op door AI gegenereerde tekst. Bij de negende iteratie bleken deze modellen volkomen irrelevante en onzinnige inhoud te produceren, wat de snelle achteruitgang in de gegevenskwaliteit en het nut van het model aantoonde.
De toekomst van AI veiligstellen: stappen die bedrijven vandaag kunnen zetten
Enterprise-organisaties bevinden zich in een unieke positie om de toekomst van AI op verantwoorde wijze vorm te geven, en er zijn duidelijke, uitvoerbare stappen die zij kunnen nemen om AI-systemen accuraat en betrouwbaar te houden:
- Investeer in tools voor de herkomst van gegevens: Tools die traceren waar elk stukje data vandaan komt en hoe het in de loop van de tijd verandert, geven bedrijven vertrouwen in hun AI-inputs. Met duidelijk inzicht in de herkomst van gegevens kunnen organisaties voorkomen dat modellen onbetrouwbare of bevooroordeelde informatie krijgen.
- Implementeer AI-aangedreven filters om synthetische inhoud te detecteren: Geavanceerde filters kunnen door AI gegenereerde inhoud of inhoud van lage kwaliteit opvangen voordat deze in trainingsdatasets terechtkomt. Deze filters helpen ervoor te zorgen dat modellen leren van authentieke, door mensen gecreëerde informatie in plaats van synthetische gegevens die de complexiteit van de echte wereld ontberen.
- Werk samen met vertrouwde dataproviders: Sterke relaties met doorgelichte dataproviders geven organisaties een constante aanvoer van authentieke, hoogwaardige data. Dit betekent dat AI-modellen echte, genuanceerde informatie krijgen die feitelijke scenario’s weerspiegelt, wat zowel de prestaties als de relevantie ten goede komt.
- Digitale geletterdheid en bewustzijn bevorderen: Door teams en klanten voor te lichten over het belang van dataauthenticiteit kunnen organisaties mensen helpen door AI gegenereerde inhoud te herkennen en de risico’s van synthetische data te begrijpen. Het vergroten van het bewustzijn rond verantwoord datagebruik bevordert een cultuur waarin nauwkeurigheid en integriteit bij de ontwikkeling van AI worden gewaardeerd.
De toekomst van AI hangt af van verantwoord handelen. Bedrijven hebben een reële kans om AI gebaseerd te houden op nauwkeurigheid en integriteit. Door echte, door mensen afkomstige gegevens te verkiezen boven sluiproutes, prioriteit te geven aan tools die inhoud van lage kwaliteit opvangen en eruit filteren, en door het bewustzijn rond digitale authenticiteit te stimuleren, kunnen organisaties AI op een veiliger en slimmer pad zetten. Laten we ons concentreren op het bouwen van een toekomst waarin AI zowel krachtig is als echt nuttig is voor de samenleving.
Rick Song is de CEO en mede-oprichter van Persona.
DataBeslissers
Welkom bij de VentureBeat-community!
DataDecisionMakers is waar experts, inclusief de technische mensen die datawerk doen, datagerelateerde inzichten en innovatie kunnen delen.
Als u meer wilt lezen over de allernieuwste ideeën en actuele informatie, best practices en de toekomst van data en datatechnologie, sluit u dan aan bij DataDecisionMakers.
Je zou zelfs kunnen overwegen om zelf een artikel bij te dragen!
Lees meer van DataDecisionMakers
Source link