Onderzoekers van de Universiteit van Washington bedenken een methode om AI-chatbots af te stemmen op de individuele smaak
Terwijl chatbots voor kunstmatige intelligentie opduiken om informatie te verstrekken in allerlei toepassingen, hebben onderzoekers van de Universiteit van Washington een nieuwe manier ontwikkeld om hun reacties te verfijnen.
Genaamd “Variabel voorkeursleren”, is het doel van de methode om de uitvoer van een groot taalmodel zo vorm te geven dat deze beter aansluit bij een individuele gebruiker op basis van zijn/haar uitgesproken voorkeuren.
AI-systemen zijn getraind op datasets die ingebouwde vooroordelen en ongepaste informatie bevatten die ingenieurs momenteel uit reacties proberen te filteren door middel van ‘reinforcement learning from human feedback’ (RLHF). De strategie vereist dat een groep mensen de resultaten van de chatbots beoordeelt en het gewenste antwoord selecteert, waardoor het systeem een veilige, nauwkeurige en acceptabele reactie krijgt.
Maar die voorkeuren worden bepaald door de organisatie die de chatbot maakt en omvatten niet noodzakelijkerwijs de uiteenlopende opvattingen van de diverse gebruikers die met de tools werken.
“Ik denk dat het een beetje beangstigend is dat we bij een handvol bedrijven onderzoekers hebben, die niet zijn opgeleid in beleid of sociologie, die beslissen wat wel en niet geschikt is om door de modellen te worden gezegd, en we hebben zoveel mensen die deze systemen gebruiken. en proberen de waarheid van hen te achterhalen”, zei hij Natasja Jaqueseen assistent-professor aan de Paul G. Allen School of Computer Science & Engineering van de UW, in a UW post.
“Dit is een van de meest urgente problemen bij AI,” zei ze, “dus we hebben betere technieken nodig om dit aan te pakken.”
Jaques leidt de Leerlab voor sociale versterking aan de UW en is tevens senior onderzoeker bij Google DeepMind. Ze ging bijna een jaar geleden naar de Allen School van de UW.
Jaques gaf een voorbeeld van een geval waarin de RLHF-trainingsaanpak voor een probleem zou kunnen zorgen. Stel je voor dat een student met een lager inkomen interactie had met een chatbot om meer te weten te komen over een universiteit waar hij zich wilde aanmelden, maar de reactie van het model was afgestemd op de meerderheid van de aanvragen van de school, namelijk studenten met een hoger inkomen. Het model zou daaruit afleiden dat er een beperkte belangstelling was voor informatie over financiële hulp en deze niet verstrekken.
De door de UW-onderzoekers ontwikkelde benadering van het leren van variaties op het gebied van voorkeuren zou de chatbotgebruikers zelf in de rol plaatsen om de resultaten te verfijnen. En dat kan snel: met slechts vier vragen kan de VPL-trainingsmethode leren welk soort reacties een gebruiker zal kiezen.
De verfijning kan het gewenste specificiteitsniveau van het antwoord omvatten, de lengte en toon van de uitvoer, en ook welke informatie wordt opgenomen.
De strategie zou kunnen worden toegepast op verbale interacties en op het trainen van robots die eenvoudige taken uitvoeren in persoonlijke omgevingen zoals thuis.
Maar VPL moet wel oppassen voor voorkeuren voor verkeerde informatie of desinformatie, evenals voor ongepaste reacties, zei Jaques.
Jaques en collega’s deelden hun studie tijdens de conferentie over neurale informatieverwerkingssystemen van vorige week in Vancouver, BC. Het onderzoek was een van de spotlight-presentaties van het evenement en stond in de top 2% van de ingediende artikelen.
Andere co-auteurs van het onderzoek zijn onder meer de assistent-professor van Allen School Abishek Guptaevenals promovendi van de Allen School Sriyash Poddar, Yanming Wan En Hamish Ivison.
Jaques zei dat deelnemers aan de langlopende internationale conferentie geïnteresseerd waren in de kwestie van het bevorderen van diverse perspectieven in AI-systemen die zij en anderen aanpakken.
“Ik ben bemoedigd om de ontvankelijkheid van de AI-gemeenschap en het momentum op dit gebied te zien”, vertelde Jaques aan GeekWire.