Erili realistische AI Voice Demo verspreidt wonderen en ongemak online

Een voorbeeld met de CSM van de door de Gavin Municipal gebouwd sesam ruzie.
Gavin Municipal, co-host AI voor de podcast van de mensDe post is een Voorbeeldvideo op Redde Waar mensen doen alsof ze vertrouwen hebben en ruzie maken met een baas. Het is zo dynamisch dat het moeilijk is om te zeggen wie de persoon is en wat het AI -model is. Afgaande op onze eigen demo, is wat je in de video ziet volledig in staat.
“Bijna menselijke kwaliteit”
Onder de motorkap werkt de CSM -meta van de Sesam samen op basis van de LAMA -architectuur van de Sesam, met behulp van twee AI -modellen (een ruggengraat en een decoder) die de realiteit verwerft die onderling verbonden teksten en audio verwerkt. Sesame trainde drie AI -modellen in grootte, met behulp van de grootste 8,3 miljard parameters (een 8 miljard backbone -model plus een 300 miljoen parameterdecoder) voor ongeveer 1 miljoen uur voornamelijk in Engelse audio.
Sesam CSM volgt niet de traditionele bilaterale bilaterale methode die wordt gebruikt door veel eerdere tekst-naar-spit systemen. In plaats van semantische tokens (spraakpresentaties op hoog niveau) en akoestische details (fijne gedoneerde audiofuncties) te genereren op twee afzonderlijke niveaus, integreren Sesam CSM’s in een enkel fase, multimodaal transformator-gebaseerd model, gezamenlijk geïnterlineerde tekst en audiotoken van het audiotoken. Het spraakmodel van OpenAI gebruikt hetzelfde type multimodale methode.
In de blinde test zonder de context van het gesprek, vertoonde menselijke evaluatie geen duidelijke prioriteit tussen CSM-blootgestelde toespraken en originele menselijke opname, wat suggereert dat het model de dichtstbijzijnde menselijke kwaliteit voor geïsoleerde spraakmonsters kan bereiken. Indien voorzien in de context van het gesprek, geven evaluatoren echter nog steeds de voorkeur aan echte menselijke toespraken consequent, wat aangeeft dat een kloof in de gehele relevante spraakgeneratie zit.
Sesam co-hoofdrichter Brendan Erib Erkend De huidige beperkingen in een opmerking op het Nieuws van Hacker geven aan dat het systeem “zeer geïnteresseerd en vaak ongepast is in zijn melodieën, promodd en passen” en er zijn problemen met obstructie, tijd en gespreksstroom. “Vandaag zijn we in het zicht in de vallei, maar we hopen dat we kunnen klimmen,” schreef hij.