Harvard geeft een enorme gratis AI-trainingsdataset vrij, gefinancierd door OpenAI en Microsoft
Naast de schat aan boeken werkt het Institutional Data Initiative ook samen met de Boston Public Library om miljoenen artikelen uit verschillende kranten te scannen die zich nu in het publieke domein bevinden, en het zegt open te staan voor soortgelijke samenwerkingen in de toekomst. De exacte manier waarop de dataset van het boek zal worden vrijgegeven, is nog niet geregeld. Het Institutional Data Initiative heeft Google gevraagd samen te werken op het gebied van publieke distributie, en het bedrijf heeft zijn steun toegezegd.
Hoe de dataset van IDI ook wordt vrijgegeven, deze zal zich aansluiten bij een groot aantal soortgelijke projecten, startups en initiatieven die beloven bedrijven toegang te geven tot substantieel en kwalitatief hoogstaand AI-trainingsmateriaal zonder het risico te lopen op auteursrechtproblemen te stuiten. Bedrijven als Calliope Networks en ProRata zijn opgekomen om licenties uit te geven en compensatieregelingen te ontwerpen die zijn ontworpen om makers en rechthebbenden betaald te krijgen voor het verstrekken van AI-trainingsgegevens.
Er zijn ook andere nieuwe projecten in het publieke domein. Afgelopen voorjaar heeft de Franse AI-startup Pleias zijn eigen dataset voor het publieke domein, Common Corpus, uitgerold, die volgens projectcoördinator Pierre-Carl Langlais naar schatting 3 tot 4 miljoen boeken en periodieke collecties bevat. Met steun van het Franse Ministerie van Cultuur is het Common Corpus alleen al deze maand meer dan 60.000 keer gedownload op het open source AI-platform Hugging Face. Vorige week kondigde Pleias aan dat het zijn eerste set grote taalmodellen vrijgeeft die op deze dataset zijn getraind, waarvan Langlais tegen WIRED zei dat het de eerste modellen zijn “die ooit uitsluitend op open data zijn getraind en die voldoen aan de (EU) AI Act.”
Er worden pogingen ondernomen om ook soortgelijke mage-datasets te creëren. AI-startup Spawning uitgegeven zijn eigen deze zomer genaamd Source.Plus, die afbeeldingen uit het publieke domein van Wikimedia Commons bevat, evenals een verscheidenheid aan musea en archieven. Verschillende belangrijke culturele instellingen hebben hun eigen archieven al lang toegankelijk gemaakt voor het publiek als op zichzelf staande projecten, zoals het Metropolitan Museum of Art.
Ed Newton-Rex, een voormalige directeur bij Stability AI die nu een non-profitorganisatie leidt die ethisch opgeleide AI-tools certificeert, zegt dat de opkomst van deze datasets aantoont dat het niet nodig is om auteursrechtelijk beschermd materiaal te stelen om goed presterende en hoogwaardige AI-modellen te bouwen. OpenAI vertelde wetgevers in het Verenigd Koninkrijk eerder dat het “onmogelijk” om producten zoals ChatGPT te maken zonder auteursrechtelijk beschermde werken te gebruiken. “Grote datasets uit het publieke domein zoals deze vernietigen verder de ‘noodzaakverdediging’ die sommige AI-bedrijven gebruiken om het schrappen van auteursrechtelijk beschermd werk te rechtvaardigen om hun modellen te trainen”, zegt Newton-Rex.
Maar hij heeft nog steeds bedenkingen bij de vraag of de IDI en dergelijke projecten daadwerkelijk de status quo van de opleiding zullen veranderen. “Deze datasets zullen alleen een positieve impact hebben als ze worden gebruikt, waarschijnlijk in combinatie met het licentiëren van andere data, ter vervanging van geschrapt auteursrechtelijk beschermd werk. Als ze alleen maar aan de mix worden toegevoegd, een deel van een dataset die ook het levenswerk zonder licentie van de makers van de wereld omvat, zullen AI-bedrijven er overweldigend van profiteren”, zegt hij.