OpenScholar: de open-source AI die beter presteert dan GPT-4o in wetenschappelijk onderzoek
Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
Wetenschappers verdrinken in data. Omdat er elk jaar miljoenen onderzoeksartikelen worden gepubliceerd, hebben zelfs de meest toegewijde experts moeite om op de hoogte te blijven van de nieuwste bevindingen op hun vakgebied.
Een nieuw systeem voor kunstmatige intelligentie, genaamd OpenScholarbelooft de regels te herschrijven voor de manier waarop onderzoekers wetenschappelijke literatuur benaderen, evalueren en synthetiseren. Gebouwd door de Allen Instituut voor AI (Ai2) en de Universiteit van Washingtoncombineert OpenScholar geavanceerde retrievalsystemen met een verfijnd taalmodel om op citaten gebaseerde, uitgebreide antwoorden te geven op complexe onderzoeksvragen.
“Wetenschappelijke vooruitgang hangt af van het vermogen van onderzoekers om de groeiende hoeveelheid literatuur te synthetiseren”, schreven de OpenScholar-onderzoekers in hun papier. Maar dat vermogen wordt steeds meer beperkt door de enorme hoeveelheid informatie. OpenScholar, zo stellen zij, biedt een weg voorwaarts – een weg die onderzoekers niet alleen helpt bij het navigeren door de stortvloed aan artikelen, maar ook de dominantie van propriëtaire AI-systemen zoals die van OpenAI uitdaagt. GPT-4o.
Hoe het AI-brein van OpenScholar 45 miljoen onderzoekspapers binnen enkele seconden verwerkt
De kern van OpenScholar is een retrieval-augmented taalmodel dat gebruik maakt van een datastore van meer dan 45 miljoen open access academische papers. Wanneer een onderzoeker een vraag stelt, genereert OpenScholar niet alleen een antwoord op basis van vooraf getrainde kennis, zoals modellen als GPT-4o vaak doen. In plaats daarvan haalt het actief relevante artikelen op, synthetiseert de bevindingen ervan en genereert een antwoord op basis van die bronnen.
Dit vermogen om ‘gegrond’ te blijven in de echte literatuur is een belangrijke onderscheidende factor. In tests met behulp van een nieuwe benchmark genaamd GeleerdeQABenchspecifiek ontworpen om AI-systemen te evalueren op basis van open wetenschappelijke vragen, blonk OpenScholar uit. Het systeem demonstreerde superieure prestaties op het gebied van feitelijkheid en citatienauwkeurigheid, en presteerde zelfs beter dan veel grotere eigen modellen zoals GPT-4o.
Een bijzonder vernietigende bevinding betrof de neiging van GPT-4o om verzonnen citaten te genereren – hallucinaties, in AI-terminologie. Bij de opdracht om biomedische onderzoeksvragen te beantwoorden, citeerde GPT-4o in meer dan 90% van de gevallen niet-bestaande artikelen. OpenScholar bleef daarentegen stevig verankerd in verifieerbare bronnen.
De basis voor echte, gevonden papieren is van fundamenteel belang. Het systeem maakt gebruik van wat de onderzoekers omschrijven als hun “zelffeedback-inferentielus‘ en ‘verfijnt iteratief de resultaten door middel van natuurlijke taalfeedback, wat de kwaliteit verbetert en op adaptieve wijze aanvullende informatie opneemt.’
De implicaties voor onderzoekers, beleidsmakers en bedrijfsleiders zijn aanzienlijk. OpenScholar zou een essentieel instrument kunnen worden voor het versnellen van wetenschappelijke ontdekkingen, waardoor experts kennis sneller en met meer vertrouwen kunnen synthetiseren.
Een kijkje in de strijd tussen David en Goliath: kan open source AI concurreren met Big Tech?
Het debuut van OpenScholar komt in een tijd waarin het AI-ecosysteem steeds meer wordt gedomineerd door gesloten, propriëtaire systemen. Modellen zoals die van OpenAI GPT-4o en Antropisch Claude bieden indrukwekkende mogelijkheden, maar zijn duur, ondoorzichtig en voor veel onderzoekers ontoegankelijk. OpenScholar zet dit model op zijn kop door volledig open source te zijn.
Het OpenScholar-team heeft niet alleen vrijgegeven de code voor het taalmodel, maar ook voor het geheel ophaalpijplijneen gespecialiseerd Model met 8 miljard parameters afgestemd op wetenschappelijke taken, en a gegevensopslag van wetenschappelijke artikelen. “Voor zover wij weten is dit de eerste open release van een complete pijplijn voor een wetenschappelijk assistent LM – van data tot trainingsrecepten en modelcontrolepunten”, schreven de onderzoekers in hun rapport. blogpost het systeem aankondigen.
Deze openheid is niet alleen een filosofische houding; het is ook een praktisch voordeel. Het kleinere formaat en de gestroomlijnde architectuur van OpenScholar maken het veel kostenefficiënter dan propriëtaire systemen. Dat schatten de onderzoekers bijvoorbeeld in OpenScholar-8B is 100 keer goedkoper in gebruik dan PapierQA2een gelijktijdig systeem gebouwd op GPT-4o.
Deze kostenefficiëntie zou de toegang tot krachtige AI-instrumenten voor kleinere instellingen, ondergefinancierde laboratoria en onderzoekers in ontwikkelingslanden kunnen democratiseren.
Toch is OpenScholar niet zonder beperkingen. De dataopslag is beperkt tot open access-artikelen, waarbij onderzoek met betaalmuur dat sommige vakgebieden domineert, buiten beschouwing wordt gelaten. Deze beperking, hoewel juridisch noodzakelijk, betekent dat het systeem cruciale bevindingen op gebieden als geneeskunde of techniek over het hoofd kan zien. De onderzoekers erkennen deze kloof en hopen dat toekomstige iteraties op verantwoorde wijze inhoud met gesloten toegang kunnen integreren.
De nieuwe wetenschappelijke methode: wanneer AI uw onderzoekspartner wordt
De OpenScholar project roept belangrijke vragen op over de rol van AI in de wetenschap. Hoewel het vermogen van het systeem om literatuur te synthetiseren indrukwekkend is, is het niet onfeilbaar. In deskundigenevaluaties kregen de antwoorden van OpenScholar in 70% van de gevallen de voorkeur boven door mensen geschreven antwoorden, maar de overige 30% benadrukte gebieden waar het model tekortschoot – zoals het niet citeren van fundamentele artikelen of het selecteren van minder representatieve onderzoeken.
Deze beperkingen onderstrepen een bredere waarheid: AI-tools zoals OpenScholar zijn bedoeld om de menselijke expertise te vergroten en niet te vervangen. Het systeem is ontworpen om onderzoekers te helpen bij het uitvoeren van de tijdrovende taak van literatuursynthese, waardoor ze zich kunnen concentreren op interpretatie en het bevorderen van kennis.
Critici kunnen erop wijzen dat de afhankelijkheid van OpenScholar van open-access-papieren de onmiddellijke bruikbaarheid ervan beperkt op terreinen waar veel op het spel staat, zoals de farmaceutische sector, waar een groot deel van het onderzoek achter betaalmuren is opgesloten. Anderen beweren dat de prestaties van het systeem, hoewel sterk, nog steeds sterk afhankelijk zijn van de kwaliteit van de opgehaalde gegevens. Als de ophaalstap mislukt, bestaat het risico dat de hele pijplijn suboptimale resultaten oplevert.
Maar zelfs met zijn beperkingen vertegenwoordigt OpenScholar een keerpunt in het wetenschappelijk computergebruik. Terwijl eerdere AI-modellen onder de indruk waren van hun vermogen om een gesprek aan te gaan, demonstreert OpenScholar iets fundamentelers: het vermogen om wetenschappelijke literatuur met bijna menselijke nauwkeurigheid te verwerken, begrijpen en synthetiseren.
De cijfers vertellen een meeslepend verhaal. Het model met 8 miljard parameters van OpenScholar presteert beter dan GPT-4o, terwijl het een orde van grootte kleiner is. Het komt overeen met menselijke experts op het gebied van citatienauwkeurigheid, waar andere AI’s 90% van de tijd falen. En misschien wel het meest treffende is dat deskundigen de antwoorden ervan verkiezen boven de antwoorden die door hun collega’s zijn geschreven.
Deze prestaties suggereren dat we een nieuw tijdperk van AI-ondersteund onderzoek betreden, waarin het knelpunt in de wetenschappelijke vooruitgang misschien niet langer ons vermogen is om bestaande kennis te verwerken, maar eerder ons vermogen om de juiste vragen te stellen.
De onderzoekers heb alles vrijgegeven– code, modellen, data en tools – erop wedden dat openheid de vooruitgang meer zal versnellen dan het achter gesloten deuren houden van hun doorbraken.
Daarmee hebben ze een van de meest prangende vragen in de AI-ontwikkeling beantwoord: kunnen open-sourceoplossingen concurreren met de zwarte dozen van Big Tech?
Het antwoord lijkt verborgen te liggen tussen 45 miljoen kranten.
Source link