Voor zowel bedrijfsleiders als ontwikkelaars is de vraag niet waarom generatieve kunstmatige intelligentie in alle sectoren wordt ingezet, maar hoe – en hoe kunnen we deze sneller en met hoge prestaties aan het werk zetten?

De lancering van ChatGPT in november 2022 markeerde het begin van de explosie van het grote taalmodel (LLM) onder eindgebruikers. LLM’s zijn getraind in enorme hoeveelheden gegevens en bieden tegelijkertijd de veelzijdigheid en flexibiliteit om tegelijkertijd taken uit te voeren zoals het beantwoorden van vragen, het samenvatten van documenten en het vertalen van talen.

Tegenwoordig zoeken organisaties naar generatieve AI-oplossingen om klanten te verrassen en interne teams in gelijke mate te versterken. Volgens onderzoek maakt echter slechts 10% van de bedrijven wereldwijd gebruik van generatieve AI op grote schaal McKinsey’s State of AI begin 2024 vragenlijst.

Om geavanceerde diensten te blijven ontwikkelen en de concurrentie voor te blijven, moeten organisaties krachtige generatieve AI-modellen en workloads veilig, efficiënt en kosteneffectief inzetten en opschalen.

Versnelde heruitvinding

Bedrijfsleiders beseffen de werkelijke waarde van generatieve AI nu deze wortel schiet in meerdere sectoren. Organisaties die LLM’s en generatieve AI adopteren, hebben 2,6 keer meer kans om de omzet met minstens 10% te verhogen, aldus onderzoek. Accenture.

Maar liefst 30% van de generatieve AI-projecten zal in 2025 na proof of concept worden stopgezet als gevolg van slechte datakwaliteit, ontoereikende risicobeheersing, escalerende kosten of onduidelijke bedrijfswaarde. Gartner. Een groot deel van de schuld ligt bij de complexiteit van de inzet van grootschalige generatieve AI-capaciteiten.

Overwegingen bij implementatie

Niet alle generatieve AI-diensten zijn gelijk. Generatieve AI-modellen zijn afgestemd op verschillende taken. De meeste organisaties hebben verschillende modellen nodig om tekst, afbeeldingen, video, spraak en synthetische gegevens te genereren. Ze kiezen vaak tussen twee benaderingen bij het inzetten van modellen:

1. Modellen die zijn gebouwd, getraind en geïmplementeerd op gebruiksvriendelijke beheerde services van derden.

2. Zelfgehoste oplossingen die afhankelijk zijn van open source en commerciële tools.

Beheerde services zijn eenvoudig in te stellen en omvatten gebruiksvriendelijke application programming interfaces (API’s) met robuuste modelkeuzes om veilige AI-applicaties te bouwen.

Zelf-gehoste oplossingen vereisen aangepaste codering voor API’s en verdere aanpassingen op basis van de bestaande infrastructuur. En organisaties die voor deze aanpak kiezen, moeten rekening houden met voortdurend onderhoud en updates van funderingsmodellen.

Het garanderen van een optimale gebruikerservaring met hoge doorvoer, lage latentie en beveiliging is vaak moeilijk te bereiken met bestaande, zelfgehoste oplossingen, waarbij hoge doorvoer duidt op de mogelijkheid om grote hoeveelheden gegevens efficiënt te verwerken en lage latentie verwijst naar de minimale vertraging in de gegevensoverdracht en realtime interactie.

Welke aanpak een organisatie ook hanteert, het verbeteren van de inferentieprestaties en het beveiligen van gegevens is een complexe, rekenintensieve en vaak tijdrovende taak.

Projectefficiëntie

Organisaties worden geconfronteerd met een aantal barrières bij het op grote schaal inzetten van generatieve AI en LLM’s. Als de projectvoortgang en de implementatietijdlijnen niet snel of efficiënt worden aangepakt, kunnen deze aanzienlijk worden vertraagd. Belangrijke overwegingen zijn onder meer:

Het bereiken van lage latentie en hoge doorvoer. Om een ​​goede gebruikerservaring te garanderen, moeten organisaties snel op verzoeken reageren en een hoge tokendoorvoer handhaven om effectief te kunnen schalen.

Samenhang. Veilige, stabiele, gestandaardiseerde inferentieplatforms zijn een prioriteit voor de meeste ontwikkelaars, die waarde hechten aan een gebruiksvriendelijke oplossing met consistente API’s.

Gegevensbeveiliging. Organisaties moeten bedrijfsgegevens, de vertrouwelijkheid van klanten en persoonlijk identificeerbare informatie (PII) beschermen volgens het interne beleid en de branchevoorschriften.

Alleen door deze uitdagingen te overwinnen kunnen organisaties generatieve AI en LLM’s op grote schaal ontketenen.

Inferentie-microservices

Om de concurrentie voor te blijven, moeten ontwikkelaars kostenefficiënte manieren vinden om de snelle, betrouwbare en veilige implementatie van krachtige generatieve AI- en LLM-modellen mogelijk te maken. Een belangrijke maatstaf voor kostenefficiëntie is een hoge doorvoer en lage latentie. Samen hebben ze impact op de levering en efficiëntie van AI-toepassingen.

Gebruiksvriendelijke inferentiemicroservices die gegevens uitvoeren via getrainde AI-modellen die zijn verbonden met kleine onafhankelijke softwareservices met API’s kunnen een gamechanger zijn. Ze kunnen directe toegang bieden tot een uitgebreid scala aan generatieve AI-modellen met industriestandaard API’s, uit te breiden naar open-source en aangepaste basismodellen, die naadloos kunnen worden geïntegreerd met bestaande infrastructuur en clouddiensten. Ze kunnen ontwikkelaars helpen de uitdagingen te overwinnen die gepaard gaan met het bouwen van AI-applicaties, terwijl ze de modelprestaties optimaliseren en zowel een hoge doorvoer als een lage latentie mogelijk maken.

Ondersteuning op ondernemingsniveau is ook essentieel voor bedrijven die generatieve AI in de productie gebruiken. Organisaties besparen kostbare tijd door continue updates, speciale functievertakkingen, beveiligingspatches en rigoureuze validatieprocessen te ontvangen.

Hippocratic AI, een toonaangevende startup in de gezondheidszorg die zich richt op generatieve AI, gebruikt inferentie-microservices om meer dan 25 LLM’s in te zetten, elk met meer dan 70 miljard parameters, om een ​​empathische klantenservice-avatar te creëren met verhoogde beveiliging en minder AI-hallucinaties. De onderliggende AI-modellen, die in totaal meer dan 1 biljoen parameters omvatten, hebben geleid tot vloeiende, realtime discussies tussen patiënten en virtuele agenten.

Genereer nieuwe mogelijkheden

Generatieve AI transformeert de manier waarop organisaties vandaag de dag zaken doen. Naarmate deze technologie blijft groeien, hebben bedrijven behoefte aan het voordeel van lage latentie en hoge doorvoer bij het op grote schaal inzetten van generatieve AI.

Organisaties die inferentie-microservices adopteren om deze uitdagingen veilig, efficiënt en economisch aan te pakken, kunnen zichzelf positioneren voor succes en leiding geven aan hun sector.


Meer informatie over NVIDIA NIM-inferentiemicroservices op AWS.