Nieuws

Google onthulde bron Jemma 3 Model Open met 128k referentieversie


Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer


Zelfs grote taal- en logische modellen blijven populair, organisaties wenden zich snel tot kleine modellen om AI -processen met lage energie- en kostenproblemen uit te voeren.

Terwijl sommige organisaties grote modellen in kleine versies onderscheiden, zoals modelaanbieders Google Blijf het Small Language Model (SLM) vrijgeven als een alternatief voor groot taalmodel (LLM), dat mogelijk meer kost om te draaien zonder prestaties of nauwkeurigheid uit te voeren.

Houd er rekening mee dat Google de nieuwste versie van zijn kleine model, Jemma, heeft uitgebracht, met uitgebreide referentievensters, grote parameters en meer multimodale argumenten.

Jemma 3, dat hetzelfde verwerkingsvermogen heeft als een groot Gemini 2.0 -model, kan het beste worden gebruikt door kleine apparaten zoals telefoons en laptops. Het nieuwe model heeft vier maten: 1B, 4B, 12b en 27b parameters.

Met een groot referentvenster van 128K -tokens – daarentegen had Gemma 2 een referentievenster van 80K – Gemma 3 kon meer informatie en complexe verzoeken begrijpen. Google heeft Gemma 3 bijgewerkt om in 140 talen te werken, afbeeldingen, lessen en korte video’s en ondersteunde functie -oproepen om taken en agentworkflows te automatiseren.

Jemma geeft een sterke prestatie

Om de rekenkosten verder te verlagen, heeft Google kwantitatieve versies van Gemma geïntroduceerd. Nadenken Gekwantiteerd model Als gecomprimeerd model. Dit gebeurt door het proces van “het verminderen van de nauwkeurigheid van numerieke waarden in het gewicht van een model zonder afstand te doen van nauwkeurigheid”.

Google verklaarde dat Gemma 3 “state-of-the-art prestaties tot zijn grootte distribueert” en LLMS-leidende LLM’s zoals LLAMA-405B, Deepsek-V3 en O3-min. Vooral Gemma 3 27b werd tweede in de Deepsek-R1 in de Chatboot Arena Aloë-score-tests. Deze is bovenaan allemaal DiepzekKlein model, Deepsek V3, Opening‘O3-mini, MetaLLAMA-405B en Mistral Groot.

Door de Gemma 3 te bepalen, kunnen gebruikers de prestaties verbeteren, het model uitvoeren en applicaties maken “die passen op single GPU en Tensor Processing Unit (TPU) hosts.”

Gemma 3 integreert met ontwikkelaarstools zoals Face Transformer, Olama, Jacques, Kerus, Pitorch en anderen. Gebruikers kunnen Gemma 3 bereiken via Google AI Studios, het gezicht of kaggle omarmen. Bedrijven en ontwikkelaars kunnen via AI Studio toegang vragen tot Gemma 3 API.

Shield Jemma voor veiligheid

Google zei dat het een beveiligingsprotocol heeft gebouwd in Gemma 3, met een beveiligingscontrole voor afbeeldingen genaamd Shildgema 2.

Google schrijft in een blogbericht: “De ontwikkeling van Jemma 3 omvatte uitgebreide gegevensbeheer, verfijning met ons veiligheidsbeleid en afstemming door sterke benchmark-evaluatie.” “Hoewel een grondige testen van de meer competente modellen vaak onze evaluatie van minder competente mensen aangeeft, inspireerden de vergrote stengelprestaties van Gemma 3 de specifieke evaluatie gericht op het vermogen om schadelijke stoffen te misbruiken; Hun resultaten duiden op niveaus met een laag risico. ,,

Shildgema 2 is een 4B parameter afbeeldingsveiligheidscontrole gebouwd op de Gemma 3 -foundation. Dit voorkomt dat het model reageert op afbeeldingen met seksueel schijnbare materialen, geweld en andere gevaarlijke materialen. Gebruikers kunnen zich aanpassen aan Shildegemma 2 om aan hun specifieke vereisten te voldoen.

Kleine modellen en destillatie over groei

Sinds Google Gemma voor het eerst in februari 2024 heeft uitgebracht, heeft SLM een toename van de interesse gezien. Andere kleine modellen zoals Microsoft’s PHI-4 en Mistral 3 geven aan dat ondernemingen applicaties willen bouwen met krachtige modellen als LLM, maar niet noodzakelijkerwijs een LLM die kan doen wat kan doen, gebruik de volledige breedte.

Ondernemingen zijn ook begonnen met kleine versies van LLM die ze verkiezen door destillatie. Voor alle duidelijkheid, Jemma is geen destillatie van Gemini 2.0; Het wordt eerder getraind met dezelfde dataset en architectuur. Een gedistilleerd model leert van een groter model, dat geen Gemma doet.

Organisaties geven er vaak de voorkeur aan om bepaalde use cases voor een model te passen. In plaats van een enorm model te overfiteren, kan O3-Mini of Cloud 3.7 sonnet zoals LLM gemakkelijk worden gedaan zonder een enorm model te overfit, in plaats van in te zetten in een SLM of gedistilleerde versie.



Bronlink

Related Articles

Back to top button