Techniek

Nieuwe AI -tekstdispersiemodellen breken de snelheidsobstakels door woorden uit woorden te halen

Deze verspreide modellen behouden snelle of vergelijkbare prestaties met het conventionele model van dezelfde grootte. Onderzoekers van Llada hebben gemeld dat hun 8 miljard parametermodel vergelijkbaar is met dat van de LLAMA3 8B in verschillende criteria, inclusief concurrerende resultaten in functies zoals MMLU, ARC en GSM 8K.

Mercurius eiste echter de ontwikkeling van dramatische snelheid. Het is gemeld dat 1.109 tokens per seconde werken in vergelijking met het 59 token van GPT-4O mini per seconde dan de 57,5 ​​procent GPT-4O mini in hun Mercury Codeer Mini Humanaval en MBPP. Door soortgelijke prestaties in de coderende benchmarks te handhaven, presenteert het ongeveer 19x snelheden dan GPT -4O mini.

Mercury -documenten stellen dat de modellen “Nvidia H 100 in het decennium worden gereden tot 1000 tokens/seconden, het is slechts een snelheid met aangepaste chips” van gespecialiseerde hardware -leveranciers zoals “Grak, Ceribrus en Sambanovo. In vergelijking met andere speed-subject-modellen is het voordeel van de claim aanzienlijk dan de Mercuri-codeer Mini Jemi 2.5 Flash-Light (212 Token/Second) is ongeveer 5,5x sneller en bekleed 3,5 Hiku (61 token/seconde) sneller dan 18x.

Een mogelijke nieuwe rand openen bij LLMS

Defusiemodellen zijn betrokken bij sommige afwegingen. Om volledige reacties te creëren, hebben ze meestal meerdere voorwaartse passen door het netwerk nodig, in tegenstelling tot de traditionele grappige modellen die slechts één pass per token vereisen. De expansiemodellen verwerken echter alle tokens parallel, ze bereiken hogere trips ondanks deze overheadkosten.

Inception denkt dat snelheidsfaciliteiten code-afwerkingsapparatuur kunnen beïnvloeden waar onmiddellijke reacties productiviteit kunnen ontwikkelen, gespreks AI-applicaties, resource-gecontineerde omgeving zoals mobiele applicaties en AI-agenten reageren snel op agenten.

Als de op defusie gebaseerde taalmodellen de kwaliteit behouden en tegelijkertijd de snelheid verbeteren, kunnen ze veranderen hoe de AI-tekstgeneratie zich ontwikkelt. Tot nu toe stonden AI -onderzoekers open voor de nieuwe aanpak.

Onafhankelijke AI -onderzoeker Simon Willison Ace zei tegen de techniek: “Ik hou van mensen die experimenteren met alternatieve architectuur in transformatoren, het is nog een ander schilderij van de ruimte van LLM.”

Hij is X, ex -openai onderzoeker Andrez Carpathi Geschreven Over de inscriptie: “Dit model heeft het potentieel om gescheiden te worden en misschien de nieuwe, unieke psychologie of nieuwe sterke en zwakke punten laten zien dat ik mensen aanmoedig om het te proberen!”

Vragen over de vraag of de prestaties van modellen zoals GPT -4O en Claud 3.7 Sonnets in kwestie blijven, waardoor betrouwbare resultaten ontstaan ​​zonder veel vertrouwen, en of de procedure het steeds complexere gesimuleerde werk van de procedure kan omgaan. Nu kunnen deze modellen een alternatief bieden voor kleinere AI -taalmodellen die de capaciteit voor snelheid niet lijken te laten.

Je kan Probeer de coder van kwik zelf Op de demo -site van inscriptie, en dat kan Download de code voor Llada Of probeer een Demo Knuffeld gezicht.



Bronlink

Related Articles

Back to top button