Google’s native multimodale AI -afbeeldingsgeneratie beïnvloedt met flash -snelle bewerkingen, stijloverdracht in Gemini 2.0

Luuk van der Plas12 maart 2025

6 5 minutes read

Word lid van onze dagelijkse en wekelijkse kranten voor exclusieve inhoud over de nieuwste updates en AI-dekking in de industrie. Leer meer

Google’s nieuwste open source AI Model Gemma 3 is niet het enige grote nieuws van Alphabet, vandaag een dochteronderneming.

Nee, in feite kan Spotlight worden gestolen Gemini 2.0 Flash van Google met originele afbeelding genererenEen nieuw praktisch model beschikbaar voor ontwikkelaars via Google AI Studio -gebruikers en Google’s Gemini API.

Dit is de eerste keer dat een groot Amerikaans technologiebedrijf multimodale beeldgeneratie heeft gestuurd binnen een model binnen een model. De meeste andere AI -afbeeldingen waren Generation Tool Defusion -modellen (specifiek afbeeldingen), die gebogen waren voor grote taalmodellen (LLM), die een lichte interpretatie tussen de twee modellen vereisen, zodat de gebruiker in een tekstprompt vroeg om een afbeelding te bereiken.

Gemini 2.0 Flash daarentegen kan oorspronkelijk afbeeldingen produceren in hetzelfde model dat het gebruikertype aangeeft, waardoor theoretisch meer nauwkeurigheid en meer mogelijkheden mogelijk zijn – en het initiële signaal is het volledig waar.

Gemini 2.0 Flash werd voor het eerst onthuld in december 2024, maar de native afbeelding voor gebruikers integreert multimodale input, logica en natuurlijke taalbegrip om afbeeldingen met lessen te genereren, zonder het vermogen van de generatie.

De nieuw beschikbare experimentele versie, Gemini-2.0-Flash-EXP, stelt ontwikkelaars in staat om te tekenen, afbeeldingen te verfijnen door interacties en gedetailleerde weergaven te genereren op basis van wereldkennis.

Hoe Gemini 2.0 Flash Ai-Janit-afbeeldingen verbetert

Één in Developer-face-blogpost Google is vóór vandaag gepubliceerd en benadrukt veel belangrijke vaardigheden Gemini 2.0 Flash Inheemse beeldgeneratie:

,, Les- en beeldverhaal: Ontwikkelaars kunnen Gemini 2.0 Flash gebruiken om verhalen te genereren met behoud van stabiliteit in tekens en instellingen. Het model reageert ook op de reactie, waardoor gebruikers het verhaal kunnen aanpassen of de kunststijl kunnen veranderen.

,, Appary Image Editing: AI steunt Multi-editWat betekent dat gebruikers een afbeelding kunnen terugkeren door instructies te geven via natuurlijke taalsignalen. Deze functie maakt echt samenwerking en creatieve verkenning mogelijk.

,, Wereldkennisgebaseerde beeldgeneratie: In tegenstelling tot veel andere modellen voor het genereren van afbeeldingen, maakt Gemini 2.0 Flash gebruik van uitgebreide logische vaardigheden om relevantere relevante afbeeldingen te produceren. Het kan bijvoorbeeld recepten portretteren met gedetailleerde scènes die aansluiten bij echte -wereldinhoud en kookmethoden.

,, Betere lesweergave: Veel AI -beeldmodel worstelt om de versieringstekst nauwkeurig in afbeeldingen te genereren, die vaak misseling of vervormde karakters produceren. Google meldt dat Gemini 2.0 Flash Outpart Bij het weergeven van lessen is het vooral handig voor advertenties, berichten op sociale media en uitnodigingen.

Eerste voorbeelden tonen ongelooflijke capaciteit en belofte

Googlers en sommige AI -krachtgebruikers om X te delen om nieuwe voorbeelden van beeldgeneratie te delen en de vaardigheden te delen die worden aangeboden via Gemini 2.0 Flash -experiment, en ze waren ongetwijfeld indrukwekkend.

Google Deepmind -onderzoeker Robert Riychi Showcase Hoe het model afbeeldingen in een pixel-kunststijl kan genereren en vervolgens nieuw in dezelfde stijl kan maken, afhankelijk van de tekstsignalen.

AI News Account Test Mithun 2.0 werd gerapporteerd over de uitrol van multimodale mogelijkheden van het Flash -experiment, aangezien Google het eerste grote laboratorium is dat deze functie implementeert.

Gebruiker @Agaisb_ a Pit “Fairy” Een aantrekkelijk voorbeeld dat werd aangetoond hoe een teken voor “chocolade -drizles toevoegen” een bestaand beeld van croisain in seconden heeft gewijzigd – het snelle en nauwkeurige beeld van de Gemini 2.0 -flitser onthulde alleen door het model met het model.

Youtuber theoretische media Er wordt gezegd dat deze incrementele beeldbewerking zonder volledige regeneratie iets is dat de AI -industrie al lang is verwacht, waaruit blijkt dat Gemini 2.0 Flash gemakkelijk was om een afbeelding te vragen om een afbeelding te bewerken om een afbeelding te bewerken.

Form Googler verving Ai YouTuber Bilawal Sidhu Liet zien hoe het model zwart -witte afbeeldingen kleurt, wat wijst op potentiële historische herstel- of creatieve groeipolties.

Deze vroege reacties suggereren dat ontwikkelaars en AI-enthousiastelingen de enthousiaste Gemini 2.0-flitser zien als een zeer flexibel hulpmiddel voor terugkerend ontwerp, creatieve verhalen vertellen en A-ondersteunde visuele bewerking.

Swift-uitrol is ook tegengesteld aan GPT-4O van OpenAI, die de native beeldgeneratiemogelijkheden in mei 2024 voor bijna een jaar geleden heeft bekeken, maar tot nu toe is het vrijgeven van deze faciliteit in Public-Google de mogelijkheid om te leiden in multimodale AI-implementatie.

Als gebruiker @Chatgpt21 aka “chris” Aangeeld op X had Openi deze capaciteit in het geval “LOS (T) The Year + Lead” in de zaak om onbekende redenen. De gebruiker nodigde iedereen uit Openai uit om commentaar te geven.

Mijn eigen tests onthulden enkele beperkingen met de grootte van de beeldverhouding – het zat vast aan 1: 1, ondanks het vragen om het in de tekst te wijzigen – maar het was in staat om de richting van de tekens in een afbeelding binnen enkele seconden te wisselen.

Hoewel het grootste deel van de discussie over het genereren van Gemini 2.0 Flash zich richt op individuele gebruikers en creatieve applicaties, zijn de implicaties ervan belangrijk voor bedrijfsteams, ontwikkelaars en softwarearchitecten.

AI-AI-uitgewerkte ontwerp en marketing: Voor marketingteams en contentmakers kan Gemini 2.0 Flash dienen als een kostengeschoolde optie voor traditionele grafische ontwerpworkflows, geautomatiseerd voor de vervaardiging van merkmaterialen, advertenties en visuals op sociale media. Omdat het tekstweergave in de afbeeldingen ondersteunt, kan het advertenties, verpakkingsontwerp en promotionele afbeeldingen stroomlijnen, die afhankelijkheid van handmatige bewerking kunnen verminderen.

Verbeterde ontwikkelaarstools en AI -workflows: voor CTO’s, CIO’s en software -ingenieurs kan native beeldgeneratie de AI -integratie in applicaties en services vereenvoudigen. Door tekst en beelduitvoer in een enkel model te mengen, kunnen Gemini 2.0 Flash -ontwikkelaars produceren:

AI-geëxploiteerde ontwerphulpverlening die UI/UX Mockup of App-eigenschap produceert.
Automatische documentatietools die concepten in realtime portretteren.
Dynamische, AI-managed storytellingplatforms voor media en onderwijs.

Aangezien het model ook gecondenseerde beeldbewerking ondersteunt, kunnen teams AI-geopereerde interfaces ontwikkelen, waarbij gebruikers het ontwerp verfijnen via een natuurlijke dialoog, de toetredingsdrempel voor niet-technische gebruikers verminderen.

AI-nieuwe mogelijkheden voor het bedienen van productiviteitssoftware: De productie van AI-geëxploiteerde productiviteitsapparatuur voor bedrijfsteams, Gemini 2.0 kan flash-applicaties ondersteunen:

Automatische presentatievergeneraties met AI-gemaakte dia’s en visuals.
Juridische en zakelijke documenten met Ai-Janit-infographics.
Visualisatie van e-commerce produceert dynamisch productmockup op basis van details.

Hoe u deze capaciteit kunt implementeren en experimenteren

Ontwikkelaars kunnen beginnen met het testen van het beeld van Gemini 2.0 Flash met Gemini API. Google biedt een voorbeeld -API -verzoek om aan te tonen hoe ontwikkelaars geïllustreerde verhalen kunnen genereren met lessen en afbeeldingen in dezelfde reactie:

from google import genai  
from google.genai import types  

client = genai.Client(api_key="GEMINI_API_KEY")  

response = client.models.generate_content(  
    model="gemini-2.0-flash-exp",  
    contents=(  
        "Generate a story about a cute baby turtle in a 3D digital art style. "  
        "For each scene, generate an image."  
    ),  
    config=types.GenerateContentConfig(  
        response_modalities=("Text", "Image")  
    ),  
)

Door de AI-in-Operated Image Generation te vereenvoudigen, biedt Gemini 2.0 flash-ontwikkelaars om geïllustreerde inhoud te maken, een A-Assisted-toepassing te ontwerpen en te experimenteren met visuele verhalen.

Dagelijkse inzichten in zakelijke gebruiksscenario’s met VB dagelijks

Als je indruk wilt maken op je baas, heeft VB Daily je gedekt. We geven u de primeur in wat bedrijven doen met generatieve AI, van wettelijke wijzigingen tot praktische implementatie, zodat u inzicht kunt delen voor maximale ROI.

Lees ons privacybeleid

Bedankt voor het lidmaatschap. Bekijk hier meer VB -nieuwsbrieven.

Er was een fout.