Vi testar bildgeneratorn som smälter GPU:er

Chat GPT:s bildgenerator har fått en större hjärna, numera integrerad med Chat GPT:s egen multimodala generator GPT-4o. Men den kräver så mycket beräkningskraft och har väckt så mycket intresse att Open AI tvingats bromsa utrullningen.

Ladda upp ett foto och be Open AI:s chattbott Chat GPT om en Aardman- eller Ghibli-tecknad version. Det har Open AI:s vd själv gjort. Och det är även många andra som vill testa de nya möjligheterna i Chat GPT:s bildgenerator just nu. Så Open AI:s servrar går på knäna.

Tidigare har Chat GPT konsulterat en modul kallad Dalle (DALL·E) för bildgenerering. Nu har Dalle bytts ut mot en ny icke namngiven funktion, hädanefter kallad ”Images”, också den egenutveclad.

Dalle kördes i en extern modul och grundades på en teknik kallad diffusion som genererar hela bilden på en gång. Images är en del av Chat GPT:s multimodala generator GPT-4o och är autoregressiv – genererar bilden rad för rad. Det ska bland annat göra layouten mer påverkbar.

Om du har tid i helgen kan du experimentera med att Images ska vara bättre på att skriva text korrekt, och bättre på att inte blanda ihop detaljer i beskrivningar. Ber du om ett gult kors på blå bakgrund är risken mindre att du får motsatsen.

Det ska även vara enklare att få Chatgt GPT förstå hur du vill justera en detalj i en bild han redan genererat. Och du ska kunna beskriva komplexare bilder med fler objekt.

Bilderna ska kunna vara mer fotorealistiska, med mer naturliga ansikten och rimligare proportioner.

En egenskap som känns extra intressant är att dina prompter ska kunna förutsätta en högre bildningsnivå. Images är integrerad med GPT-4o och all den omvärldskunskap som finns i den.

Denna reporter försökte be GPT-4o att ”skissa ett processorchip med komponenter utpekade” – för att testa omvärldsförståelsen. Men den vägrade och skyllde på ”innehållspolicys”.

Det kan ha varit ett svepskäl. Intresset för Images har gjort Open AI:s servrar överbelastade. Det är tydligen en beräkningstung algoritm – det tar minuter att generera en bild. Open AI:s vd beskriver det som att ”GPU:erna smälter” just nu.

Images ska ha stängts av i gratisversionen av ChatGPT, men den ska dyka upp igen är planen, med en kapacitet på tre bilder per dag.

Bildgeneratorn är långsam och ibland svårövertalad och Elektroniktidningen har inte hunnit testa mycket. Nedan ser du den nya generatorns första försök att översätta en en systemskiss på en processor till svenska.

Jag tror resultetat är betydligt bättre än vad Dalle skulle ha levererat. Men bilden visar ändå att vi utmanar Images kapacitet – där finns fel, som synes. Jag påpekade felen och bad om en ny bild, men Chat GPT gjorde då nya fel.

Orsaken kan vara att antalet objekt är för många. Enligt AI:s forskningschef Gabriel Goh, ska Images kunna hantera bilder med 15–20 objekt utan förvirring (mot 5–8 för tidigare Dalle).

Elektroniktidningen har även testat Aardman-funktionaliteten. Den fungerade utmärkt. Så bra att jag nästan grubblar över om jag borde be motivpersonerna på bild om lov att lägga upp bilderna?

Det finns tydliga motsvarigheter mellan Chat GPT:s bilder och originalen vad gäller utseenden, klädsel, rum, föremål och scenen som helhet. Hunden har intressant nog vänt sig om.