Come funziona DALL-E, il generatore di immagini "intelligente"

Come funziona DALL-E, il generatore di immagini "intelligente"
Alessandro Nodari
Alessandro Nodari

Che l'intelligenza artificiale (IA) sia ormai entrata nelle nostre vite, molto più di quanto possiamo o vogliamo comprendere, è un fatto assodato. Transazioni, guida autonoma, persino esami medici, ormai sono pochissimi i campi in cui non sia stata trovata un'applicazione per questa tecnologia rivoluzionaria, che consente di riconoscere e catalogare i dati in maniera sovrumana.

Ma la nuova frontiera dell'IA non si ferma al riconoscimento dei dati, ma vuole arrivare alla creazione di contenuti, come immagini, musiche, testi e persino video. Sicuramente molti di voi avranno visto, scorrendo tra i social media, immagini accompagnate da didascalie: sono immagini create da un'intelligenza artificiale che converte il testo in immagini. Queste IA è DALL-E, vediamo come funziona, a cosa serve e quali sono i suoi limiti (o rischi). Vi ricordiamo anche come installare Stable Diffusion, che è una valida alternativa a DALL-E.

Indice

Come funziona DALL-E

come funziona dall-e

Più volte su queste pagine abbiamo parlato dei progressi dell'intelligenza artificiale, usata per dare un nome ai volti nella nostra galleria di foto, modificare foto online e aiutarci nella ricerca su Internet.

Come abbiamo anticipato in apertura, una delle branche dello sviluppo dell'IA è la creazione di contenuti, e una delle applicazioni più recenti (e sorprendenti), è la capacità di creare immagini digitali da descrizioni in linguaggio naturale. Se infatti la creazione di testi assolutamente comparabili a quello creati da un uomo, da parte di modelli linguistici come GPT-3, è capace di riempirci di ammirazione nonché inquietudine, niente colpisce i nostri sensi meglio di un'immagine. E fornire a un'intelligenza artificiale una breve frase per poi vederla convertire in qualcosa di incredibilmente fotorealistico, che il più delle volte si avvicina in maniera stupefacente a quello che avevamo in mente noi, beh, questo è un altro discorso. Provare per credere. 

I modelli di IA in grado di creare questi contenuti sono pochi e recenti. Tra questi troviamo DALL-E, una società fondata nientemeno che nel 2015 da Elon Musk (che l'ha abbandonata nel 2018) e ora finanziata pesantemente da Microsoft e Imagen e Parti, creati da Google e guarda caso basati proprio su DALL-E.

DALL-E a sua volta è basato proprio su GPT-3, il che gli consente di riconoscere il testo, ma ha dimensioni molto più ridotte. Pensiamo infatti che se GPT-3 usa 175 miliardi di parametri (ecco perché si parla di modelli di grandi dimensioni) l'originale DALL-E, annunciato da OpenAI nel gennaio 2021, usava 12 miliardi di parametri. Il suo successore DALL-E 2, annunciato ad aprile 2022, ne usa 3,5 miliardi, ma con una migliore capacità di generare immagini (a risoluzione 4 volte superiore), più corrispondenti al testo e più fotorealistiche.

Da qui in poi quindi parleremo di DALL-E 2, visto che è l'ultima versione del modello.

Come funziona DALL-E 2

Come funziona, vi chiederete? Per chi è interessato a maggiori tecnicismi, DALL·E 2 è un modello che è stato allenato su un particolare algoritmo di intelligenza artificiale del 2021 particolarmente efficace nell'apprendimento di immagini, chiamato CLIP (Computational Linguistics for Information Processing).

I modelli di intelligenza artificiale funzionano, in termini molto semplicistici, in due fasi.

Una, di allenamento, durante la quale vengono forniti all'IA dei dati da cui "imparare", per esempio dei caratteri scritti a mano. La seconda, quella vera e propria, è la fase in cui il modello viene lanciato nel mondo reale e gli si forniscono i dati veri, da cui lui deve estrapolare quanto appreso. Per esempio, riconoscere la vostra scrittura e tradurla in caratteri. Ci sarebbe poi una terza di controllo, ma esula dal nostro scopo.

Per quanto riguarda DALL-E, le cose sono un po' più complicate. Gli sviluppatori hanno preso un enorme dataset di immagini e testi che, grazie al modello CLIP, sono stati "embeddati", ovvero a ogni testo è stata inserita l'informazione di un'immagine e viceversa, in modo da creare uno spazio rappresentazionale in cui testi e immagini sono collegati tra loro. Il modello ha imparato ad associare le due funzioni, grazie a una fase di apprendimento di oltre 650 milioni di immagini.

A quel punto è stato possibile costruire il modello generativo vero e proprio di DALL-E 2, ovvero quello che gli consente di creare le immagini.

Questo è diviso in due parti, il modello prior, che crea un'immagine CLIP condizionata dal testo e il modello decoder (Decoder Diffusion model, unCLIP), che produce immagini condizionate dall'immagine CLIP sopra prodotta e dal testo immesso dall'utente (quello che vogliamo trasformare in immagine).

come funziona dall-e

Il decoder si chiama unCLIP perché esegue il processo inverso del modello CLIP originale: invece di creare una rappresentazione 'mentale' (embed) da un'immagine, crea un'immagine originale da una rappresentazione mentale generica.

La rappresentazione mentale codifica le principali caratteristiche semanticamente significative: persone, animali, oggetti, stile, colori, sfondo, ecc. in modo che DALL·E 2 possa generare un'immagine nuova che conserva queste caratteristiche variando le caratteristiche non essenziali.

Confusi? Cerchiamo di spiegarlo con un esempio, che in qualche misura richiama alla memoria il celebre racconto di Raymond Carver, "Cattedrale".

  1. Prendete un pezzo di carta e una matita
  2. Per prima cosa, pensate a disegnare un treno che esce da una galleria, con gli alberi intorno e il sole alto nel cielo. Visualizzate come potrebbe essere il disegno. L'immagine mentale che è apparsa nella vostra mente è l'analogia umana di un'immagine "embeddata", ovvero un testo, con le informazioni di un'immagine. Non sapete esattamente come verrà il disegno, ma ne conoscete grossomodo le caratteristiche principali. Il modello prior fa proprio questo: passa dalla frase all'immaginario mentale.
  3. Ora iniziate a disegnare. Tradurre le immagini che avete in mente in un disegno reale è ciò che fa il modello decoder, ovvero unCLIP. Potreste rifare il disegno a partire dallo stesso testo con caratteristiche simili ma aspetto diverso. Questo è quello che fa anche DALL·E 2 per creare immagini originali distinte da un'immagine "embeddata"
  4. Una volta finito il disegno, guardatelo. Questa immagine è il risultato del testo "un treno che esce da una galleria, con gli alberi intorno e il sole alto nel cielo".
  5. Ora, pensate a quali caratteristiche rappresentano meglio la frase (es. il treno, la galleria, gli alberi) e quali rappresentano meglio l'immagine (es. gli oggetti, lo stile, i colori...). Questo processo di codifica delle caratteristiche di una frase e di un'immagine è ciò che fa il modello CLIP.

DALL·E 2 è un modello molto versatile che può andare oltre la generazione di immagini a partire da frasi, ed è in continua evoluzione. Questo gli consente di effettuare variazioni e "giudicare" quello che considera essenziale da quello che è sostituibile. In sostanza, DALL-E 2 tende a preservare "informazioni semantiche così come elementi stilistici". Si può vedere un esempio qui sotto, dove "La persistenza della memoria" di Dalì è soggetto a diverse variazioni. Il modello mantiene alcune forme (alberi e orologi) e ne sostituisce altre (il cielo). 

come funziona dall-e

Cosa può fare DALL-E 2?

Finora abbiamo parlato della capacità di DALL-E 2 di creare immagini da testo, ma il modello può fare molto di più:

  • può creare immagini e opere d'arte originali e realistiche da una descrizione del testo. Può combinare concetti, attributi e stili.
come funziona dall-e
  • può modificare immagini esistenti a partire da un testo, aggiungendo e rimuovendo elementi, tenendo conto di ombre e riflessi ciò che è nella tela originale, creando nuove composizioni espansive.
come funziona dall-e
  • può prendere un'immagine e crearne diverse variazioni ispirate all'originale.
come funziona dall-e

Una delle cose da tenere a mente è che DALL-E 2 funziona meglio con frasi lunghe e complesse, mentre le frasi brevi sono troppo generiche, e in sostanza lo confondono.

DALL·E 2 ha imparato a rappresentare gli elementi separatamente vedendoli ripetutamente nell'enorme set di dati di 650 milioni di coppie immagine-testo e ha sviluppato la capacità di fondere con coerenza semantica concetti non correlati.

Il modello inoltre ha un'altra fantastica abilità: l'interpolazione. Utilizzando una tecnica chiamata text diffs (differenze di testo), DALL·E 2 può trasformare un'immagine in un'altra. Nell'esempio seguente "demodernizza" un iPhone è come fare la somma tra coppie immagine-testo: (immagine di un iPhone) + 'un vecchio telefono' - 'un iPhone'. In questo caso le immagini sono state concatenate in una GIF, in quanto DALL-E non è in grado di creare video.

come funziona dall-e

DALL-E: app e download

A questo punto vi chiederete "ma dove lo troviamo?". Dal 21 luglio DALL-E 2 ora è ufficialmente disponibile a chiunque in beta, ma c'è una lista di accesso. Come dichiarato dalla società,

Nelle prossime settimane inviteremo 1 milione di persone dalla nostra lista d'attesa. Gli utenti possono creare con DALL·E utilizzando crediti gratuiti che si ricaricano ogni mese e acquistare crediti aggiuntivi in ​​incrementi di 115 generazioni per $ 15.

DALL-E funziona a crediti, e ogni utente DALL·E riceverà 50 crediti gratuiti durante il primo mese di utilizzo e 15 crediti gratuiti ogni mese successivo. Ciascun credito può essere utilizzato per una generazione di prompt DALL·E originale — che restituisce quattro immagini — o un prompt di modifica o variazione, che restituisce tre immagini.

In questa prima fase della beta, gli utenti possono acquistare crediti DALL·E aggiuntivi con incrementi di 115 crediti (460 immagini, approssimativamente) per 15 dollari in aggiunta ai loro crediti mensili gratuiti. Viene applicato un credito ogni volta che viene immessa una richiesta e un utente preme 'genera' o 'variazioni'.

OpenAI afferma che mano che imparano di più e raccolgono i feedback degli utenti, prevedono di esplorare altre opzioni che si allineeranno ai processi creativi degli utenti.

Quindi non ci sono app o programmi da scaricare. Tutto funziona tramite sito. Dal link indicato sopra, se interessati, dovete cliccare sul pulsante Join DALL-E 2 WAITLIST e creare un account.

Come funziona Crayon (DALL-E mini)

come funziona dall-e

Dall'idea di DALL-E è nato DALL-E Mini, poi diventato Craiyon a seguito di una richiesta di OpenAI, un progetto open sorce per creare immagini da testo. Pubblicato a giugno su Hugging Face, un sito che ospita progetti di intelligenza artificiale, è diventato velocemente virale vista la semplicità e l'efficacia dei risultati. Tanto che Hugging Face non reggeva al traffico ed è andato offline diverse volte. 

Il modello si è allenato guardando milioni di immagini da Internet con le didascalie associate. Nel tempo, impara a disegnare un'immagine da un prompt di testo.

Per ottenere questi risultati, Crayon utilizza diversi modelli di intelligenza artificiale, né più né meno come DALL-E. 

  • Un encoder di immagine trasforma le immagini grezze in una sequenza di numeri con il decoder associato
  • un modello trasforma un prompt di testo in un'immagine codificata
  • modello giudica la qualità delle immagini generate per filtrarle ulteriormente

Ora DALL-E mini ha visto l'arrivo di DALL-E Mega una versione più grande che si sta tutt'ora addestrando e contiene diversi miglioramenti:

  • Optimizer aggiornato e più efficiente a seguito di un confronto di diversi Optimizer
  • Una nuova architettura basata su Normformer e Gluvariants
  • si usa il super condizionamento per migliorare la qualità dei dati
  • Miglioramenti rispetto al set di dati con l'esplorazione del punteggio CLIP

A differenza di DALL-E 2, DALL-E mini è pubblicamente disponibile e può essere persino scaricato, ma può commettere errori e produce immagini anche stranianti, visto che non è in grado di comprendere come gli oggetti si comportano nel mondo reale.

Per usarlo, recatevi al sito e inserite un testo - in inglese. Fatto, poi potete scattare uno screenshot e condividere i vostri risultati. Per curiosità, qui sotto abbiamo inserito il testo dell'esempio che abbiamo usato per spiegare il funzionamento di DALL-E, ovvero "un treno che esce da una galleria, con gli alberi intorno e il sole alto nel cielo", ovviamente tradotto in inglese, e mostriamo uno dei risultati proposti.

come funziona dall-e

Possibilità, ma anche limiti e rischi

Per quanto riguarda i limiti, DALL-E 2 non è molto bravo a "scrivere", in quanto il modello decodifica un testo piuttosto che inserirlo nell'immagine come tale, ma molto peggio sono i rischi.

Come abbiamo più volte ribadito su queste pagine, l'intelligenza artificiale è una grande opportunità, ma nasconde anche rischi intrinseci dovuti all'allenamento. E se l'IA si allena perlustrando il web o i social, i risultati non sono confortanti, visto che è pieno di frasi e immagini razziste, violente o comunque non appropriate. 

E questo è il motivo per cui Google, Meta e OpenAI non hanno diffuso pubblicamente i loro modelli, o lo hanno fatto cautamente.

Nel caso di DALL-E 2, i dipendenti hanno rimosso i contenuti violenti dai dati di formazione e sono disponibili filtri che impediscono a DALL-E 2 di generare immagini se gli utenti inviano richieste che potrebbero violare le politiche aziendali contro nudità, violenza, cospirazioni o contenuti politici.

Nondimeno, DALL·E 2 e tutti i grandi modelli di intelligenza artificiale hanno difficoltà ad affrontare alcune problematiche, in quanto hanno pregiudizi che possono danneggiare in particolare le minoranze o aggravare i problemi della nostra società.

Citando Arthur Holland Michel,

perché hanno annunciato pubblicamente il sistema, come se fosse quasi pronto, sapendo benissimo che è ancora pericoloso e non avendo un'idea chiara di come prevenire potenziali danni?

Ma cosa c'è che non va nella rappresentazione del mondo di DALL·E 2?

  • DALL·E 2 tende a rappresentare persone e ambienti come bianchi/occidentali quando il prompt non è specifico. Si impegna anche in stereotipi di genere (ad es. assistente di volo=donna, costruttore=uomo). Richieste più specifiche aiutano, ma non dovrebbe essere necessario. Purtroppo, Internet è stato prevalentemente bianco e occidentale e il set di dati estratti rispecchia questi pregiudizi.
  • Si può usare l'inpainting di DALL-E 2 per creare deepfake. I deepfake utilizzano un GAN (rete generativa avversaria, Generative Adversarial Network), che è una tecnica di deep learning diversa da quella utilizzata da DALL·E 2 in quanto utilizza due modelli messi "uno contro l'altro" per stimolarsi a imparare, ma il problema è simile.
  • Si possono creare contenuti violenti che, sebbene vietati possono essere evitati con "sinonimi visivi", ad esempio "una foto di un cavallo che dorme in una pozza di liquido rosso" mostra un cavallo similmente morto nel suo sangue. Questi contenuti possono essere anche involontari, e vengono chiamati 'contenuti spuri'.
  • Si può creare disinformazione, creando immagini di edifici distrutti per fuorviare il pubblico su quello che succede in certi luoghi
  • OpenAI si chiama fuori dalle responsabilità, dicendo che l'uso del modello dipende dagli utenti, come se non potrebbero fare di più per evitare i rischi se fosse la loro priorità numero uno.

Nonostante i rischi, OpenAI è entusiasta dei risultati della loro tecnologia, che potrebbe aprire opportunità creative per gli artisti e aiutare con applicazioni commerciali per l'interior design o la creazione di siti web.

DALL·E 2 è indubbiamente uno strumento creativo potente e versatile ma se i suoi creatori non consentono a ricercatori indipendenti di analizzare i suoi risultati, dovremmo essere quanto meno cauti. Il primo pensiero che dovremmo porci, citando la professoressa Emily M. Bender, dovrebbe essere di

resistere all'impulso di essere impressionati

È estremamente facile innamorarsi delle immagini create da DALL·E 2 e disattivare il pensiero critico, ma dovremmo porci la domanda se società come OpenAI sono in grado di affrontare (o vogliano farlo) i problemi inerenti alla loro tecnologia. E questo vale per tutti, Google e Meta inclusi.

Mostra i commenti