
Google propone un'altra IA che crea immagini dal testo
Ecco Parti, un modello che sfrutta un approccio diverso rispetto a ImagenIl mese scorso vi abbiamo riportato la notizia del programma di intelligenza artificiale (IA) di Google chiamato Imagen, in grado di generare immagini a partire da una descrizione testuale. Il programma era risultato particolarmente efficace secondo un benchmark di valutazione, e Google ne aveva sviluppato in parallelo un altro, chiamato Parti, che utilizza una diversa strategia, pur essendo complementare al primo.
Imagen e Parti sono entrambi infatti partiti dal programma di intelligenza artificiale DALL-E 2 di Open AI, ma Imagen utilizza un modello chiamato Diffusion, in cui impara a convertire uno schema di punti casuali in immagini. Le immagini iniziano prima con una risoluzione minore e poi aumentano progressivamente di risoluzione. Questo tipo di modelli è utilizzato in applicativi sia per le immagini che per l'audio, come il miglioramento della risoluzione delle immagini, la ricolorazione di foto in bianco e nero, la modifica di regioni di un'immagine, il ritaglio di immagini e la sintesi vocale.
Parti: un diverso modello per generare immagini da testo
Parti invece converte innanzitutto una raccolta di immagini (in questo caso un messaggio di testo) in una sequenza di linee di codice, simili ai pezzi di un puzzle, e crea una nuova immagine corrispondente. Questo approccio sfrutta le conoscenze dei modelli linguistici di grandi dimensioni come PaLM ed è in grado di gestire testi lunghi e complessi e produrre immagini di alta qualità.

Google ha scoperto che Parti può "gestire prompt lunghi e complessi" che:
- Riflettono accuratamente la conoscenza del mondo
- Sono composti da molti partecipanti e oggetti, con fini dettagli e interazioni
- Aderiscono a un formato e uno stile di immagine specifici
Come si può vedere, i risultati sono stupefacenti.

Come sempre nel caso dell'IA, ci sono limitazioni, in quanto né Parti né Imagen riescono a produrre in modo affidabile un numero dato di oggetti (ad es. "dieci mele"), né a posizionarli correttamente in base a specifiche descrizioni spaziali (ad es.
"una sfera rossa a sinistra di un blocco blu con un triangolo giallo su di esso"). Inoltre, man mano che i testi diventano più complessi, i modelli iniziano a perdere dettagli o introducendo dettagli che non sono stati forniti nel testo. Il problema nasce nella fase di training, in quanto non si è riusciti a dare sufficienti informazioni ai modelli per consentire loro una consapevolezza 3D.

L'altro problema, ben più rilevante, riguarda il lato etico, e infatti come per Imagen Google non ha rilasciato Parti per uso pubblico. Essendo i modelli addestrati su set di dati di grandi dimensioni, si sono creati bias che creano rappresentazioni stereotipate e riflettono in generale i pregiudizi occidentali.
Google però non si arrende e continua a esplorare questa area (nonostante il licenziamento di Timnit Gebru), con l'intento di creare strumenti che possano "sbloccare la creatività congiunta tra uomo e computer" pur aderendo ai principi di una IA Responsabile.
Se siete interessati all'argomento, qui trovate l'articolo completo dove potete provare Parti (cambiando le parole, scorrete fino al capitolo "Composing real-world knowledge" e "Discussion and limitations").