Midjourney v5 migliora ulteriormente un modello già impressionante

Alessandro Nodari
Alessandro Nodari
Midjourney v5 migliora ulteriormente un modello già impressionante

Modjourney, il popolare modello di intelligenza artificiale (IA) per la generazione di immagini (qui trovate il nostro approfondimento), si aggiorna alla versione v5 (in versione alfa chiusa), e anche questa volta promette di stupire con immagini ancora migliorate e mani con cinque dita!

Già, perché l'IA, arrivata in beta a luglio 2022 e continuamente migliorata versione dopo versione, aveva notoriamente  problemi nella creazione di alcuni particolari, che secondo i primi utilizzatori sono ora risolti, tanto da essere definita "inquietante" nella sua perfezione (ecco invece il nostro approfondimento su DALL-E)

Midjourney migliora non solo la creazione, ma anche la comprensione del vostro testo

Fonte: Julie Weiland

L'annuncio di Midjourney v5 è arrivato mercoledì scorso su Twitter, e secondo la società porta maggiore qualità dell'immagine, output più diversificati, gamma stilistica più ampia, supporto per trame senza soluzione di continuità, proporzioni più ampie, migliore prompt delle immagini, gamma dinamica più ampia e altro ancora.

Julie Wieland, una graphic designer che condivide spesso le sue creazioni di Midjourney su Twitter, si dichiara entusiasta, affermando come la nuova versione sembri aver messo gli occhiali a una persona con problemi di vista:

All'improvviso vedi tutto in 4k, sembra stranamente travolgente ma anche sorprendente

Per alcuni, le immagini sono fin troppo perfette, e quasi inquietanti, ma è indubbio come il miglioramento ci sia, consistente e velocissimo (qui sotto, a sinistra v3, rilasciata in agosto 2022, al centro v4, rilasciata a novembre 2022 e a destra v5 in alfa).

"a muscular barbarian with weapons beside a CRT television set, cinematic, 8K, studio lighting": tre versioni di Midjourney a confronto (a sinistra v3, al centro v4 a destra v5). Fonte: ArsTechnica

Ma i miglioramenti non sono solo nella qualità delle immagini. I primi utilizzatori confermano come ora Midjourney commetta molti meno errori nel numero di dita quando crea le mani. Curiosamente, questo è uno dei problemi più comuni nelle IA, e la nuova v5 sembra averlo finalmente sistemato. 

Non solo, ma secondo i primi utilizzatori ora Midjourney v5 comprende anche molto meglio i vostri input. Una delle caratteristiche del modello, infatti è che se siete dei creativi, quindi con l'abitudine a controllare ogni fase del vostro lavoro, "litigherete" con l'IA in quanto potrete solo scegliere tra i risultati proposti. 

Come dice qualcuno, è come giocare con una slot machine. Con v5, sembra che le capacità di comprensione del testo siano molto migliorate, e Mijourney si avvicini molto di più ai vostri desideri.

Come provare Midjourney v5 e considerazioni

Come abbiamo detto in apertura, Midjourney v5 è al momento in fase alfa chiusa. Normalmente, per provare una versione specifica del modello dovete mettere in fondo al prompt (qui la nostra guida per usare Midjourney) il parametro --v [numero versione].

In questo caso, quindi, bisognerebbe mettere --v 5, ma se non siete utenti a pagamento e non avete sottoscritto l'accesso anticipato, vi verrà mostrato il seguente errore. 

Detto questo, pur con i suoi miglioramenti Midjourney dà ancora l'impressione di non sapere bene cosa voler fare da grande. L'obiettivo è il fotorealismo o l'arte? Tralasciando le considerazioni sul copyright o altro, il modello, pur con i suoi miglioramenti prodigiosi, sembra ancora indietro rispetto a DALL-E 2 (immagine sotto, a sinistra) se l'obiettivo è il primo. Pur con la perfezione nei particolari, l'immagine infatti sembra artefatta, quasi troppo corretta, la pelle "plasticosa" e i riflessi "posticci" (immagine sotto, a destra).

DALL-e 2 (a sinistra) vs Midjourney v5 (a destra)

Certo, le immagini sono entusiasmanti, ma come vedete l'hamburger qui sotto, sembra di gomma. Il formaggio non è congelato nell'atto di gocciolare ma "creato" in moto da sembrare che stia gocciolando.

Nondimeno, in alcuni contesti, soprattutto con forti contrasti, il risultato è molto convincente (immagine del clown di apertura).

Ma il problema per i creativi resta. Non potrete creare quello che volete, ma scegliere tra varie alternative, lasciando fare al modello e accontentandovi di trovare l'immagine che più si avvicina ai vostri desideri, un po' come fareste con le immagini di Shutterstock (che infatti sta creando un vero e proprio catalogo fatto in questo modo).

In questo senso, Midjourney farà felici i direttori di agenzie, e farà impazzire i designer, che dovranno invece litigare per ore con l'IA prima di poter trovare il risultato che desiderano (almeno, io ci litigo regolarmente) e che si avvicini al loro stile, che andrà definitivamente perso. Ma questo vale per tutte le IA generative, anche per i testi. 

O forse dobbiamo imparare ad abbandonare l'idea di avere il controllo della creazione, e lasciar far fare tutto all'IA.