Cos'è e come usare Midjourney

Alessandro Nodari
Alessandro Nodari
Cos'è e come usare Midjourney

Il 2023 sarà sicuramente ricordato come l'anno in cui l'intelligenza artificiale ci ha mostrato le sue capacità di scrittura e disegno.

Se da un lato infatti i modelli di linguaggio sono dominati dall'onnipresente ChatGPT, anche la generazione di immagini sta assumendo una rilevanza sempre maggiore, grazie alla loro capacità di creare figure oniriche e vagamente disturbanti a partire da una nostra breve descrizione. DALL-E, è l'esempio più famoso, ma anche Midjourney sta acquisendo un suo spazio, e artisti o agenzie di marketing li vedono come uno strumento ideale per dare forma alle loro idee. 

Vediamo quindi cos'è e come usare Midjourney nel 2023, oltre a ricordarvi le nostre guide riguardanti i sopracitati ChatGPT e DALL-E, e in particolare su come funziona Stable Diffusion, che è forse il principale rivale di Midjourney.

Indice

Cos'è Midjourney

cos'è e come usare midjourney

Un'immagine creata da Midjourney: colomba meccanica

Quindi Midjourney è un modello di intelligenza artificiale che consente di creare immagini a partire da una descrizione testuale, ma cosa significa esattamente?

Prima di tutto, Midjourney prende il suo nome dal laboratorio di ricerca indipendente, come si definiscono, che lo ha creato, ed è frutto della creatività di David Holz, co-fondatore anche di Leap Motion.

La storia di Midjourney è tanto breve quanto esplosiva (nel bene e nel male), in quanto, pensate, ha debuttato neanche un anno fa e a luglio 2022 è entrato nella fase beta. Attualmente siamo alla versione 4 del modello (rilasciata a novembre), e come vedete dal tweet sottostante i progressi sono stati esponenziali, tanto che lo stesso Holz ad agosto 2022 ha dichiarato come Midjourney fosse già redditizio. 

La tecnologia alla base di Midjourney non è stata rivelata, ma quello che si pensa è che sia basato su Stable Diffusion, un altro generatore di immagini molto noto, ma allenato e sviluppato in maniera diversa. 

Per "allenare" si intende una fase di sviluppo (la più importante) di un algoritmo di intelligenza artificiale (IA), durante la quale "apprende" la distribuzione dei dati che deve sviluppare, per esempio "capisce" a quale parola associare un'immagine. Successivamente c'è la fase generativa vera e propria, in cui assocerà immagini a frasi nuove.

Questo comporta che l'allenamento determina la bontà di un algoritmo di IA e infatti Midjourney ha sollevato più di qualche critica, in quanto è stato allenato su opere di artisti protette da copyright, che ha fatto sue e riproduce senza problemi.

Ma facciamo un passo indietro. Giusto per dare qualche nozione di base, Stable Diffusion utilizza una variante di un cosiddetto diffusion model (DM, modello di diffusione), chiamata latent diffusion model (modello di diffusione latente LDM).

I modelli di diffusione sono modelli generativi, ovvero possono essere usati per generare nuovi campioni di dati simili a quelli su cui vengono addestrati.

Senza entrare troppo nel tecnico, Stable Diffusion è composto di tre parti:

  • autoencoder varazionale (variational autoencoder, VAE), che permette di catturare un significato semantico più fondamentale dell'immagine embeddando gli oggetti (in pratica inserendo in un testo l'informazione di un'immagine) e quindi convertendo i pixel nel cosiddetto "Spazio latente"
  • una rete neurale convoluzionale chiamata U-Net, che elimina il rumore per ottenere una rappresentazione latente
  • un decoder VAE, che genera l'immagine finale riconvertendo la rappresentazione in pixel
cos'è e come usare midjourney

Rappresentazione di Stable Diffusion. Fonte: Stable Diffusion

Questo meccanismo è piuttosto diverso da DALL-E, ma il concetto di base è lo stesso: fornite al modello un testo descrittivo (più è descrittivo, meglio è) e questo crea un'immagine cercando di interpretarlo.

Giusto per darvi una dimostrazione del risultato finale, qui sotto vi mostriamo una serie di immagini create da DALL-E (a sinistra) e una serie di immagini create da Midjourney (a destra), partendo dallo stesso testo: una donna che fissa dritto nella telecamera con illuminazione cinematografica, chiaroscuro.

cos'è e come usare midjourney

Rappresentazioni di: una donna che fissa dritto nella telecamera con illuminazione cinematografica, chiaroscuro. A sinistra, create da DALL-E, a destra, create da Midjourney

Come potete vedere, la qualità delle immagini è impressionante, ma mentre DALL-E è più realistico, Midjourney ha uno stile più artistico. In questo senso, potrebbe essere considerato una via di mezzo tra DALL-E e Crayon il modello di generazione delle immagini open source conosciuto anche come DALL-E Mini (nome poi abbandonato sotto minaccia di querela).

Ma questo non è tutto quello che può fare Midjourney. Potete chiedergli di creare, tra le altre cose:

  • espressioni che trasmettano emozioni (anche di animali)
  • effetti artistici e grafici di vario tipo
  • abbigliamenti e pettinature che richiamino dei periodi storici (per esempio anni '90, il futuro o gli anni '60)
  • ambientazioni di qualunque tipo per il vostro soggetto

In generale, possiamo dire che Midjourney è in grado di creare vere e proprie opere d'arte. Ci sono state diverse polemiche per la sottrazione di proprietà intellettuale da parte dell'algoritmo (con cause legali annesse) e per il fatto che questo sia stato usato anche per creare immagini per noti siti invece di rivolgersi a fumettisti o disegnatori come da prassi.

Insomma, il futuro è qui, e anche se per Nick Cave è robaccia, indipendentemente da come la pensiate vedremo sempre più queste creazioni.

E la cosa migliore è che potete provarlo. Ora, senza liste di attesa, e gratuitamente! Vediamo come.

Come funziona Midjourney AI

cos'è e come usare midjourney

Home page del sito di Midjourney

Vediamo quindi come usare Midjourney. Sarete impressionati da quanto è semplice: tutto quello di cui avete bisogno è un account Discord e una quindicina di minuti del vostro tempo. 

Ma perché Discord? Come abbiamo detto, al momento in cui stiamo scrivendo questo approfondimento Midjourney è ancora in fase beta, e gli sviluppatori lo hanno rilasciato sulla popolare piattaforma di messaggistica. 

Discord è un ottimo strumento per comunicare con gli amici e incontrare nuove persone attraverso i server pubblici, ed è il modo preferito dalla maggior parte dei videogamer per effettuare chat vocali e video con i propri amici durante le sessioni di gioco. Ogni gruppo si ritrova su un server, che può essere pubblico o privato, e al cui interno potete trovare diversi canali per i molteplici argomenti di cui potete voler parlare con i vostri amici.

Il motivo di questo è perché gli sviluppatori hanno scelto di concentrarsi sullo sviluppo dell'IA piuttosto che trovare un modo per permettere agli utenti di comunicare con essa (il femminile è solo riferito al genere del sostantivo), quindi perché non usarla come bot in una struttura già pronta?. 

Questo però vuol dire che dovete fare due cose: richiedere di accedere alla beta di Midjourney e creare un account Discord, in caso non l'abbiate già. Vediamo come!

Come usare Midjourney

  1. Se non avete un account Discord, dovete crearne uno. Andate sul sito di Discord
  2. Cliccate su Login in alto a destra
  3. Nella finestra che si apre, cliccate su Registrati in basso
  4. Compilate i campi richiesti, email, nome utente, password e data i nascita
cos'è e come usare midjourney

Pagina di iscrizione a Discord

  1. Accettate i termini di servizio e cliccate su Continua
  2. Superate il CAPTCHA
  3. Riceverete un'email con un link, che dovrete cliccare per verificare la vostra identità. complimenti, siete parte della comunità di Discord!
  4. Ora andate sul sito di Midjourney
  5. In basso a sinistra, cliccate su Join the Beta
  6. Cliccate su Accetta l'invito
  7. Quando si apre la pagina di Discord, noterete una nuova icona a forma di barca a vela nel pannello di sinistra
cos'è e come usare midjourney
  1. Cliccateci sopra
  2. Volendo, potete dare qualche informazione su di voi come il vostro genere e la zona di origine (per entrare nel canale @Europe, nel nostro caso), oppure cliccate su Salta in basso a destra
  3. Individuate le stanze dei nuovi arrivati dal pannello di sinistra, del tipo newbies-[numero], sotto la voce Newcomers Rooms. Potete selezionare una di queste per iniziare 

Bene, il più è fatto, ora potrete iniziare a "toccare con mano" Midjourney, il che significa fargli creare immagini  sei pronto per iniziare a creare arte AI.

Nella scheda centrale vedrete i messaggi precedenti. Per vedere il più recente, cliccate sulla scritta in basso a destra Vai al messaggio più recente. In basso, avete il campo di testo, che vi consente di comunicare con il bot: tenete presente che Midjourney è uno strumento a pagamento e che voi state usando una prova gratuita. Come tale, potete chiedergli di creare "circa" 25 immagini (in realtà avete 0,4 ore di Fast GPU Time a disposizione, perché Midjourney si paga per tempo GPU, come vedremo più avanti), dopodiché dovrete acquistare un abbonamento a pagamento.

Se non sapete da dove iniziare, nel campo di testo potete scrivere /help e confermare con Invio. Questa è la risposta di Midjourney:

cos'è e come usare midjourney

Come vedete, ci sono una serie di link che rimandano a documenti informativi che vi indicano come sfruttare al meglio lo strumento. Potete anche guardare i risultati prodotti per gli altri utenti, che sono sempre interessanti.

Il mio preferito è un utente che ha chiesto "high resilience human" (umano altamente resiliente), che ha dato il risultato qui sotto:

cos'è e come usare midjourney

Come DALL-E, Midjourney funziona meglio con una frase più descrittiva. In fondo è come se doveste spiegare a una persona quello che avete in mente e tre parole non definiscono chiaramente cosa intendiate. In questo caso, l'IA ha "tirato a indovinare".

Quando siete pronti, digitate /imagine e premete la barra spaziatrice. Vedrete che comparirà la scritta "prompt", il che significa che Midjourney "vi sta ascoltando". Ora potete scrivere una frase, o una serie di parole (l'unica lingua supportata è l'inglese) separate da virgola, da cui volete che Midjourney crei un'immagine. Come abbiamo detto, quanto più precisi siete, tanto meglio l'intelligenza artificiale sarà in grado di produrre buoni risultati. Siate descrittivi e, se c'è uno stile particolare che state cercando, includetelo nella descrizione. Per esempio, potete scrivere "1990s" per uno stile anni '90, "watercolors" per un effetto acquerello, "shocked" per un'espressione scioccata, persino impostare i parametri di una foto virtuale per un ritratto (obiettivo, apertura) e così via (i link di cui sopra sono utili).

Potete anche inserire link di immagini (non siti), oltre alle descrizioni. Ovviamente dovete mantenervi nei limiti della decenza (se i dettami di ordine morale vi dovessero confondere, la guida introduttiva vi toglierà ogni dubbio).

Scrivete la frase che volete e premete Invio per inoltrare la richiesta. Date un minuto al bot per creare l'immagine (vedrete una percentuale e le immagini migliorare in tempo reale) e se richiesto accettate i termini di servizio (ToS). L'IA ne creerà diverse versioni in base alla vostra descrizione e avete una serie di opzioni per continuare.

Sotto alle immagini vedrete una sezione di pulsanti U e V etichettati da 1 a 4. I numeri corrispondono alle quattro immagini prodotte da Midjourney. Cliccando su una U otterrete l'upscaling di quella particolare immagine per avere una versione più grande e più definita, mentre cliccando su una V creerete una nuova immagine basata su quella scelta. Se invece cliccate sul pulsante di aggiornamento a lato per richiedere un nuovo set di immagini.

Tenete presente che ciascuna di queste scelte utilizzerà le vostre immagini incluse nel piano gratuito, quindi fatelo solo se siete sicuri di voler procedere.

cos'è e come usare midjourney

Sembra che Midjourney sappia anche cosa sia una Caipirinha

Se trovate un'immagine che vi piace e scegliete U per ingrandirla, vi verrà data una nuova serie di opzioni. Potete scegliere di apportare variazioni su quell'immagine, ingrandirla al massimo prima del download o scegliere una ripetizione dell'upscaling leggero se non è proprio quello che volevate, tra le altre opzioni. Al termine, potete cliccare sull'immagine e poi sulla scritta Apri nel browser per aprirla in una pagina e scaricarvela sul computer.

cos'è e come usare midjourney

Trucchi per sfruttare al meglio Midjourney

Ma se volete sfruttare al massimo Midjourney potete anche sfruttare una serie di parametri che vanno oltre la frase o le parole descrittive. 

Le pagine di supporto sono sicuramente il modo migliore per comprendere questo universo digitale, ma possiamo darne un'infarinatura giusto per darvi l'idea delle possibilità a vostra disposizione.

Uno dei parametri più importanti sono i modelli, che vengono periodicamente aggiornati per migliorare efficienza, coerenza e qualità dell'immagine. Ognuno di questi ha i suoi punti di forza ed è progettato per sviluppare specifici tipi di immagini.

È possibile selezionare un modello per un lavoro di generazione aggiungendo il rispettivo parametro alla fine del prompt dell'immagine. Ecco quelli disponibili:

  • Niji: un modello alternativo incentrato su immagini in stile anime, specificato utilizzando
    • –-niji
  • High definition: un primo modello alternativo che produce immagini più grandi e meno coerenti. Questo algoritmo può essere adatto per immagini astratte e paesaggistiche, specificate utilizzando
    • –-hd
  • Test: uno speciale modello di test fornito da Midjourney, specificato utilizzando
    • –-test
  • Testp: uno speciale modello di test incentrato sulla fotografia fornito da Midjourney, specificato utilizzando
    • --testp
  • Versione: gli utenti possono scegliere di utilizzare versioni precedenti dell'algoritmo Midjourney specificando il numero di versione (1, 2, 3 o 4) o utilizzando la scorciatoia –v seguita dal numero di versione. L'attuale Midjourney V4 è l'impostazione predefinita.

E questo è solo l'inizio.

Altri parametri sono:

  • Upscale, che consente di vestire i dettagli tramite diversi modelli:
    • Uplight
    • Detailed Upscaler
    • Upbeta
    • Upanime
  • Seed, un componente fondamentale dell'algoritmo del bot Midjourney che crea un campo di rumore visivo che funge da punto di partenza per la generazione delle griglie dell'immagine iniziale. Il seed è seguito da un numero in genere generato casualmente ma che può essere specificato utilizzando il parametro –-seed
  • Stylize, che influenza la forza con cui il bot applica la sua formazione su colori, composizione e forme artistiche. Si usa scrivendo in fondo –-stylize o –-s

Infine, potete scrivere i seguenti comandi:

  • /info, per sapere quanti minuti potete ancora sfruttare
  • /settings, per accedere ai parametri dell'IA

Se prevedete di utilizzare molto Midjourney, potete utilizzare qualsiasi canale bot in Discord di Midjourney e digitare /subscribe. Questo creerà un link che potete seguire per pagare un abbonamento.

Come aggiungere Midjourney al proprio server Discord

Se volete aggiungere Midjourney al vostro server Discord, in modo da creare immagini con gli amici o utilizzarlo per organizzare il vostro lavoro, tenete presente che le immagini generate da Midjourney, anche su server privati, sono:

  • soggette alle linee guida della community di Midjourney.
  • visibili agli altri utenti su midjourney.com

Inoltre, per utilizzare Midjourney Bot su qualsiasi server, dovete disporre di una versione di prova o di un abbonamento Midjourney attivo, e utilizzando il comando /imagine per la prima volta avvierà automaticamente un abbonamento di prova per i nuovi utenti.

Vediamo quindi come aggiungere Midjourney al vostro server.

  1. Andate sulla vostra pagina Discord (dovete amministrare un server)
  2. Selezionate il Midjourney Bot dall'Elenco utenti (quello con la barca a vela su fondo bianco)
  3. Cliccate su Aggiungi al server
  4. Selezionate il server a cui desiderate aggiungerlo
  5. Seguite le indicazioni su Discord
  6. Autorizzate e confermate che state aggiungendo un'applicazione esterna
  7. Se il vostro server non appare in elenco, assicuratevi di avere le autorizzazioni per gestire un server:
    1. Dalla home page del vostro Discord Server, selezionate la scheda Ruoli nel menu Impostazioni server
    2. Selezionate la scheda Ruoli 
    3. Cliccate su Crea ruolo
    4. Assegnate un nome al nuovo ruolo e abilitate le autorizzazioni Gestisci server
    5. Selezionate la scheda Gestisci membri e assegnate il nuovo ruolo a voi stessi
    6. Salvate

Come abbonarsi a Midjourney

Come abbiamo detto, questo è solo il piano gratuito e vi consente di accedere a 0,4 ore di "Fast GPU Time". Midjourney infatti funziona per GPU time, quindi il tempo necessario a generare un'immagine.

Se volete usare Midjourney per lavoro, dovrete necessariamente accedere a un piano a pagamento. Ecco quelli disponibili.

  • Basic Plan: 3,3 ore al mese (198 minuti) di Fast GPU time al costo di 8 dollari al mese (10 se fatturati mensilmente)
  • Standard Plan: 15 ore al mese (900 minuti) di Fast GPU time al costo 24 dollari al mese (30 se fatturati mensilmente) e Relax GPU time illimitato (con tempi di attesa per i lavori maggiori)
  • Pro Plan: 30 ore al mese (1800 minuti) di Fast GPU time e Relax GPU time illimitato al costo di 48 dollari al mese (60 se fatturati mensilmente)
cos'è e come usare midjourney

C'è un'altra questione, e riguarda i diritti d'autore. Con il piano gratuito, le immagini sono sotto licenza Creative Commons BY-NC 4.0, quindi chiunque può usarle, mentre con i piani a pagamento avete la proprietà intellettuale per scopi commerciali, ma non potrete reclamarne il possesso in quanto la legge americana non riconosce il copyright per opere generate tramite IA.

Per sottoscrivere un piano a pagamento, ecco come fare:

  1. Andate sul sito Midjourney o utilizzate il comando /subscribe su Discord per generare un collegamento alla pagina di iscrizione.
  2. Effettuate il pagamento tramite Mastercard, VISA o American Express (Google Pay o Apple Pay in alcune regioni)

Intelligenza o simulazione di intelligenza?

Chiariamo subito una cosa: sono affascinato da queste tecnologie, le studio con curiosità e passione e sono convinto che molte di esse siano fondamentali per le nostre vite (e lo saranno sempre più).

Però, scorrendo le immagini create da Midjourney su un canale "newcomer" su Discord, sento anche un campanello d'allarme. Senza star troppo a considerarle una per una, ma facendole scorrere, alla lunga sembrano molto simili (o quantomeno trasmettono la stessa sensazione, come se ci fosse qualcosa fuori posto), e gli errori, inquietanti.

Fate una prova.

Mi riallaccio a un nostro editoriale, che vi consiglio di leggere, e di cui voglio sviluppare ulteriormente il concetto di fondo.

Con ChatGPT si possono scrivere interi libri, mentre con DALL-E, Midjourney e modelli simili si generano immagini incredibili, in pochi istanti. Le agenzie pubblicitarie taglieranno i tempi (e i costi) dei loro brainstorming, faranno una lista di parole adeguate da dare in pasto all'IA, e otterranno immagini da presentare ai clienti. Perfetti sconosciuti scriveranno romanzi. Persone che non hanno mai preso una matita in mano diventeranno artisti (diverse opere d'arte create con l'IA vengono già vendute alle aste e vincono concorsi).

Benissimo.

A titolo esemplificativo, a fine 2022, sfruttando le prove gratuite di ChatGPT, DALL-E e Midjourney, Ammaar Reshi ha scritto e pubblicato su Amazon un libro illustrato per bambini, Alice and Sparkle.

Il libro ha ottenuto un discreto successo, e se vedete le recensioni noterete come siano grossomodo divise in due: chi ha messo 5 stelle e chi ne ha messa 1. Ma soprattutto ha scatenato un dibattito, in cui molti esperti sono intervenuti chiedendosi se le IA decreteranno la fine dell'arte

Ora lasciamo perdere le cause legali per infrazione dei diritti (pensate che Midjourney ha inserito le firme di alcuni artisti nelle immagini da lui create semplicemente perché ha imparato dalle loro opere e "pensava" facessero parte del dipinto). E lasciamo pure perdere gli errori (scorrendo le immagini su Discord, non sarà difficile trovare persone, soprattutto nei gruppi, con tre gambe, dodici dita e così via) o le storture della tecnologia (sempre su Discord, non è difficile trovare utenti che evitano i divieti chiedendo di creare cose come "big cheasted top models" insieme a una marea di contenuti, con risultati che vi lascio immaginare), ma voglio analizzare la creazione in sé.

È vero che le IA imparano dallo sterminato catalogo delle creazioni umane, e impostando dei parametri si possono variare gli stili delle loro creazioni, ma non c'è il rischio che siano il preludio all'omologazione e alla mediocrità?

Di Nick Cave ho già detto, e anche il famoso Hayao Miyazaki non è generoso con questa tecnologia, dichiarando come secondo lui sia "un insulto alla vita".

Più prudente chi lavora nel settore, pur con dei distinguo. Secondo Nik Thompson, esperto di interazione uomo-computer, stiamo sopravvalutando l'IA, che in realtà simula soltanto l'intelligenza. 

Da che parte sia la verità non è dato saperlo, ma nonostante le opere create dall'IA, così diverse e originali, avranno sicuramente un grandissimo successo commerciale (ora c'è una nuova figura lavorativa, esperto nello scegliere le parole e i parametri giusti per l'IA), ho il forte sospetto che, finito l'entusiasmo o la curiosità, la loro produzione sterminata creerà un appiattimento di contenuti.

Un'altra questione. Nell'articolo ho usato spesso le parole "pensare", "imparare", "creare". Non è già questa una stortura? O forse la rassegnazione di fronte alla realtà che, simulazione o meno, l'IA sia già tra noi, e ormai un nostro interlocutore? 

E infine, è vero che un modello di IA è tanto buono quanto il materiale su cui si allena, ma chi decide i suoi parametri di funzionamento? Domande pressanti, che prima o poi esigeranno una risposta.

Domande e risposte

Midjourney propone tre piani di abbonamenti, Basic, da 8 dollari al mese e 198 minuti di GPU time (ovvero il tempo necessario per generare l'immagine), Standard, da 24 dollari al mese e 900 minuti di GPU time, e Pro, da 48 dollari al mese e 1800 minuti di GPU Time. Ne parliamo più approfonditamente qui.
Midjourney non "conta" le immagini create, ma il tempo necessario a generarlo. Con il piano gratuito, avrete a disposizione 25 minuti di GPU time, che corrispondono a circa 25 immagini. Con i piani a pagamento, il tempo sale in proporzione (qui potete confrontare i vari piani).