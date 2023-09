Ecco perché Stable Audio , di Stability AI (lo stesso sviluppatore di Stable Diffusion), può essere una soluzione semplice e alla portata di tutti per creare brevi clip audio. Vediamo come funziona.

Ma la musica? In realtà la generazione di musica non è qualcosa di nuovo: per esempio, da anni Amazon (AWS DeepComposer) offre uno strumento che sfrutta una GAN (Generative Adversarial Network, rete generative avversaria), in cui praticamente si mette un modello di IA contro l'altro per creare contenuti, ma non consente di creare musica a partire da un prompt di testo e genera contenuti MIDI.

Ecco Stable Audio: uno strumento divertente per creare loop

Come Stable Diffusion, Stable Audio è un modello che utilizza un modello di diffusione (ecco cosa significa), ma addestrato sull'audio piuttosto che sulle immagini, ovviamente perché vogliamo generare nuove clip audio.

La tecnologia consente di descrivere con semplici parole la musica che volete creare e Stable Audio in pochi secondi vi proporrà gratuitamente una clip audio di 45 secondi di lunghezza, in stereo e a 44,1 kHz.

Come dicevamo, da anni esistono modelli di machine learning in grado di creare musica, ma creano file MIDI (Musical Instrument Digital Interface), molto più semplici, mentre Stable Audio consente agli utenti di creare nuova musica che va oltre la ripetizione di note.

Ma come funziona esattamente? Lo descrive il vicepresidente audio di Stability AI Ed Newton-Rex, che nel 2011 aveva creato una startup chiamata Jukedeck, poi venduta a TikTok 2019. Stable Audio ha 1,2 miliardi di parametri (come il primo Stable Diffusion) ed è stato allenato su oltre 800.000 brani musicali con licenza dalla libreria audio AudioSparks. Questo gli consente di creare campioni audio di qualità superiore.

Ci sono ovviamente dei limiti. Non potete chiedere al modello di creare un riff in stile Knockin' On Heaven's Door come fareste con uno strumento di generazione immagini, quando chiedete di creare un volto in stile cubista (alla Picasso, per intenderci).

Newton-Rex spiega che non era quello che la gente voleva, ma piuttosto cercavano creatività.

Ed è per questo motivo che il prompt di testo è fondamentale. Sviluppato da Stability AI, il modello utilizza una tecnica nota come Contrastive Language Audio Pretraining (CLAP), ma non dovete pensare a un testo di tipo conversazionale, e infatti gli sviluppatori offrono una guida. Andiamo a vedere velocemente come usarlo.