Microsoft presenta VALL-E, l'intelligenza artificiale che imita la voce umana in 3 secondi

Antonio Lepore
Antonio Lepore
Microsoft presenta VALL-E, l'intelligenza artificiale che imita la voce umana in 3 secondi

Recentemente i ricercatori Microsoft hanno annunciato "VALL-E", un nuovo modello di intelligenza artificiale dedicato alla sintesi vocale. Questo modello, infatti, è in grado di simulare in maniera efficiente la voce di una persona dopo aver ascoltato appena 3 secondi. Tra l'altro, VALL-E conserva le caratteristiche, le inflessioni e persino il tono emotivo di chi parla. L'ultimo progetto dell'azienda, nello specifico, consiste in un modello di linguaggio codec naturale, basato su di una tecnologia denominata "EnCodec".

Per quanto riguarda il funzionamento, a differenza di quanto visto in passato, questo nuovo modello, appena ascoltata la voce da replicare, genera codici di codec audio discreti grazie appunto ad "EnCodec". Inoltre, VALL-E è in grado anche di imitare l'ambiente acustico dell'audio campione. Insomma, rispetto ai precedenti sistemi è stato compiuto certamente un importante passo in avanti.

Tuttavia, come succede sempre, la nuova tecnologia potrebbe anche sortire effetti negativi. In particolare, i ricercatori hanno evidenziato la possibile diffusione di fenomeni come lo "spoofing dell'identificazione vocale" oppure "l'impersonificazione" di un oratore specifico: "

Poiché VALL-E potrebbe sintetizzare un discorso conservando l'identità del parlante, potrebbe comportare potenziali rischi nell'uso improprio del modello, come lo spoofing dell'identificazione vocale o l'impersonificazione di un parlante specifico. Abbiamo condotto gli esperimenti partendo dal presupposto che l'utente accetti di essere l'oratore target nella sintesi vocale. Quando il modello viene generalizzato a parlanti invisibili nel mondo reale, dovrebbe includere un protocollo per garantire che il parlante approvi l'uso della sua voce e un modello di rilevamento vocale sintetizzato". Infine, su "Github" sono stati pubblicati molteplici campioni di parlato sintetizzato da VALL-E.