microfono voce final

L’intelligenza artificiale di Google ha una voce davvero niente male

Giuseppe Tripodi

DeepMind, la divisione di ricerca di Google che lavora sullo sviluppo di intelligenze artificiali, ha sviluppato una delle voci artificiali più realistiche che ci siano. Il sistema è chiamato WaveNet e genera i suoni modellandoli su campioni reali di voce umana. Nei primi test di Google, WaveNet è risultato più realistico di qualsiasi altro sistema di text-to-speech e quasi convincente come una reale voce umana.

Ma andiamo con ordine; il sistema utilizzato da Siri o Cortana, due delle voci più “umane” tra tutti gli assistenti virtuali, viene definitivo concatenative text to speech e risulta uno dei convincenti: viene creato registrando una reale voce umana, che viene ricombinata isolando tutti i possibili suoni.

LEGGI ANCHE: TensorFlow, l’algoritmo di Google in grado di fare i riassunti

L’aspetto negativo di questa metodologia è che la voce sembra comunque un po’ “strana” (J. B. Ward di Nuance sostiene che somigli un po’ ad una nota di riscatto) e, soprattutto, che richiede la necessità di campionare ogni singolo suono che può essere emesso in una lingua. Potete ascoltare il risultato qui sotto.

Esempio concatenative text to speech:

L’altra alternativa possibile finora è il cosiddetto parametric text to speech, ossia una voce generata completamente al computer utilizzando parametri basati sulla grammatica e sui suoni che teoricamente possono essere riprodotti dalla bocca. Il vantaggio del parametric text to speech è che non ha bisogno di alcuna registrazione o altri dati in input per essere prodotto, ma il risultato è un po’ robotico.

Esempio parametric text to speech:

L’alternativa sviluppata da Google, invece, si basa su voci reali, ma non necessita alcun lavoro di campionamento: grazie al machine learning, infatti, l’intelligenza artificiale di Google è in grado di apprendere automaticamente come modulare il suono e produrre anche diversi tipi di voci.

Esempio text to speech di DeepMind:

La cosa curiosa è che WaveNet si basa sul suono della voce ma, ovviamente, non è in grado di comprendere il significato delle parole: per questo motivo, WaveNet è in grado di generare anche delle frasi che sembrano reali per suoni e pause, ma non hanno alcun senso (il risultato è verosimile e inquietante).

Esempi (senza senso) text to speech di DeepMind:

Un’altra nota interessante di questo aspetto, è che la stessa intelligenza artificiale è anche in grado di suonare il piano: il funzionamento è esattamente identico, ossia il sistema di machine learning analizza dei campioni audio e successivamente riesce a produrre dei suoni simili.

Esempio pianoforte DeepMind:

Generare musica è decisamente più semplice rispetto all’imitare una voce umana: tuttavia, WaveNet finora se l’è cavata piuttosto bene. Nei test eseguiti da Google, in cui si chiedeva ad alcuni ascoltatori di votare con un punteggio da 1 (non realistico) a 5 (molto realistico) alcuni campioni vocali, WaveNet ha ottenuto punteggi molto interessanti e decisamente vicini a quelli di reali voci umane (che non raggiungono 5) sia in inglese che in cinese mandarino.

WaveNet punteggi voce

Precisiamo che WaveNet non è qualcosa che vedrete a breve (scordatevi di averlo su Google Assistant, ad esempio), perché attualmente richiede una potenza di calcolo troppo elevata, se confrontata con gli altri motori di text to speech. Tuttavia, se volete saperne di più vi rimandiamo al link di DeepMind in fonte o al paper realizzato da Google che potete trovare a questo indirizzo.

Via: TheVergeFonte: DeepMind