Google lancia una nuova piattaforma di sintesi vocale più realistica per gli sviluppatori (foto)

Google lancia una nuova piattaforma di sintesi vocale più realistica per gli sviluppatori (foto)
Vincenzo Ronca
Vincenzo Ronca

Il famoso text-to-speech di Google ha fatto passi da gigante negli ultimi anni raggiungendo un livello di accuratezza molto alto. A partire da oggi, il colosso di Mountain View rilascia Cloud Text-to-Speech per gli sviluppatori, sviluppato in collaborazione con DeepMind.

Si tratta della stessa piattaforma di sintesi vocale che Google utilizza in Assistant e per la modalità navigazione in Maps: essa si basa su un database di 32 voci in 12 linguaggi diversi permette la personalizzazione del pitch, la velocità ed il volume dei file MP3 o WAV generati.

Grazie all'implementazione dell'algoritmo generativo WaveNet di DeepMind, gli sviluppatori avranno a disposizione una piattaforma in grado di elaborare una sintesi vocale molto più umana rispetto al suono robotico perché esso non si basa su piccoli pezzi di conversazioni diverse.

WaveNet, inoltre, è in grado di generare forme d'onda grezze molto rapidamente rispetto agli standard, creando un secondo di conversazione in circa 50 millisecondi. Nell'immagine in galleria potete vedere i risultati del sondaggio comparativo delle diverse tipologie di voce integrate in WaveNet per l'inglese statunitense rispetto ai metodi standard ed alla voce umana.

Concludiamo lasciandovi i link per l'accesso alla nuova piattaforma e le relative tariffe del servizio.

Commenta