Google lancia una nuova piattaforma di sintesi vocale più realistica per gli sviluppatori (foto)

Vincenzo Ronca -

Il famoso text-to-speech di Google ha fatto passi da gigante negli ultimi anni raggiungendo un livello di accuratezza molto alto. A partire da oggi, il colosso di Mountain View rilascia Cloud Text-to-Speech per gli sviluppatori, sviluppato in collaborazione con DeepMind.

Si tratta della stessa piattaforma di sintesi vocale che Google utilizza in Assistant e per la modalità navigazione in Maps: essa si basa su un database di 32 voci in 12 linguaggi diversi permette la personalizzazione del pitch, la velocità ed il volume dei file MP3 o WAV generati. Grazie all’implementazione dell’algoritmo generativo WaveNet di DeepMind, gli sviluppatori avranno a disposizione una piattaforma in grado di elaborare una sintesi vocale molto più umana rispetto al suono robotico perché esso non si basa su piccoli pezzi di conversazioni diverse.

LEGGI ANCHE: 10 risposte su Google Home

WaveNet, inoltre, è in grado di generare forme d’onda grezze molto rapidamente rispetto agli standard, creando un secondo di conversazione in circa 50 millisecondi. Nell’immagine in galleria potete vedere i risultati del sondaggio comparativo delle diverse tipologie di voce integrate in WaveNet per l’inglese statunitense rispetto ai metodi standard ed alla voce umana. Concludiamo lasciandovi i link per l’accesso alla nuova piattaforma e le relative tariffe del servizio.

Via: TechCrunchFonte: Google Cloud Platform Blog
  • cristiano

    tra le lingue supportate c’è anche l’italiano?

    • cristiano

      mi rispondo da solo…no