Microsoft introduce le voci HD con espressività migliorata in Azure AI Speech

2024/09/30

L’anno scorso, Microsoft ha presentato voci AI super realistiche progettate per applicazioni conversazionali, come chatbot, assistenti vocali, giochi e altro ancora. Con Azure Speech SDK o REST API, gli sviluppatori potrebbero integrare queste voci neurali text-to-speech (TTS) nelle loro applicazioni. Negli ultimi mesi, Microsoft ha notevolmente ampliato la sua offerta, vantando ora oltre 500 voci neurali in più di 140 lingue e impostazioni locali.

Oggi, Microsoft ha introdotto una versione HD migliorata del suo servizio di sintesi vocale neurale per voci selezionate. Queste nuove voci HD migliorano l’espressività complessiva tramite il rilevamento delle emozioni che considera il contesto del testo di input. Microsoft afferma che queste ultime voci HD utilizzano modelli linguistici di trasformazione autoregressivi, producendo un discorso che si allinea al timbro vocale della piattaforma selezionata. I vantaggi delle nuove voci HD includono:

Generazione vocale simile a quella umana : il modello aggiornato interpreta accuratamente il testo di input e comprende il sentimento di fondo, il che gli consente di adattare il tono del parlato in tempo reale in base all’emozione trasmessa.
Conversazionale : questo nuovo modello genera pause ed enfasi spontanee. Microsoft sottolinea che può replicare fonemi comuni come pause e parole di riempimento.
Variazioni di prosodia : il sistema vocale HD introduce leggere variazioni in ogni output, migliorando il realismo e garantendo che ogni frase suoni diversa dal parlato generato in precedenza.

Garfield He, responsabile del programma Cognitive Services Speech presso Microsoft, ha commentato il lancio di HD Voice:

“Con una tecnologia innovativa che impiega caratteristiche acustiche e linguistiche per generare un discorso caratterizzato da variazioni ricche e naturali, rileva abilmente gli spunti emotivi all’interno del testo e regola autonomamente il tono e lo stile della voce. Questo aggiornamento offre un modello di discorso più simile a quello umano, caratterizzato da intonazione, ritmo ed emozione migliorati.”

Nel video qui sotto è possibile trovare un esempio di contenuto audio generato con questo modello vocale HD.

https://www.youtube.com/watch?v=UCYok4I4a24

PodCast content creation with Azure neural HD voices and GPT (Andrew & Emma) (https://www.youtube.com/watch?v=UCYok4I4a24)

Le nuove voci HD sono attualmente in anteprima per gli sviluppatori in tre regioni: Stati Uniti orientali, Europa occidentale e Asia sud-orientale. Il costo per l’utilizzo di queste voci HD è fissato a $ 30 per 1 milione di caratteri.

Fonte: Microsoft

Fonte

Lascia un commento Annulla risposta