|
La synthèse de la parole (Text-to-Speech/TTS) transforme en temps réel n’importe quel texte en voix.
Elle le lit littéralement à voix haute, avec la souplesse et la richesse du langage naturel et parle plusieurs langues, avec une voix féminine ou masculine, en modulant la vitesse, les pauses et le timbre de la voix. Elle permet ainsi de faire parler toutes les interfaces et de transformer les informations écrites en un flux de paroles naturel et agréable à entendre, pour le confort de l’utilisateur.
La fabrication des voix de synthèse vocale.
Pour reproduire le son naturel de chaque langue, un narrateur enregistre une série de textes (poésie, politique, résultats sportifs, cours boursiers, etc.) qui contiennent tous les sons possibles de cette langue. Les enregistrements sont ensuite découpés et organisés en une base de données acoustiques.
Pour reproduire des mots à partir d’un texte, le système TTS commence par faire une analyse linguistique sophistiquée, qui transpose le texte écrit en écriture phonétique. Une analyse grammaticale et syntaxique des phrases permet ensuite au système de définir comment prononcer chaque mot pour en restituer le sens. C’est ce qu’on appelle la prosodie : elle donne le rythme et l’intonation de la phrase.
Au bout de cette chaîne d’analyse, le système produit un flot d’information associant l’écriture phonétique au timbre et à la durée de prononciation requis. La dernière étape consiste à générer le son. Ceci est fait en sélectionnant les meilleures unités stockées dans les bases acoustiques.
|