Cloud Blog – Google Cloud – Synthèse vocale Speech-to-Text depuis Google Cloud : Pourquoi devriez-vous vous en servir ?

Google Cloud 27.10.2023

Synthèse vocale Speech-to-Text depuis Google Cloud : Pourquoi devriez-vous vous en servir ?

La conversion en texte de la parole à partir de différentes sources est une technologie révolutionnaire devenue réalité, qui permet à la plupart d’entre nous de travailler plus rapidement et de gagner en productivité.

Cet article dévoile tous les secrets de Speech-to-Text, un service Google Cloud qui convertit la parole en texte grâce à l’API Speech-to-Text de Google.

Qu’est-ce que Speech-to-Text ?

Google Cloud Speech-to-Text est un outil avancé de conversion et de transcription automatique de la parole en texte. Ce service utile permet aux développeurs d’utiliser des répondeurs vocaux dans les centres d’appels, aux appareils de type Internet des objets (IoT) de communiquer avec les utilisateurs et de transformer les messages texte au format vocal.

Speech-to-Text, autrefois appelé Cloud Speech API, a été publié pour la première fois en 2016. Selon Google, l’utilisation de l’API a plus que doublé tous les six mois les premières années de sa création. Celle-ci s’appuie sur les algorithmes de réseaux neuronaux d’apprentissage profond de Google les plus avancés pour la reconnaissance automatique de la parole (ASR).

Vous pouvez déployer rapidement la RAS dans le nuage à l’aide d’une API ou même localement grâce à Speech-to-Text sur site, qui intègre les technologies de reconnaissance vocale de Google dans votre solution sur site. Conformément aux exigences en matière de résidence des données et de conformité, vous pouvez prendre le contrôle de votre infrastructure tout en bénéficiant de la technologie de reconnaissance vocale et des données vocales hautement protégées.

Ce système a beaucoup évolué depuis sa création :

Début : la technologie reposait au départ sur des modèles plus simples capables de transcrire une parole claire et bien articulée en milieu contrôlé.

Progrès en apprentissage profond : Google a intégré progressivement des algorithmes d’apprentissage profond, beaucoup plus efficaces pour analyser les schémas vocaux naturels, les accents et les expressions familières.

Complexité du réseau neuronal : la version la plus récente exploite des réseaux neuronaux plus complexes, tels que les réseaux de mémoire à long terme (LSTM), ce qui a amélioré de façon spectaculaire la précision de la transcription, même en milieu bruyant.

Que peut-on accomplir avec Speech-to-Text ?

Google Speech-to-Text inclut plusieurs modèles d’apprentissage automatique de reconnaissance vocale adaptés à des cas d’utilisation spécifiques, notamment la transcription d’appels téléphoniques, la transcription d’audio à partir de vidéos, les contenus longs ou courts, etc. Les clients peuvent choisir le modèle le mieux adapté à leurs besoins professionnels en fonction des types et des sources audio spécifiques.

Examinons certains des modèles d’apprentissage automatique les plus répandus pour la transcription de fichiers audio.

Latest Long : ce modèle vous permet de transcrire la forme longue d’un contenu. Ce logiciel est idéal pour transcrire des discours ou des conversations, y compris à la place du modèle vidéo au cas où il ne serait pas disponible dans la langue cible.
Latest Short : semblable au modèle précédent, il convertit facilement le contenu de votre discours de quelques secondes en texte.
Vidéo : ce modèle convertit vos clips vidéo en texte. Et oui, cela marche même pour les vidéos avec plusieurs intervenants. Ce modèle particulier est parfait pour transcrire des données audio de haute qualité enregistrées avec un microphone professionnel, par exemple. Vous pouvez utiliser le modèle par défaut ci-dessous si vous n’avez qu’un seul intervenant dans votre vidéo.
Appels téléphoniques : Speech-to-Text est un outil idéal pour analyser vos appels téléphoniques. Ce modèle vous permet de transcrire l’audio de n’importe lequel de vos appels.
ASR : Commande et recherche : ce modèle convertit en texte des données audio concises, notamment des commandes vocales. Si ce modèle n’est pas disponible pour votre langue ou votre région, sachez que Latest Short est également adapté à ce cas de figure.
ASR : Défaut : ce modèle génère la transcription pour tout type d’audio et de source, il peut donc être utilisé si votre contenu ne répond pas aux descriptions précédentes. En revanche, si vous l’utilisez pour votre transcription vidéo, la qualité sera moins bonne qu’en utilisant l’option la plus adaptée à chaque situation.
Dictée médicale/conversation : son nom est explicite et il convient parfaitement au secteur médical. Il vous permet de transcrire vos notes ou vos conversations avec un professionnel de la santé.

Points forts de Speech-to-Text

1. Forte adaptabilité vocale

Ce service vous prodigue de précieux conseils pour une transcription plus précise. Les classes vous servent aussi à convertir automatiquement les nombres prononcés en adresses, années, devises, etc. Par exemple, si quelqu’un dit vingt-trois dans votre contenu audio, le Speech-to-Text le mentionnera sous la forme « 23 » pour faciliter la lecture.

2. Comparaison de la qualité simplifiée

L’interface de cet outil est intuitive et facile à comprendre et à utiliser. Vous pourrez donc tester différentes options afin d’optimiser la qualité de votre transcription.

3. Vocabulaire international

Cloud Speech-to-Text reconnaît plus de 125 langues, ce qui signifie que la plupart des pays sont inclus dans la reconnaissance vocale ultra performante.

4. Résistance au bruit

Ce service vous évite d’avoir recours à des réductions de bruit additionnelles dans certains environnements bruyants. Le Speech-to-Text s’en charge.

5. Filtrage des vulgarités

Ne craignez pas que votre contenu audio contienne des propos inexacts, inappropriés ou non professionnels car, grâce aux filtres anti-injures, ils n’apparaîtront pas dans le texte.

6. Ponctuation automatique

Cloud Speech-to-Text inclut aussi la ponctuation automatique dans les transcriptions linguistiques, grâce au nouveau réseau neuronal LSTM. Le modèle suggère automatiquement des virgules, des points d’interrogation et des tirets dans le texte. Il peut être utile pour transcrire des conférences téléphoniques et enregistrer la voix.

Cas d’utilisation de la synthèse vocale

Après avoir découvert les points forts de Speech-to-Text et ses principales caractéristiques, examinons plus en détail les cas d’utilisation de cette technologie.

1. Optimisez l’expérience utilisateur

Speech-to-Text est idéal pour transcrire l’audio et la vidéo et ajouter des sous-titres en temps réel à votre contenu diffusé en continu. Ce modèle repose sur un algorithme d’apprentissage automatique similaire à celui des sous-titres de YouTube et réduit les erreurs de 64 % par rapport au modèle classique. Vous atteignez ainsi un public plus large et offrez aux utilisateurs des moyens plus pratiques de visionner votre contenu.

2. Activez la commande vocale

Ce service rend possible la commande vocale des applications à l’aide de la parole. Par exemple, il est possible de configurer des commandes vocales telles que « trouver le restaurant le plus proche “ ou ” éteindre la télévision », associées à l’API Text-to-Speech, afin d’offrir les meilleures expériences vocales possibles.

3. Améliorez votre assistance à la clientèle

La synthèse vocale est l’une des fonctionnalités essentielles du Centre de contact AI de Google Cloud, qui vise à créer des solutions de service à la clientèle optimisées par l’IA. En analysant les conversations et les intentions des clients en temps réel, ce service offre un aperçu plus pratique pour optimiser vos relations téléphoniques avec les clients. Mieux encore, grâce à une analyse puissante et à des informations en temps réel, à la collaboration Speech-to-Text et à l’IA, vous pouvez créer une RVI (réponse vocale interactive) pour répondre automatiquement aux demandes des clients types ou les rediriger vers un agent compétent.

Chez Cloudfresh, nous comptons bien optimiser nos processus de travail grâce à la technologie Speech-to-Text. Nous aimerions intégrer une fonctionnalité avancée pour analyser nos appels entrants. Il vérifiera la cohérence de la conversation de notre manager avec les prospects par rapport au script de référence, identifiera les propos injurieux, comparera la description de l’entreprise présentée au cours de l’appel et vérifiera si le manager respecte la structure de la conversation.

Cela nous aidera à identifier les problèmes et les aspects à améliorer et à faire évoluer, afin que nos clients et nos prospects aient la meilleure expérience de conversation possible. Notre responsable se sentira par ailleurs confiant et hautement professionnel.

Envie de libérer le potentiel de la technologie Google Speech-to-text ? Contactez sans plus attendre nos experts en informatique en nuage Contactez-nous

Comment démarrer avec Speech-to-Text ?

L’utilisation de Google Cloud Speech-to-Text pour votre entreprise se fait en plusieurs étapes. Nous vous proposons de suivre une approche structurée pour vous lancer :

Étape 1 : Comprendre vos besoins

Identifier le besoin : déterminez pourquoi vous avez besoin de services de conversion de la parole en texte. Est-ce à des fins de service à la clientèle, de transcription de données ou pour améliorer l’accessibilité ?
Évaluez le volume et le type de données : déterminez le volume de données audio à traiter et leur nature, qu’il s’agisse d’appels téléphoniques, de vidéos ou de conversations en direct.

Étape 2 : Créer un compte Google Cloud

Étape 3 : Obtenir l’API Speech-to-Text

Rendez-vous dans la console API : allez dans la Console Google Cloud et accédez à la section Speech-to-Text API (API de synthèse vocale).
Activez l’API Speech-to-Text : activez l’API pour votre projet. Vous devrez peut-être fournir quelques informations de référence sur votre projet à cette étape.

Étape 4 : Prendre connaissance de la documentation

Lisez les documents : Google fournit une documentation complète sur l’utilisation de l’API Speech-to-Text.
Comprenez les principes de l’API : analysez les capacités, les limites et le tarif de l’API.

Étape 5 : Choisissez le modèle adapté à vos besoins

Comparez les modèles : choisissez le modèle d’apprentissage automatique le mieux adapté à vos objectifs (p. ex. dernier appel long, appel téléphonique, vidéo).
Essayez différents modèles : testez différents modèles pour déterminer celui qui répond le mieux à vos besoins.

Étape 6 : Implémenter et tester

Développement et intégration : utilisez l’API dans votre application ou vos processus de travail. Cette démarche peut impliquer un certain effort de codage et d’intégration.
Test approfondi : testez le système minutieusement dans des scénarios réels afin de vérifier sa précision et son efficacité.

Étape 7 : Optimiser et faire évoluer

Analysez la performance : Vérifiez régulièrement la qualité et la précision de la conversion de la parole en texte.
Améliorez en fonction des résultats constatés : Ajustez le système en fonction des commentaires des utilisateurs et des résultats obtenus.

Étape 8 : Faites appel à un expert si nécessaire

Vous voulez vous lancer dans le service de transcription de Google et savoir comment utiliser correctement le logiciel de synthèse vocale Google Cloud ? Notre mission est de vous aider. Notre équipe d’experts certifiés Google Cloud vous aide à mettre en place le service, vous conseille sur les avantages et les fonctionnalités avancées, vous aide à adopter les meilleures pratiques d’utilisation du service et vous fournit une assistance technique supplémentaire.

Envie d’obtenir des informations sur les tarifs de Speech-to-Text ou d’en savoir plus sur les services de conseil Google Cloud conçus par nos experts ? Il vous suffit de remplir le formulaire ci-dessous et nos experts seront ravis de vous contacter dans les plus brefs délais. Découvrez dès maintenant la reconnaissance vocale automatique simple et pratique de Google Cloud !

Contactez Cloudfresh