Article de vulgarisation scientifique sur l’IA | La reconnaissance vocale est-elle précise ? ——Principe et pratique d'évaluation de l'effet ASR

Dans le travail et la vie quotidienne, la technologie de reconnaissance vocale, en tant que service de base, apparaît de plus en plus autour de nous, comme les haut-parleurs intelligents, les enregistrements de réunions, la génération de sous-titres, etc.

En tant que technologie d'IA très mature, de nombreux fabricants sur le marché proposent des services de reconnaissance vocale, et la précision de reconnaissance qu'ils prétendent est également très élevée.

Du côté des entreprises, nous sommes en fait plus préoccupés par la façon dont elles fonctionnent dans nos scénarios commerciaux spécifiques.

Cet article vous présentera tous les aspects de l’évaluation des effets de la reconnaissance vocale, du principe à la pratique.

La reconnaissance vocale, également connue sous le nom de transcription vocale en texte, est une technologie qui reconnaît la parole en texte. Le nom anglais est Automatic Speech Recognition, généralement abrégé en ASR (ci-après dénommé ASR).

Évidemment, la qualité d'un service ASR peut être mesurée par l'exactitude du texte reconnu par la parole.

L'industrie utilise généralement un indicateur pour quantifier si cela est exact : Word Correct (W.Corr), également connu sous le nom de précision de reconnaissance.

Pour comprendre le mot taux d’exactitude, il faut d’abord comprendre un autre indicateur, WER.

1. Principe des indicateurs

1.1 Officiel du WER

Le WER (Word Error Rate) est un indicateur important pour évaluer l’effet de l’ASR. Il est utilisé pour mesurer le taux d’erreur entre le texte prédit et le texte annoté.

Étant donné que la plus petite unité dans une phrase anglaise est un mot (Word) et que la plus petite unité en chinois est un caractère chinois (Caractère), dans la tâche de reconnaissance vocale chinoise, le taux d'erreur de caractère (CER) est utilisé pour mesurer la reconnaissance ASR. effet.

Les méthodes de calcul des deux sont les mêmes, nous utilisons généralement WER pour représenter cet indicateur dans le domaine chinois.

La formule de calcul du WER est la suivante

#Suppressions : supprimez le mauvais nombre de caractères

#Insertions : insertion d'un nombre incorrect de caractères

#Substitutions : remplacez le mauvais nombre de caractères

#ReferenceWords : nombre total de caractères

 1.2 Erreur de type III

Globalement, le dénominateur de la formule est le nombre total de caractères et le numérateur est la somme du nombre de caractères pour les trois types d'erreurs. Voyons la signification de ces trois types d'erreurs.

Pour faciliter la description, la convention est la suivante

REF : Le contenu textuel correct correspondant au discours, également appelé texte annoté, c'est-à-dire Référence

HYP : texte reconnu vocalement via le service ASR, c'est-à-dire Hypothèse

erreur de suppression

Au cours du processus de transcription vocale, ASR n’a pas reconnu le texte initialement inclus dans le texte original. exemple:

La voix « Avez-vous mangé ? » est reconnue comme « Avez-vous mangé », mais le mot « a » n'est pas reconnu.

Erreur d'insertion

Au cours du processus de transcription vocale, le texte non inclus dans le texte original, tel que le bruit, a été reconnu par erreur comme du texte par l'ASR. Par exemple:

La voix « Avez-vous mangé ? » est reconnue comme « Avez-vous mangé ? », dans laquelle le mot « Yah » est reconnu par erreur.

Erreur de remplacement

Au cours du processus de transcription vocale, le texte contenu dans le texte original a été reconnu par erreur par ASR comme un autre texte. Par exemple:

 

La voix « Avez-vous mangé ? » a été reconnue comme « Avez-vous mangé ? », dans laquelle le mot « ? » a été mal reconnu et transformé en le mot « 灞 ».

en conclusion

Erreurs de suppression : la reconnaissance est moindre et les mots originaux du discours sont manqués.

Erreur d'insertion : trop de reconnaissance, les mots qui ne sont pas dans le discours sont reconnus.

Erreur de remplacement : la reconnaissance est erronée et les mots du discours sont reconnus comme d'autres mots.

Après avoir compris ces trois types d’erreurs, il sera facile de comprendre si l’on revient sur les champs ci-dessus.

 

En résumé, on voit

WER fait référence à la proportion du nombre de caractères contenant diverses erreurs (suppressions, insertions, substitutions) dans le texte résultat identifié par ASR par rapport au nombre total de textes originaux.

Maintenant que nous comprenons l'indicateur WER, voyons comment le calculer pour obtenir ces valeurs.

1.3 Modifier la distance

Lorsque le texte du résultat de la reconnaissance et le texte d'annotation sont donnés, le nombre total de caractères #ReferenceWords est facile à obtenir et le nombre d'erreurs de type III doit être calculé grâce à l'introduction de la « distance d'édition ».

La partie numérateur de la formule WER, qui est

Il s'agit de la distance d'édition entre le texte du résultat de la reconnaissance et le texte de l'annotation.

C'est-à-dire que nous avons uniquement besoin de la distance d'édition entre le texte du résultat de la reconnaissance et le texte annoté, divisée par le nombre de caractères du texte annoté, pour obtenir l'indicateur WER.

Examinons de plus près ce qu'est la distance d'édition et comment elle est calculée.

Edit Distance a été proposé par le scientifique russe Vladimir Levenshtein en 1965, également connu sous le nom de distance de Levenshtein.

La distance d'édition est utilisée pour mesurer la similarité entre deux chaînes et est largement utilisée dans la comparaison de séquences d'ADN, la détection orthographique, le calcul du taux d'erreur et d'autres domaines.

Elle se mesure en examinant le nombre minimum de processus requis pour transformer une chaîne en une autre. Chaque traitement est appelé opération d'édition, qui comprend trois types :

  • Supprimer, supprimer un personnage
  • Insérer, insérer un caractère
  • Remplacer, remplacer un personnage

Comme vous pouvez le constater, les opérations d'édition correspondent ici aux trois types d'erreurs évoqués ci-dessus.

Plus la distance d'édition est courte, plus les deux textes sont similaires ; plus la distance d'édition est longue, plus les deux textes sont différents.

La distance de modification peut être calculée à l'aide de la formule suivante :

Grâce à la formule ci-dessus, le texte du résultat de la reconnaissance est calculé et converti en un nombre minimum d'opérations d'édition du texte annoté, et sa distance d'édition peut être obtenue.

Les étudiants familiers avec les algorithmes doivent savoir que calculer la valeur minimale du nombre total d'opérations en ajustant la séquence et le nombre d'opérations différentes est un problème typique de programmation dynamique (DP).

Cependant, cela dépasse le cadre du sujet de cet article. Les étudiants intéressés par l’algorithme DP peuvent se référer aux informations suivantes pour en savoir plus :

1.4 Calcul du RTE

Pour résumer, pour calculer le WER, vous pouvez calculer la distance d'édition entre le résultat de la reconnaissance et le texte annoté, puis saisir la formule suivante pour obtenir

 

Les paramètres sont les suivants

 

Précision de 1,5 mot

Bon, revenons maintenant au mot taux de correction (Word Correct) évoqué au début : à quoi fait référence cet indicateur et quelle est sa relation avec WER ?

Par rapport au WER, le taux de précision des mots ignore le nombre de caractères incorrects insérés dans le calcul, c'est-à-dire que les erreurs insérées ne sont pas incluses dans les statistiques d'erreurs.

Dans le système actuel, les résultats de la reconnaissance de l'ASR en amont seront traités ultérieurement par le module d'analyse des tâches en aval, et les textes mal insérés seront traités. Par conséquent, il suffit d'examiner la proportion de textes contenus dans la parole qui sont correctement reconnus. , c'est-à-dire l'exactitude des mots.

Par conséquent, les fabricants de l’industrie fournissent généralement le taux de précision des mots avec le WER pour mesurer l’effet de reconnaissance ASR.

1.6 Outils open source

Jusqu'à présent, nous avons compris l'indice WER, l'indice de précision des mots, ainsi que les principes et algorithmes qui les sous-tendent.

Dans l'industrie, afin d'éviter les incohérences dans les données des indicateurs causées par différentes implémentations et de permettre aux différents fabricants de comparer facilement leurs propres données, des outils open source sont généralement utilisés pour les calculs.

Ici, nous utilisons l'open source Sclite du National Institute of Technology NIST comme outil informatique.

En saisissant le texte du résultat de la reconnaissance et le texte d'annotation, l'outil peut calculer le WER correspondant, le nombre de trois types d'erreurs et les détails correspondants.

Utilisation de l'outil

En fournissant des fichiers de résultats de reconnaissance et des fichiers texte d'annotation répondant à un format spécifique (trn), sclite peut calculer et générer des rapports d'évaluation détaillés (dtl) comprenant le WER, la précision des mots et trois types d'informations d'erreur.

a. Exemple d'appel de commande

# 命令格式 sclite -r reffile [ fmt ] -h hypfile [ fmt [ title ] ] OPTIONS
./bin/sclite -r /corpus/audio_file/16k_60s_all_100.trn trn -h /data/output/16k_zh-PY-16k_60s_all_100.trn trn -i spu_id -o dtlb

Fichier d'annotation :/corpus/audio_file/16k_60s_all_100.trn

Résultat de la reconnaissance :/data/output/16k_zh-PY-16k_60s_all_100.trn

B. Exemple de rapport d'évaluation (dtl)

 

 

Pièce jointe : les étudiants intéressés peuvent obtenir les outils NIST via le lien du site Web officiel suivant

 

2. Pratique d'évaluation

Il existe un dicton populaire sur Internet : je connais beaucoup de vérités, mais je n’arrive toujours pas à vivre une bonne vie. Plus facile à dire qu'à faire.

De même, même si nous comprenons les indicateurs de performance, les principes et les outils open source de l’ASR, nous pouvons toujours avoir le sentiment de ne pas savoir par où commencer.

Afin d'abaisser le seuil de test et de permettre aux clients d'évaluer facilement et rapidement l'effet de reconnaissance de leurs scénarios commerciaux sur le service Tencent Cloud ASR , l'équipe d'application Tencent Cloud AI a créé l'outil d'évaluation en un clic AI Studio, permettant aux utilisateurs de compléter le évaluation sans fondement.

Maintenant en version bêta fermée, voyons comment l'utiliser.

2.1 Aperçu de l'interface

Lien du site officiel d'AI Studio : AI Studio - Plateforme d'outils de développement

Ouvrez le site officiel et consultez la page suivante.

Cliquez sur [Connexion] dans le coin supérieur droit pour accéder à la page de connexion du site officiel de Tencent Cloud. Connectez-vous en utilisant le compte cloud officiel.

La première colonne est l'option du service d'évaluation. Ici, nous sélectionnons [Reconnaissance vocale]. La liste déroulante à l'extrême droite contient deux interfaces de reconnaissance vocale : la reconnaissance de fichiers d'enregistrement et la reconnaissance vocale en temps réel ;

Le modèle d’algorithme ayant été spécifiquement optimisé pour ces deux scénarios métier, il vous suffit de choisir l’interface que vous utilisez.

La deuxième colonne explique comment créer un ensemble de tests et les éléments à prendre en compte lors de l'étiquetage des fichiers.

La troisième colonne est le champ qui doit être sélectionné lors de la soumission d'une tâche de test. Gardez-le simplement cohérent avec les méta-informations audio du test.

2.2 Guide d'utilisation

Ci-dessous, nous utilisons un exemple pour montrer comment mener un processus d’évaluation.

a. Préparer le corpus d’évaluation

Cliquez sur le lien du modèle de page pour afficher un exemple de format de l'ensemble de test :

Le corpus de test contient deux parties :

  • Fichiers audio : données audio collectées dans des scénarios commerciaux, avec un taux d'échantillonnage de 8k ou 16k
  • Fichier d'annotation : enregistrez manuellement la parole humaine contenue dans l'audio dans un fichier texte

Parmi eux, les nombres dans le fichier d'annotation doivent être marqués en majuscules chinoises. Par exemple, le texte "Xiao Ming a obtenu 98 points à l'examen" doit être marqué comme "Xiao Ming a obtenu 98 points à l'examen".

Pour d'autres notes, veuillez vous référer à la page :

 

b. Soumettre la tâche d'évaluation

Créez une nouvelle tâche d'évaluation ci-dessous

Étape 1 : Sélectionnez les paramètres correspondants

En fonction des informations audio, sélectionnez la langue de reconnaissance et le taux d'échantillonnage audio correspondants

Différents types de moteurs ont été optimisés pour des scénarios spécifiques et ont de meilleurs effets de reconnaissance dans les scénarios correspondants. Choisissez simplement le type de moteur le plus approprié ici, comme suit

 

 

Étape 2 : Téléchargez l'ensemble de tests annoté

Compressez et emballez l'ensemble de test préparé et téléchargez-le via la page

 

Étape 3 : Vérifiez le contenu de l'ensemble de tests annoté

Ici, le système analysera l'ensemble de tests téléchargé, fera correspondre l'audio avec le texte annoté et l'affichera sur la page pour que les utilisateurs puissent le vérifier et le confirmer (puisque les résultats du test sont directement liés à l'exactitude du texte annoté, il est nécessaire de assurez-vous que le fichier annoté est correct).

Cliquez sur Confirmer pour soumettre pour terminer la création de la tâche d'évaluation.

C. Obtenir les résultats de l'évaluation

Pendant l'exécution de la tâche, vous pouvez vérifier l'état de la tâche via la liste de gestion des tâches d'évaluation en bas de la page d'évaluation.

Une fois que l'état de la tâche affiche [Succès], cliquez sur [Afficher les résultats] à droite pour afficher les résultats de l'évaluation :

Vous pouvez voir les indicateurs de performance de l'évaluation : le taux d'exactitude des mots (c'est-à-dire le taux d'exactitude des mots mentionné ci-dessus), le WER et le taux d'erreur d'insertion/suppression/remplacement.

Parallèlement, vous pouvez également cliquer sur l'adresse de téléchargement ci-dessous pour obtenir le rapport d'évaluation et le fichier de résultat d'identification pour une analyse plus approfondie.

annexe

Acho que você gosta

Origin blog.csdn.net/tencentAI/article/details/128547180
Recomendado
Clasificación