La guerre des haut-parleurs intelligents bat son plein, la question est donc : comment devenir un ingénieur full-stack en reconnaissance vocale ?

Le 16 novembre, Baidu a lancé le haut-parleur intelligent Raven et la carte de développement DuerOS SoundPi. Jusqu'à présent, un autre géant national a rejoint la guerre des haut-parleurs intelligents. Jusqu'à présent, les géants sur le champ de bataille national sont Alibaba, JD.com, Tencent, Baidu, Xiaomi, iFlytek, etc., tandis qu'à l'étranger, il y a Apple, Microsoft, Amazon, Google, Facebook, Samsung, etc. Ces géants occupent le marché mondial. liste de classement de la valeur marchande. Dans le même temps, ils s'efforcent de rivaliser pour l'entrée vocale dans la future ère de l'intelligence artificielle, et même Amazon et Alibaba ont pris les devants en déclenchant une guerre des subventions à tout prix. La concurrence féroce entre ces géants mondiaux aura un impact extrêmement important au cours de la prochaine décennie, tout en créant une nouvelle vague d'opportunités d'évolution de carrière rapide.

Le cœur actuel de l'intelligence vocale est constitué par les questions acoustiques et la compréhension sémantique. Avec l'explosion de la demande du marché, les ingénieurs en reconnaissance vocale full-stack capables de combler l'une des lacunes techniques deviendront une denrée très prisée sur le lieu de travail, et la culture de ces lacunes Les talents auront un coût très élevé et deviendront le talent de base pour lequel les grands géants et les startups se disputent pendant au moins les dix prochaines années.

Alors, comment devenir ingénieur full-stack en reconnaissance vocale ? Chen Xiaoliang, ancien chercheur associé à l'Institut d'acoustique de l'Académie chinoise des sciences et fondateur de Sound Intelligence Technology, a accepté notre invitation à rédiger un article spécifiquement sur ce sujet. Il s'agit d'un article qui relie les connaissances verticalement et horizontalement et les combine avec la pratique pour les expliquer de manière simple. Il est très utile pour une compréhension globale de la reconnaissance vocale. Par la suite, AI Technology Basecamp a brièvement suivi plusieurs problèmes, dans l'espoir de vous être utile.

                                                 **语音识别基础知识**

【Mathématiques et statistiques】

Les mathématiques constituent le fondement de toutes les matières. Des cours tels que les mathématiques avancées, les équations mathématiques et l'analyse fonctionnelle constituent des connaissances de base nécessaires. La théorie des probabilités et les statistiques mathématiques sont également des matières de base de la reconnaissance vocale.

【Acoustique et linguistique】

Fondamentaux de l'acoustique, acoustique théorique, mesure acoustique, etc. sont des cours de base en acoustique, qui vous permettront d'en apprendre davantage sur le domaine de l'acoustique. Des connaissances telles que l'introduction à la linguistique, la philosophie du langage, le minimalisme sémantique et le pluralisme pragmatique, la grammaticalisation et les graphiques sémantiques sont très utiles pour comprendre les modèles linguistiques et la conception de l'interface utilisateur d'interaction vocale.

【L'informatique】

Des cours tels que les systèmes de signaux, le traitement du signal numérique, le traitement du signal vocal, les mathématiques discrètes, les structures de données, l'introduction aux algorithmes, le calcul parallèle, l'introduction au langage C, au langage Python, la reconnaissance vocale et l'apprentissage profond sont également des connaissances de base nécessaires.

                                             **语音识别专业知识**

Le système de connaissances en reconnaissance vocale peut être divisé en trois parties principales : les bases professionnelles, les compétences de support et les compétences d'application. La base professionnelle de la reconnaissance vocale comprend également la base de l'algorithme, la connaissance des données et la plate-forme open source. La base de l'algorithme est la connaissance de base du système de reconnaissance vocale, y compris le mécanisme acoustique, le traitement du signal, le modèle acoustique, le modèle linguistique et la recherche de décodage.

Insérer la description de l'image ici

【Bases professionnelles】

Bases de l'algorithme

Mécanisme acoustique : comprend le mécanisme de prononciation, le mécanisme auditif et le mécanisme du langage. Le mécanisme de prononciation traite principalement des organes vocaux humains et du rôle de ces organes dans le processus de production du son, tandis que le mécanisme auditif explore principalement les organes auditifs humains, les nerfs auditifs et leur manière de les distinguer et de les traiter. Language Mechanism explore principalement la distribution et l’organisation du langage humain. Ces connaissances sont d'une grande importance pour les percées théoriques et la génération de modèles.

Traitement du signal : y compris l'amélioration de la parole, la suppression du bruit, l'annulation de l'écho, la suppression de la réverbération, la formation de faisceaux, la localisation de la source sonore, la séparation de la source sonore, le suivi de la source sonore, etc. détails comme suit :

1. Amélioration de la parole : Il s'agit d'une définition étroite, faisant référence au gain automatique ou au gain de réseau, qui résout principalement le problème de la distance de détection. Le gain automatique augmente généralement l'énergie de tous les signaux, tandis que l'amélioration de la parole n'augmente que l'énergie des signaux vocaux efficaces.

2. Suppression du bruit : La reconnaissance vocale ne nécessite pas la suppression complète du bruit. Relativement parlant, le système de communication doit supprimer complètement le bruit. Le bruit mentionné ici fait généralement référence au bruit ambiant, tel que le bruit de la climatisation. Ce type de bruit n'a généralement pas de directivité spatiale et n'est pas particulièrement énergétique. Il ne masquera pas la parole normale, mais affecte uniquement la clarté et l'intelligibilité de la parole. . Cette méthode n'est pas adaptée au traitement dans des environnements très bruyants, mais elle est suffisante pour l'interaction vocale dans des scénarios quotidiens.

3. Élimination de la réverbération : L'effet de l'élimination de la réverbération affecte grandement l'effet de la reconnaissance vocale. De manière générale, lorsque la source sonore cesse d'émettre du son, les ondes sonores subissent de multiples réflexions et absorptions dans la pièce. Il semble que plusieurs ondes sonores se mélangent pendant un certain temps. Ce phénomène est appelé réverbération. La réverbération peut sérieusement affecter le traitement du signal vocal et réduire la précision de la radiogoniométrie.

4. Annulation de l'écho : À proprement parler, cela ne devrait pas être appelé écho, mais "auto-bruit". L'écho est un concept étendu de réverbération. La différence entre les deux est que le délai d'écho est plus long. De manière générale, les humains peuvent clairement distinguer une réverbération avec un retard de plus de 100 millisecondes. Il semble qu'un son apparaisse deux fois en même temps, ce qu'on appelle l'écho. En fait, cela fait référence au son émis par le dispositif d'interaction vocale lui-même, tel qu'un haut-parleur Echo. Lorsque vous appelez Alexa lors de la lecture d'une chanson, le réseau de microphones collecte en fait la musique en cours de lecture et la voix Alexa appelée par l'utilisateur. Évidemment, la reconnaissance vocale ne peut pas reconnaître ces deux types de sons. L'annulation de l'écho consiste à supprimer les informations musicales et à conserver uniquement la voix de l'utilisateur. La raison pour laquelle on l'appelle annulation d'écho est simplement de perpétuer l'habitude de chacun, ce qui est en fait inapproprié.

5. Radiogoniométrie de la source sonore : Le positionnement de la source sonore n'est pas utilisé ici. La radiogoniométrie et le positionnement sont différents. Bien que les réseaux de microphones grand public puissent effectuer une radiogoniométrie, le positionnement nécessite un investissement plus coûteux. La fonction principale de la radiogoniométrie de la source sonore est de détecter la voix humaine qui lui parle pour la formation ultérieure du faisceau. La radiogoniométrie des sources sonores peut être basée sur des méthodes énergétiques ou une estimation du spectre, et la technologie TDOA est également couramment utilisée dans les réseaux. La radiogoniométrie de la source sonore est généralement mise en œuvre dans la phase de réveil vocal. La technologie VAD peut effectivement être incluse dans cette catégorie, et elle constitue également un facteur clé dans la réduction de la consommation d'énergie à l'avenir.

6. Beamforming : Le Beamforming est une méthode générale de traitement du signal. Il s'agit ici d'une méthode dans laquelle les signaux de sortie de chaque microphone d'un réseau de microphones disposés selon une certaine structure géométrique sont traités (comme la pondération, le retard, la sommation, etc.) pour former la directivité spatiale. La formation de faisceaux supprime principalement les interférences sonores en dehors du lobe principal, qui incluent également les voix humaines. Par exemple, lorsque plusieurs personnes parlent autour de l'Echo, l'Echo ne reconnaîtra que la voix de l'une d'entre elles.

Détection de point final : La détection de point final, en anglais est Voice Activity Detection , appelée VAD . Sa fonction principale est de distinguer si un son est un signal vocal valide ou un signal non vocal. VAD est la principale méthode de détection des pauses entre les phrases dans la reconnaissance vocale, et c'est également un facteur important à prendre en compte pour une faible consommation d'énergie. La VAD est généralement réalisée à l'aide de méthodes de traitement du signal. La raison pour laquelle elle est divisée séparément ici est que le rôle de la VAD est en fait plus important maintenant, et la VAD est généralement également réalisée sur la base de méthodes d'apprentissage automatique.

Extraction de caractéristiques : les modèles acoustiques ne peuvent généralement pas traiter directement les données sonores d'origine. Cela nécessite d'extraire des séquences de caractéristiques fixes des signaux sonores d'origine dans le domaine temporel par une méthode quelconque, puis d'entrer ces séquences dans le modèle acoustique. En fait, le modèle formé par l’apprentissage profond ne s’éloignera pas des lois de la physique, mais extraira davantage de caractéristiques telles que l’amplitude, la phase, la fréquence et la corrélation dans chaque dimension.

Modèle acoustique : Le modèle acoustique est la partie la plus critique de la reconnaissance vocale. Il intègre les connaissances en acoustique et en informatique, utilise les caractéristiques générées par la partie d'extraction de caractéristiques comme entrée et génère des scores de modèle acoustique pour les séquences de caractéristiques de longueur variable. Le cœur du modèle acoustique doit résoudre le problème de la longueur variable des vecteurs caractéristiques et de la variabilité des signaux sonores. En fait, chaque progrès évoqué en matière de reconnaissance vocale fait essentiellement référence aux progrès des modèles acoustiques. Les modèles acoustiques ont été répétés pendant tant d'années, et il existe déjà de nombreux modèles. Nous présenterons les modèles les plus utilisés à chaque étape. En fait, de nombreux modèles sont désormais mélangés, afin que les avantages de chaque modèle puissent être utilisés pour faire l'adaptation de la scène plus robuste.
1. GMM , Gaussian Mixture Model, est un modèle statistique basé sur les caractéristiques vocales du spectre de Fourier. Les coefficients pondérés dans GMM ainsi que la moyenne et la variance de chaque fonction gaussienne peuvent être obtenus grâce à une optimisation itérative continue. La vitesse de formation du modèle GMM est rapide, les paramètres du modèle acoustique sont petits et il convient aux applications de terminaux hors ligne. Avant que l’apprentissage profond ne soit appliqué à la reconnaissance vocale, le modèle hybride GMM-HMM a toujours été un excellent modèle de reconnaissance vocale. Cependant, GMM ne peut pas modéliser efficacement des données non linéaires ou approximativement non linéaires, il est difficile d'utiliser des informations contextuelles et il est difficile d'étendre le modèle.
2. HMM , modèle de Markov caché, qui est un modèle de Markov caché , est utilisé pour décrire un processus de Markov avec des paramètres inconnus cachés, déterminer les paramètres cachés du processus à partir des paramètres observables, puis utiliser ces paramètres pour une analyse plus approfondie. HMM est un modèle de distribution statistique qui peut estimer les données de séquence acoustique de la parole, en particulier les caractéristiques temporelles. Cependant, ces caractéristiques temporelles reposent sur l'hypothèse d'indépendance temporelle de HMM, ce qui rend difficile la corrélation de facteurs tels que la vitesse de parole, l'accent et les caractéristiques acoustiques. . Il existe de nombreux modèles étendus de HMM, mais la plupart d'entre eux ne conviennent qu'à la reconnaissance vocale d'un petit vocabulaire, et la reconnaissance vocale à grande échelle est encore très difficile.
3. DNN , Deep Neural Network, c'est-à-dire un réseau neuronal profond, est l'un des premiers réseaux neuronaux utilisés dans les modèles acoustiques. DNN peut améliorer l'efficacité de la représentation des données basée sur des modèles de mélange gaussien. En particulier, le modèle hybride DNN-HMM améliore considérablement le taux de reconnaissance vocale. Étant donné que le DNN-HMM peut atteindre des taux de reconnaissance vocale élevés avec des coûts de formation limités, il s’agit toujours d’un modèle acoustique couramment utilisé dans le secteur de la reconnaissance vocale.
4. RNN , Recurrent Neural Networks, CNN, Convolutional Neural Networks, réseaux de neurones convolutifs. L'application de ces deux réseaux de neurones dans le domaine de la reconnaissance vocale résout principalement le problème de l'utilisation d'informations contextuelles de longueur variable. CNN/RNN fonctionne mieux que DNN en termes de robustesse du débit de parole. Parmi eux, les modèles RNN incluent principalement le LSTM (réseau de mémoire à long terme à couches cachées multiples), le LSTM routier, le LSTM résiduel, le LSTM bidirectionnel, etc. Les modèles CNN incluent le réseau neuronal à retardement (TDNN), CNN-DNN, CNN-LSTM-DNN (CLDNN), CNN-DNN-LSTM, Deep CNN, etc. Certains modèles ont des performances similaires mais des méthodes d'application différentes. Par exemple, LSTM bidirectionnel et Deep CNN ont des performances similaires, mais LSTM bidirectionnel doit attendre la fin d'une phrase pour être reconnu, tandis que Deep CNN n'a pas de délai et est plus adapté à la reconnaissance vocale en temps réel.

Modèle de langage : Estimation de la probabilité d'une séquence de mots en apprenant la relation entre les mots grâce à un corpus de formation. Le modèle de langage le plus courant est le modèle N-Gram. Ces dernières années, des méthodes de modélisation de réseaux neuronaux profonds ont également été appliquées aux modèles de langage, tels que les modèles de langage basés sur CNN et RNN.

Recherche de décodage : le décodage est un facteur clé qui détermine la vitesse de reconnaissance vocale. Le processus de décodage compile généralement le modèle acoustique, le dictionnaire et le modèle linguistique dans un réseau et sélectionne un ou plusieurs chemins optimaux comme résultat de reconnaissance vocale en fonction du maximum postérieur. méthode de probabilité. . Le processus de décodage peut généralement être divisé en deux modes : la compilation dynamique et la compilation statique, ou les modes synchrone et asynchrone. La méthode de décodage actuellement populaire est la méthode de décodage par synchronisation de trame basée sur la copie d'arborescence.

                                                     **语音识别数据知识**

Collecte de données : Il collecte principalement les informations sonores de la conversation entre l'utilisateur et la machine. Il est généralement divisé en deux parties : champ proche et champ lointain. La collecte en champ proche peut généralement être réalisée à partir de téléphones portables, et la collecte en champ lointain généralement nécessite un réseau de microphones. La collecte de données prête également attention à l'environnement de collecte. Pour différentes utilisations de données, les exigences en matière de collecte vocale sont également très différentes, comme la répartition par âge, la répartition par sexe et la répartition géographique de la population.

Nettoyage des données : Il prétraite principalement les données collectées pour éliminer les paroles insatisfaisantes ou même invalides, afin de fournir des données précises pour une annotation ultérieure des données.

Annotation des données : Elle traduit principalement les informations sonores en texte correspondant et forme un modèle acoustique, qui nécessite généralement des dizaines de milliers d'heures d'annotation. La parole est un signal de série chronologique, elle nécessite donc un nombre de main-d'œuvre relativement important. en raison de facteurs tels que la fatigue du personnel, l'étiquetage Le taux d'erreur est également relativement élevé. Comment améliorer le taux de réussite de l’annotation des données est également une question clé en reconnaissance vocale.

Gestion des données : principalement la gestion de la classification et l'organisation des données annotées, plus propices à une gestion et une réutilisation efficaces des données.

Sécurité des données : Cela implique principalement un traitement sûr et pratique des données sonores, telles que le cryptage, etc., pour éviter la fuite d'informations sensibles.

                                               **语音识别开源平台**

Les plates-formes open source grand public actuelles incluent CMU Sphinx, HTK, Kaldi, Julius, iATROS, CNTK, TensorFlow, etc. CMU Sphinx est un outil de reconnaissance vocale hors ligne qui prend en charge des scénarios d'applications hors ligne à faible consommation tels que DSP. Étant donné que l'apprentissage profond joue un rôle important dans la réduction du WER de la reconnaissance vocale, les outils qui prennent en charge l'apprentissage profond tels que Kaldi, CNTK et TensorFlow sont actuellement plus populaires. L'avantage de Kaldi est qu'il intègre de nombreux outils de reconnaissance vocale, notamment le décodage et la recherche. . Un résumé des plates-formes open source spécifiques est présenté dans le tableau 1.
Insérer la description de l'image ici

【Compétences de support】

Appareils acoustiques

  • Un microphone , souvent appelé microphone, est un transducteur qui convertit le son en signaux électroniques, c'est-à-dire convertit les signaux acoustiques en signaux électriques. Ses paramètres de base sont la sensibilité, la directivité, la réponse en fréquence, l'impédance, la plage dynamique et le rapport signal/bruit. rapport. , niveau de pression acoustique maximum (ou AOP, point de surcharge acoustique), consistance, etc. Le microphone est l’appareil central de la reconnaissance vocale et détermine la qualité de base des données vocales.

  • Un haut-parleur , généralement appelé haut-parleur, est un dispositif transducteur qui convertit les signaux électriques en signaux acoustiques. Les performances du haut-parleur ont un grand impact sur la qualité du son, et son indicateur principal est le paramètre TS. Étant donné que l'annulation de l'écho est impliquée dans la reconnaissance vocale, les exigences totales en matière de distorsion harmonique du haut-parleur sont légèrement plus élevées.

  • La capture sonore au laser est une méthode de capture active du son. Elle peut capter des informations de vibrations distantes par réflexion laser et d'autres méthodes, puis les restaurer en son. Cette méthode était principalement utilisée dans le domaine des écoutes clandestines dans le passé, mais à l'heure actuelle, cette méthode est encore difficile à appliquer à la reconnaissance vocale.

  • Captation du son par micro-ondes . Les micro-ondes font référence aux ondes électromagnétiques dont les longueurs d'onde se situent entre l'infrarouge et les ondes radio. La plage de fréquences est approximativement comprise entre 300 MHz et 300 GHz. Le principe de la captation du son par micro-ondes est similaire à celui de la captation du son par laser. Cependant, les micro-ondes peuvent difficilement traverser le verre. , plastique et porcelaine.absorbé.

  • La capture du son par caméra à grande vitesse utilise des caméras à grande vitesse pour capter les vibrations et restaurer les sons. Cette méthode nécessite une portée visuelle et des caméras à grande vitesse et n'est utilisée que dans certaines scènes spécifiques.

puce informatique

  • DSP , Digital Signal Processor, processeur de signal numérique, adopte généralement l'architecture Harvard, présente les avantages d'une faible consommation d'énergie et d'un fonctionnement rapide, et est principalement utilisé dans le domaine de la reconnaissance vocale de faible puissance.

  • ARM , Acorn RISC Machine, est une architecture de processeur RISC conçue par une société britannique. Elle présente les caractéristiques d'une faible consommation d'énergie et de hautes performances. Elle est largement utilisée dans le domaine de l'Internet mobile. Actuellement, dans le domaine de l'IOT, comme les haut-parleurs intelligents. , des processeurs ARM sont également utilisés.

  • FPGA , Field-Programmable Gate Array, est un circuit semi-personnalisé dans le domaine des ASIC, qui résout non seulement les défauts des circuits personnalisés fixes, mais surmonte également les défauts des circuits de porte de dispositifs programmables limités. Le FPGA est également très important dans le domaine du calcul parallèle, et un apprentissage profond à grande échelle peut également être mis en œuvre sur la base du calcul FPGA.

  • Le GPU , Graphics Processing Unit, est l'architecture informatique la plus populaire dans le domaine actuel du deep learning. En fait, le GPGPU est utilisé dans le domaine du deep learning, principalement pour accélérer les calculs à grande échelle. Le problème habituel du GPU est la consommation d'énergie excessive. . , il est donc généralement appliqué aux clusters de serveurs dans le cloud.

  • À cela s’ajoutent les architectures de processeurs émergentes telles que NPU et TPU, principalement optimisées pour les algorithmes d’apprentissage profond, mais n’étant pas utilisées à grande échelle, elles ne seront pas abordées en détail ici.

structure acoustique

La conception des réseaux fait principalement référence à la conception structurelle des réseaux de microphones. Les réseaux de microphones sont généralement divisés en formes linéaires, annulaires et sphériques. À strictement parler, ils doivent être décrits comme des réseaux en ligne, croisés, plans, en spirale, sphériques et irréguliers, etc. Quant au nombre d'éléments du réseau de microphones, c'est-à-dire le nombre de microphones, il peut varier de 2 à des milliers. Par conséquent, la conception du réseau doit résoudre le problème de la formation du réseau de microphones et du nombre d'éléments dans la scène, non seulement pour assurer l'effet, mais aussi contrôler le coût.

La conception acoustique fait principalement référence à la conception de la cavité du haut-parleur. Le système d'interaction vocale doit non seulement collecter le son, mais doit également produire le son. La qualité du son est également particulièrement importante. Par exemple, lors de la lecture de musique ou de vidéos. , la qualité du son est également un indicateur de référence très important.Dans le même temps, la qualité du son La conception affectera également l'effet de la reconnaissance vocale, de sorte que la conception acoustique est également un facteur clé dans les systèmes d'interaction vocale intelligents.

【Compétences d'application】

  • L'application de la reconnaissance vocale sera l'innovation la plus attendue à l'ère de l'interaction vocale. Elle peut être comparée à l'ère de l'Internet mobile. En fin de compte, ce sont les applications vocales qui collent aux utilisateurs. Cependant, l'intelligence artificielle actuelle est principalement la construction d’infrastructures, et il faudra un certain temps pour que l’application de l’IA soit popularisée. Bien qu'Alexa d'Amazon compte déjà des dizaines de milliers d'applications, à en juger par les commentaires des utilisateurs, elle repose actuellement principalement sur les points technologiques de base suivants.

  • La commande vocale est en fait l'application la plus importante à l'heure actuelle, comprenant des fonctions telles que les réveils, la musique, les cartes, les achats, le contrôle des appareils électroménagers intelligents, etc. La commande vocale est relativement difficile car la commande vocale nécessite une reconnaissance vocale plus précise et plus rapide.

  • La transcription vocale a des applications particulières dans des domaines tels que les systèmes de conférence, les tribunaux intelligents et les soins médicaux intelligents. Elle transcrit principalement la voix de l'utilisateur en texte en temps réel pour former des procès-verbaux de réunion, des dossiers de procès et des dossiers médicaux électroniques.

  • La traduction linguistique implique principalement le basculement entre différentes langues, ce qui ajoute une traduction en temps réel sur la base de la transcription vocale et impose des exigences plus élevées en matière de reconnaissance vocale.

Les trois types de reconnaissance suivants peuvent être classés dans la catégorie de la reconnaissance vocale, ou ils peuvent être répertoriés dans une catégorie distincte. Ici, nous les résumerons globalement dans le vaste système de reconnaissance vocale, qui est plus facile à comprendre comme le point de fonction de reconnaissance de la parole.

  • Reconnaissance d'empreintes vocales, la base théorique de la reconnaissance d'empreintes vocales est que chaque voix possède des caractéristiques uniques, grâce auxquelles les voix de différentes personnes peuvent être efficacement distinguées. Les caractéristiques de l'empreinte vocale sont principalement déterminées par deux facteurs. Le premier est la taille de la cavité vocale, y compris la gorge, la cavité nasale et la cavité buccale. La forme, la taille et la position de ces organes déterminent la tension des cordes vocales. et la gamme de fréquences sonores. Le deuxième facteur qui détermine les caractéristiques de l'empreinte vocale est la manière dont les organes vocaux sont manipulés. Les organes vocaux comprennent les lèvres, les dents, la langue, le palais mou et les muscles palatins. L'interaction entre eux produira une parole claire. Le mode de collaboration entre eux s’apprend de manière aléatoire au travers des interactions avec les personnes qui les entourent. Les méthodes couramment utilisées pour la reconnaissance d'empreintes vocales incluent la méthode de correspondance de modèles, la méthode du voisin le plus proche, la méthode du réseau neuronal, la méthode de clustering VQ, etc.

  • La reconnaissance des émotions extrait principalement les caractéristiques acoustiques exprimant les émotions des signaux vocaux collectés et trouve la relation cartographique entre ces caractéristiques acoustiques et les émotions humaines. La reconnaissance des émotions fait actuellement principalement appel à des méthodes d’apprentissage profond, qui nécessitent l’établissement d’une description de l’espace émotionnel et la constitution d’un corpus émotionnel suffisant. La reconnaissance des émotions est une application qui incarne l'intelligence dans l'interaction homme-machine, mais jusqu'à présent, le niveau technique n'a pas atteint le niveau d'application du produit.

  • La reconnaissance du bourdonnement implique principalement que l'utilisateur fredonne la mélodie de la chanson, puis effectue une analyse détaillée et une comparaison entre la mélodie et les données de la bibliothèque musicale, et enfin fournit à l'utilisateur des informations sur la chanson qui correspondent à la mélodie. Cette technologie est actuellement utilisée dans la recherche musicale et le taux de reconnaissance peut atteindre environ 80 %.

                                                   语音识别现状和趋势
    

À l'heure actuelle, la précision et la rapidité de la reconnaissance vocale dépendent de l'environnement d'application réel. Le taux de reconnaissance vocale dans des environnements calmes, avec des accents standards et un vocabulaire commun a dépassé 95 %, atteignant pleinement l'état utilisable. C'est également le sujet brûlant actuel de reconnaissance vocale. Avec le développement de la technologie, la reconnaissance vocale dans des scénarios tels que les accents, les dialectes et le bruit a désormais atteint un état utilisable. Cependant, la reconnaissance vocale dans des scénarios tels que le bruit fort, les champs ultra-lointains, les fortes interférences, les langues multilingues et le vocabulaire étendu demande encore beaucoup de travail, grosse amélioration. Bien entendu, la reconnaissance vocale multi-personnes et la reconnaissance vocale hors ligne sont également des problèmes actuels qui doivent être résolus.

La communauté universitaire a discuté de nombreuses tendances technologiques en matière de reconnaissance vocale. Deux idées méritent beaucoup d'attention : l'une est le système de reconnaissance vocale de bout en bout et l'autre est la théorie de la capsule récemment proposée par GE Hinton . est encore controversé sur le plan académique, est relativement vaste et mérite d'être étudié s'il peut montrer ses avantages dans le domaine de la reconnaissance vocale.

Les systèmes de reconnaissance vocale de bout en bout n'ont actuellement pas d'applications à grande échelle. En théorie, puisque la reconnaissance vocale est essentiellement un problème de reconnaissance de séquence, si tous les modèles de reconnaissance vocale peuvent être optimisés conjointement, une meilleure précision de reconnaissance vocale devrait être obtenue. ce qui constitue également l'avantage du système de reconnaissance vocale de bout en bout. Cependant, il est très difficile de réaliser un traitement de modélisation de bout en bout de l'ensemble de la chaîne depuis la collecte de la parole, le traitement du signal, l'extraction de caractéristiques, le modèle acoustique, le modèle de parole, le décodage et la recherche. à aujourd'hui se limitent essentiellement aux modèles acoustiques, tels que l'optimisation de bout en bout des modèles DNN-HMM ou CNN/RNN-HMM, tels que le critère CTC et le modèle basé sur l'attention et d'autres méthodes. En fait, la formation de bout en bout peut apprendre le bruit, la réverbération, etc. dans des scènes réelles en tant que nouvelles fonctionnalités, ce qui peut réduire la dépendance au traitement du signal. Cependant, cette méthode a toujours des performances de formation, une vitesse de convergence, une bande passante réseau, etc. À de nombreux problèmes, elle n’a pas encore apporté d’avantages évidents par rapport aux méthodes traditionnelles de reconnaissance vocale.

Cet article concerne principalement la science populaire. Je suis très reconnaissant à tous les partenaires du domaine national de la reconnaissance vocale pour leur soutien. S'il y a des lacunes dans l'article, j'attends avec impatience votre correction !

【les références】

1.Deep Learning:Methods andApplications,Li Deng and Dong Yu

2.Automaitic Speechand Speaker Recognition: Large Margin and Kernel Methods, Joseph Keshet andSamy Bengio

3.Xuedong Huang, Alex Acero, Hsiao-wuenHon, Spoken Language Processing

4.Lawrence Rabiner,Biing-Hwang Juang, Fundamentals of Speech Recognition

5.Dan jurafsky andJames H. Martin, Speech and Language Processing

6.Dynamic RoutingBetween Capsules,Sara Sabour,Nicholas Frosst,Geoffrey E. Hinton

7.https://en.wikipedia.org/wiki/Speech_perception

8.http://www.speech.cs.cmu.edu

9.http://htk.eng.cam.ac.uk/

10.http://kaldi-语音识别.org/

11.https://www.microsoft.com/en-us/cognitive-toolkit/

12.http://www.soundpi.org/

Je suppose que tu aimes

Origine blog.csdn.net/weixin_43153548/article/details/82840157
conseillé
Classement