Disposición de la herramienta ASR (voz a texto) de reconocimiento de voz chino de código abierto (fuera de línea)

Disposición de la herramienta ASR (voz a texto) de reconocimiento de voz chino de código abierto (fuera de línea)

Tabla de contenido

herramienta de código abierto de open ai: susurro

introducción

El 21 de septiembre de 2022, Open AI abrió la red neuronal Whisper, que afirma que su capacidad de reconocimiento de voz en inglés ha alcanzado el nivel humano, y también admite el reconocimiento automático de voz en otros 98 idiomas. El modelo de reconocimiento automático de voz (ASR) proporcionado por el sistema Whisper está capacitado para ejecutar tareas de traducción y reconocimiento de voz, pueden convertir el habla en varios idiomas en texto y también pueden traducir estos textos al inglés.

La función central de susurro, reconocimiento de voz, para la mayoría de las personas, puede ayudarnos a organizar reuniones, conferencias y grabaciones de clase en transcripciones más rápidamente; para los amantes del cine y la televisión, puede generar automáticamente subtítulos para recursos sin subtítulos, no hay necesidad de preocuparse Es esperar mucho los recursos de subtítulos de los principales grupos de subtítulos; para los estudiantes de idiomas extranjeros, usar el susurro para traducir sus grabaciones de práctica de pronunciación puede ser una buena prueba de su nivel de pronunciación oral. Por supuesto, todas las principales plataformas en la nube brindan servicios de reconocimiento de voz, pero básicamente están conectadas en red y siempre hay peligros ocultos para la privacidad y la seguridad personal. Sin embargo, Whisper es completamente diferente. Whisper se ejecuta completamente localmente sin redes, lo que garantiza completamente la privacidad personal. y susurro reconoce La tasa de precisión es bastante alta.

cita

Proyecto de reconocimiento de voz ASRT

Introducción a ASRT

ASRT es una herramienta de reconocimiento de voz basada en aprendizaje profundo, que se puede utilizar para desarrollar el sistema de reconocimiento de voz más avanzado Ha sido desarrollado por AI lemon blogger (Universidad de Xidian, Laboratorio clave de Big Data e Inteligencia Visual de Xi'an) desde 2016 El proyecto de reconocimiento de voz de código abierto tiene una precisión de reconocimiento de referencia del 85 % y puede lograr una precisión de reconocimiento de alrededor del 95 % en determinadas condiciones . ASRT incluye un servidor de algoritmo de reconocimiento de voz (para entrenar o implementar servicios de API) y SDK de cliente para múltiples plataformas y lenguajes de programación . Es compatible con el reconocimiento de una oración y el reconocimiento de transmisión en tiempo real . Los códigos relevantes se han abierto en GitHub y Gitee .

cita

Servicio de voz de Microsoft (de pago)

Introducción a los servicios de voz de Microsoft

Servicios de voz de Microsoft proporciona capacidades de voz a texto y de texto a voz a través de los recursos de voz de Azure. Puede transcribir voz a texto con alta precisión, generar voces de texto a voz con un sonido natural, traducir voz y utilizar el reconocimiento del hablante durante las conversaciones. Microsoft Speech Services (supuestamente) ofrece: reconocimiento de voz (voz a texto), síntesis de voz (texto a voz), acceso a traducciones en tiempo real, grabación de conversaciones o integración de voz en experiencias robóticas.

El módulo de voz a texto incluye principalmente los siguientes aspectos:

Voz a texto en tiempo real

  • Cuando se utiliza la conversión de voz a texto en tiempo real, el audio se transcribe cuando se reconoce el habla desde el micrófono o desde un archivo. Para aplicaciones que requieren transcripción de audio en tiempo real, utilice la conversión de voz a texto en tiempo real, por ejemplo:

    • Transcripción, texto descriptivo o subtítulos de reuniones en vivo

    • Asistente de agente del centro de contacto

    • dictado

    • agente de voz

    • evaluación de la pronunciación

transcripción por lotes

La transcripción por lotes se utiliza para transcribir grandes volúmenes de audio almacenados. Puede apuntar a un archivo de audio con un URI de firma de acceso compartido (SAS) y recibir transcripciones de forma asincrónica. Use la transcripción por lotes para aplicaciones que necesitan transcribir audio por lotes, como:

  • Transcripción, subtítulos o subtítulos de audio pregrabado
  • Análisis posterior a la llamada del centro de contacto
  • binarización

voz personalizada

Con Custom Speech, puede evaluar y mejorar la precisión del reconocimiento de voz para sus aplicaciones y productos. Los modelos de voz personalizados están disponibles para conversión de voz a texto en tiempo real, traducción de voz y transcripción por lotes.

El reconocimiento de voz listo para usar utiliza un modelo de idioma común como modelo base, que se entrena con datos propiedad de Microsoft y refleja los idiomas hablados comúnmente. Los modelos básicos se entrenan previamente utilizando dialectos y voces que representan una variedad de dominios comunes. Cuando realiza una solicitud de reconocimiento de voz, se utiliza de forma predeterminada el modelo base más reciente para cada idioma compatible. El modelo base funciona bien en la mayoría de los escenarios de reconocimiento de voz.

Los modelos personalizados se pueden usar para aumentar el modelo base al proporcionar datos de texto para entrenar el modelo para mejorar el reconocimiento del vocabulario específico del dominio específico de la aplicación. También se puede utilizar para mejorar el reconocimiento en función de las condiciones de audio específicas de la aplicación proporcionando datos de audio con transcripciones de referencia.

cita

PaddleDiscurso

Descripción de Paddle Speech

PaddleSpeech es una biblioteca de modelos de código abierto basada en la dirección de voz de PaddlePaddle, que se utiliza para el desarrollo de varias tareas clave en voz y audio. Contiene una gran cantidad de modelos innovadores e influyentes basados ​​en aprendizaje profundo, incluido el reconocimiento de voz ( ASR). Puede usar PaddleSpeech para entrenar y probar modelos de reconocimiento de voz en chino.

cita

Supongo que te gusta

Origin blog.csdn.net/guigenyi/article/details/130605249
Recomendado
Clasificación