Superando la barrera del sonido, el desarrollo e implementación del "intérprete de lenguaje de señas" humano digital virtual

Autor: Wu Shuming, equipo de tecnología de inteligencia artificial de la Academia Bodhidharma

En la actualidad, la cobertura de los contenidos en lengua de signos es limitada, y es difícil que las personas con discapacidad auditiva obtengan más información de los contenidos audiovisuales, y también enfrentan barreras de comunicación en los escenarios de comunicación. ¿Cómo podemos mejorar la eficiencia de las personas con discapacidad auditiva en la comunicación diaria en la vida social? Este artículo compartirá con usted la realización técnica del "intérprete de lenguaje de señas" humano digital virtual.

1. Antecedentes

1.1 Escala de usuario

Según el Banco Mundial, hay alrededor de 1.100 millones de personas discapacitadas en el mundo, y hay alrededor de 70 millones de personas con discapacidad auditiva en el mundo. 30%, agregando 200.000 cada año; Zhejiang tiene 900.000. El número de profesores de lengua de signos en todo el país es insuficiente y los profesores de lengua de signos profesionales son aún más escasos.

1.2 Dificultades en la vida de los sordos

  • La comunicación simple con personas oyentes, incluso si usan texto, no pueden comunicarse sin problemas.Además, algunas personas mayores con bajo nivel educativo, la comunicación de texto también es difícil.

  • Debido al nivel de educación y las formas únicas de expresión y comprensión de las personas con discapacidad auditiva, su expresión escrita y estructura gramatical son completamente diferentes a las de las personas oyentes. Incluso a través del texto, no pueden comunicarse con las personas oyentes de manera conveniente y sin barreras. La barrera de comunicación entre las personas con discapacidad auditiva y las personas oyentes ha afectado gravemente la calidad de vida de las personas con discapacidad auditiva. Las necesidades de comunicación de las personas con discapacidad auditiva y personas oyentes se centran principalmente en las siguientes situaciones:

La comunicación más complicada, como tratamiento médico, disputas, agua, electricidad, carbón, banco y otros escenarios de comunicación profesionales y complejos, requiere la asistencia de un intérprete profesional de lenguaje de señas, de lo contrario será la siguiente oración:

Se queda despierto hasta altas horas de la noche en medio de la noche y en la mañana, siempre cambia de posición para encontrar una posición cómoda, su madre lo rompe a dormir muchas veces y lo ayuda a cubrir la colcha para que no se resfríe. ! Al mediodía, sus padres tienen que recuperar el sueño...

La gente no puede entenderlo en absoluto, ¿de qué estás hablando?

Comunicación profunda: los sordos necesitan tener una comunicación profunda con el oyente, generalmente en un determinado escenario de comunicación profesional y complejo, como tratamiento médico, agua, electricidad, carbón, banco, etc.;

Dificultad para obtener información: las personas con discapacidad auditiva necesitan obtener más información de los contenidos audiovisuales del mundo oyente, y la cobertura actual de los contenidos en lengua de signos es limitada.

2. Diseño de producto

2.1 Investigación de productos

2.1.1 Investigación sobre retratos de usuarios

Personas con discapacidad auditiva:

1) El grado de discapacidad auditiva es de moderado a severo o superior, y existe un obstáculo moderado para participar en la vida social.Con la ayuda de nuestros productos, puede mejorar efectivamente la eficiencia de la comunicación diaria en la vida social;

2) ¿Puede el lenguaje de señas relativamente estándar, y la información expresada a través del lenguaje de señas puede ser entendida y entendida por la mayoría de las personas con discapacidad auditiva;

3) Al menos tener la capacidad de usar teléfonos inteligentes comunes.

oyente:

1) Las personas sin discapacidad auditiva que viven cerca de personas con discapacidad auditiva tienen mayores demandas diarias de comunicación con personas con discapacidad auditiva;

2) El personal de las agencias de servicio público (gobierno, bancos, hospitales, entrega urgente, centros comerciales, etc.) pueden encontrarse escenarios en los que necesitan brindar servicios a las personas con discapacidad auditiva en su trabajo diario.

2.1.2 Escenarios de puntos débiles

Comunicación simple: las personas con problemas de audición necesitan tener una comunicación breve con el oyente, generalmente no se pueden completar más de 10 rondas de diálogo, y el contenido son las escenas de comunicación necesarias en la vida diaria, como compras diarias, viajes, consulta, trabajo asignado;

Comunicación profunda: los sordos necesitan tener una comunicación profunda con el oyente, generalmente en un determinado escenario de comunicación profesional y complejo, como tratamiento médico, agua, electricidad, carbón, banco, etc.;

Acceso a la información: Las personas con discapacidad auditiva necesitan obtener más información del contenido audiovisual del mundo oyente, pero la cobertura actual del contenido en lengua de signos es limitada;

Participar en conferencias: las personas con discapacidad auditiva necesitan obtener información de la conferencia a partir de conferencias de audio, que actualmente se convierten en texto a través de la tecnología de reconocimiento de voz de Xunfei;

2.1.3 Investigación fuera de línea

Escenario 1: cuando A se detiene mientras conduce, realiza una videollamada.

Durante el período de estacionamiento, comuníquese con otros en lenguaje de señas a través del video de WeChat. En comparación con la gente común, las videollamadas de A son casi instantáneas. Durante el proceso de observación de 3 horas por la mañana, hubo alrededor de 20 videollamadas. En el automóvil, el teléfono móvil se fija principalmente mediante el soporte para teléfono móvil del automóvil.

Análisis: las personas con problemas de audición dependen en gran medida de las videollamadas de teléfonos móviles, y la función de videollamada se usa con mucha frecuencia. Casi todos los amigos con problemas de audición que veo hoy en día llevan consigo baterías portátiles.

Escenario 2: Después de que A llega a la cancha, busca una persona de contacto.

A no fue a la recepción para pedir ayuda, sino que fue directamente al ascensor. Después de salir del ascensor, comprobó si iba al lugar al que se dirigía. Después de pasar por varios pisos de 1- 4-3-2-1, fue a la recepción para pedir ayuda y escribió para decirle a la otra parte a quién estaba buscando.

Análisis: existen ciertos obstáculos para comunicarse con la gente común, lo que hace que las personas con discapacidad auditiva no busquen activamente la ayuda de la gente común cuando no es necesaria , formando una brecha natural.

Escenario 3: A comunica los detalles del caso al juez.

Luego de ingresar a la sala de comunicación, el juez sugirió usar el micro corte en la plataforma WeChat para la comunicación gráfica. Pero A insistió en usar la aplicación Voice of Hand y, después de esperar en la fila, inició una videollamada con interpretación en lenguaje de señas en vivo. Después de colocar el teléfono móvil sobre la mesa con un soporte para teléfono móvil, a través de la interpretación remota del lenguaje de señas en el video, se completó la comunicación necesaria con el juez. A primero expresó la información reciente de otra persona involucrada en el caso, y luego hizo una solicitud. Después de que el juez dio una opinión sobre el manejo, A expresó su aprobación y finalizó la llamada. Después de adaptarse al ritmo de agregar interpretación en lenguaje de señas, los obstáculos en el proceso de diálogo son relativamente pequeños.

Análisis: Aunque puede escribir y realizar conversaciones IM, para A, todavía piensa que la eficiencia de la comunicación después de la intervención de la interpretación remota de lenguaje de señas es mayor. Es posible comunicarse bajo la condición de que el ambiente sea simple y no ruidoso, y el número de participantes en el diálogo sea de solo 3 personas (A, juez e intérprete remoto de lenguaje de señas). Para A u otras personas con discapacidad auditiva, la eficiencia del uso de la interpretación del lenguaje de señas es mucho mayor que la de la comunicación escrita. Ingrese texto para mostrar a la otra parte, que es adecuado para la comunicación breve diaria. Si se trata de una comunicación más larga y formal, aún necesita un entorno estable y la ayuda de un intérprete de lenguaje de señas para completarla sin problemas.

2.1.4 Dificultades en la interpretación bidireccional del lenguaje de señas

1) Somos los primeros

Somos el "primer" proyecto destinado a la traducción bidireccional en lengua de signos, realizando el proceso de 0 a 1. En la actualidad, productos de síntesis de lenguaje de señas similares utilizan la traducción palabra por palabra de acuerdo con el orden de las palabras del lenguaje natural, ignorando la diferencia entre la lógica del lenguaje de los amigos con discapacidad auditiva y la lógica del lenguaje de las personas con discapacidad auditiva, lo que dificulta para que lo entiendan los amigos con discapacidad auditiva. En esta etapa, no existen productos comerciales maduros para el reconocimiento del lenguaje de señas, y la precisión sigue siendo el mayor desafío.

2) Una mujer inteligente no puede cocinar sin arroz

Debido a la comunicación externa limitada de los amigos con discapacidad auditiva, existen pocos datos sobre el lenguaje de señas y la cantidad de personas con capacidad para el lenguaje de señas es pequeña, lo que ralentiza aún más la velocidad de precipitación de datos. En comparación con el reconocimiento de voz y la traducción de idiomas, es evidente que es difícil obtener datos suficientes y de alta calidad sobre el lenguaje de señas.

3) Características regionales de la lengua de signos

Debido al área de actividad limitada de los amigos con discapacidad auditiva, se han formado una variedad de estilos de lenguaje de señas que van desde grandes regiones hasta pequeñas comunidades. Este es un gran desafío para la cobertura de la precipitación de datos y la diversidad de datos en sí misma para el algoritmo.

4) El lenguaje de señas es un lenguaje visual

El lenguaje de señas es un lenguaje visual, y el orden de expresión del lenguaje es completamente diferente del lenguaje natural y no tiene restricciones gramaticales fijas. La generación de lenguaje de señas necesita generar un lenguaje que se ajuste a los hábitos de expresión de las personas con discapacidad auditiva y que sea fácil de entender, es equivalente a aprender un nuevo idioma, más que una simple traducción palabra por palabra, por ejemplo, la expresión de "extinguir fuego" en lenguaje natural es "fuego →extinguir", porque el fuego solo se puede extinguir cuando se ve.

5) Reconocimiento de lengua de signos para soluciones puramente visuales

En comparación con el reconocimiento de lenguaje de señas existente basado en sensores costosos, somos los primeros en adoptar una solución de visión pura (que solo depende de las cámaras de los teléfonos móviles), que requiere el desarrollo de algoritmos de procesamiento de imágenes precisos y en tiempo real para extraer espacio-tiempo efectivo. información de videos de lenguaje de señas capturados y realizar reconocimiento de lenguaje de señas.

Esto implica un procesamiento eficiente y en tiempo real de datos de video de alta dimensión, mientras se trata de la diversidad y la diversidad del lenguaje de señas en sí. Esto impone mayores exigencias al algoritmo de visión.

El lenguaje de señas es rápido, con movimientos finos y variados, y un alto grado de similitud entre los movimientos.

6) El proyecto es difícil

Gran cantidad de concurrencia empresarial: a diferencia de la arquitectura de ingeniería anterior (llamadas de interfaz), en esta etapa se brindan servicios de transmisión de medios. Si hay una alta concurrencia, se requieren clústeres a gran escala y programación de recursos.

Problema de retraso de respuesta: los medios de transmisión en sí tienen un retraso de cientos de milisegundos, y una gran cantidad de módulos de algoritmo están integrados en el proceso de traducción bidireccional, lo que resulta en retrasos más largos. La traducción retrasada afecta en gran medida la experiencia interactiva del producto.

2.2 Interpretación de lenguaje de señas bidireccional

Este artículo explica principalmente la implementación técnica, y solo algunos productos después de la implementación se utilizan en el producto. Puede buscar la experiencia "Sonido" en Alipay.

Enlace del producto:

2.3 Síntesis de lenguaje de señas

El contenido de lenguaje de señas se puede producir en la plataforma de transmisión de lenguaje de señas humano digital:

https://avatar.aliyun.com/#home

3. Aterrizaje tecnológico

Basándose en la tecnología nativa de la nube, el servicio de representación en la nube humano digital agrupado realiza servicios rápidos bajo diferentes modelos comerciales de humanos digitales y completa la traducción del lenguaje de señas, el desarrollo simplex de un solo dispositivo y la síntesis del lenguaje de señas, traducción en tiempo real, texto a lenguaje de señas. traducción de síntesis, traducción de síntesis de video a lenguaje de señas.

3.1 Diseño de la solución técnica

1) Debido a que implica el reconocimiento de imágenes en tiempo real, los requisitos de ancho de banda de la red son muy altos, por lo que actualmente implementamos algoritmos relacionados con la visión y medios de transmisión en el mismo módulo, lo que reduce la sobrecarga de la red y el retraso del reconocimiento.

2) La mayor dificultad de la tecnología de reconocimiento de lenguaje de señas es "la fuente de datos de imagen para el reconocimiento de lenguaje de señas y el equipo de etiquetado de datos de imagen", y el problema de generar eficiencia de datos de entrenamiento debe resolverse técnicamente.

3) Debido a la diferencia en la interacción de información entre las personas con discapacidad auditiva y las personas con discapacidad auditiva, los amigos con discapacidad auditiva dan cosas que pueden describirse en el mundo físico. La oración completa se compone de un montón de verbos/sustantivos, y voltear es involucrado, por lo que debe agregarse un módulo de traducción de vocabulario de lenguaje de señas a texto natural.

4) Al igual que el punto 3, la síntesis del lenguaje de señas también requiere un módulo de texto a lenguaje de señas para convertir el texto natural en vocabulario del lenguaje de señas y, al mismo tiempo, enfrenta el mismo problema de datos que el punto 2.

  • Explicación de los nombres propios.

    Servicio de medios: módulo de transmisión de medios, responsable de la codificación y decodificación, suscripción y envío de canales rtc, transcodificación y grabación de video local, y envío de imágenes después de la decodificación.

    Reconocimiento de lenguaje de señas: el módulo de algoritmo, ingresa imágenes de acuerdo con el formato de imagen acordado y genera una serie de vocabulario de lenguaje de señas.

    Lenguaje de señas a texto: módulo de algoritmo, vocabulario de lenguaje de señas de entrada, texto natural de salida.

    Síntesis de lenguaje de señas: módulo de algoritmo, vocabulario de lenguaje de señas de entrada, emociones y calificaciones, keypose de lenguaje de señas de salida y datos bs.

  • Texto a lenguaje de señas: módulo de algoritmo, texto natural de entrada, vocabulario de lenguaje de señas de salida y transmisión al módulo BH.

  • Lógica de interacción de comportamiento: módulo de ingeniería, toma de decisiones unificada llama lógica de interacción humana digital.

  • agente: Módulo de ingeniería responsable de la transmisión de mensajes entre cada contenedor POD.

  • Motor de renderizado 3D: el módulo de renderizado es responsable del renderizado en tiempo real de humanos digitales y la generación de datos de marcos humanos digitales.

3.2 Implementación del plan

El producto inicial esperaba implementar un modo dúplex de un solo dispositivo y, de hecho, se implementó un modo dúplex de un solo dispositivo. Sin embargo, debido a factores como el ruido ambiental que depende de la reducción de ruido del dispositivo terminal, la ubicación del lenguaje de señas cámara, etc., finalmente se determinó el modo símplex de un solo dispositivo.

3.2.1 Modo símplex de un solo dispositivo - "Sonido"

  • Para resolver el problema del reconocimiento ASR inexacto, la intervención manual se puede realizar en línea en tiempo real.

  • Intervención manual para solucionar el reconocimiento inexacto de la lengua de signos.

  • En el modo símplex, el intérprete de lenguaje de señas admite la interrupción activa, que debe depender de la implementación del módulo lógico de interacción de comportamiento para procesar la lógica de interacción.

Solución de tecnología de enlace de reconocimiento de lenguaje de señas en tiempo real

1) El requisito de datos de marco para el reconocimiento de lenguaje de señas es 10FPS, 360P.

2) El terminal empuja los datos del marco a través de RTC.

3) Los medios enviarán automáticamente los datos del marco en blanco al módulo de vocabulario de lenguaje de señas a lenguaje de señas bajo la premisa de que el ser humano digital no está activado. Los datos del marco en blanco son todos 0 datos de imagen y el algoritmo no producirá ningún resultado.

4) Después de que el ser humano digital comienza a funcionar, cuando el medio de transmisión decodifica el primer cuadro y envía el lenguaje de señas al módulo de vocabulario del lenguaje de señas, el reconocimiento del lenguaje de señas comienza a funcionar, y el lenguaje de señas al vocabulario del lenguaje de señas envía el evento final de reconocimiento a el árbol de comportamiento

5) El resultado del reconocimiento se devolverá en tiempo real durante el reconocimiento del lenguaje de señas, y el resultado son datos acumulados, que se enviarán al módulo del árbol de comportamiento a través del evento de resultado del reconocimiento del lenguaje de señas.

6) El módulo del árbol de comportamiento envía los resultados del reconocimiento del lenguaje de señas al vocabulario del lenguaje de señas al módulo de texto natural.

7) El módulo de vocabulario de lenguaje de señas a texto natural generará un evento final de reconocimiento de lenguaje de señas y realizará el almacenamiento en caché de redis local.

8) Motor de decisión del árbol de comportamiento, después de recibir el final del reconocimiento del lenguaje de señas, el árbol de comportamiento envía el evento final del reconocimiento del lenguaje de señas al front-end y regresa a la interfaz humana digital de manera predeterminada, esperando el contenido de la transmisión.

9) Si se requiere transmisión de voz, el árbol de comportamiento enviará la copia de transmisión a los medios y enviará la copia al front-end para su visualización. Después de que los medios de transmisión sinteticen tts, se insertarán en los medios de transmisión.

Solución técnica de enlace de síntesis de lenguaje de señas en tiempo real

  • Esquema de procesamiento de algoritmo de síntesis de lenguaje de señas en tiempo real

    Para obtener información sobre las anotaciones en lenguaje de señas, puede consultar el capítulo "Colaboración colectiva en lenguaje de señas".

    El núcleo del algoritmo calculará el marco de transición entre la acción léxica y la acción léxica, y el marco de transición de la acción léxica a la acción inactiva. Esto requiere que al etiquetar los datos, intente marcar el marco de datos cuyo espacio está más cerca de la acción inactiva. .

  • La solución de procesamiento de unidad de síntesis de lenguaje de señas en tiempo real se realiza a través de renderizado en tiempo real más codificación de video multimedia a RTC.

Orquestación del árbol de comportamiento

Propósito principal: resolver el proceso de interacción humana digital, la ingeniería, el algoritmo, el front-end y otros módulos para los cambios de comportamiento humano digital y la retroalimentación de interacción de la GUI del lado C. Nodos abstractos de comportamiento humano digital, reduce el desarrollo de código y realiza rápidamente el aterrizaje de negocios humanos digitales a través de la orquestación.

Por ejemplo:

Cuando el usuario cambia al reconocimiento de lenguaje de señas, TTS debe interrumpir activamente.

Cuando el usuario llame, el talento digital comenzará a saludar después de que el usuario final C se haya suscrito con éxito a la transmisión.

Cuando comience la transmisión de TTS, la copia de TTS se mostrará en la página principal.

Después de que el TTS termine de transmitirse, el TTS desaparecerá automáticamente o permanecerá sin cambios durante mucho tiempo.

1) El árbol de comportamiento proporciona una gran cantidad de métodos de control de procesos, lo que hace que el cambio entre estados sea más intuitivo;

2) Toda la IA del juego utiliza una estructura de árbol para facilitar la visualización y edición;

3) Depuración conveniente y escritura de código;

4) Lo más importante: el árbol de comportamiento es conveniente para hacer editores y puede ser utilizado por los planificadores.

3.2.2 Síntesis del lenguaje de señas

1) Los algoritmos y protocolos reutilizan el proceso simplex de un solo dispositivo, modifican la implementación lógica del árbol de comportamiento y solo realizan la gestión del proceso de tareas del árbol de comportamiento.

2) La traducción de lenguaje de señas en tiempo real, la traducción de lenguaje de señas de texto fuera de línea y la traducción de lenguaje de señas de video mantienen la misma estructura.

3) Síntesis de lenguaje de señas de audio y video sin conexión, debido a que la velocidad del lenguaje de señas es inconsistente con la velocidad de transmisión de audio, y el consumo de tiempo dado para el lenguaje de señas es diferente, por lo que la síntesis de lenguaje de señas de audio y video sin conexión debe personalizarse.

4) La síntesis del lenguaje de señas en tiempo real se realiza mediante la multiplexación del árbol de comportamiento por el módulo BH, pero existen diferencias en la disposición del árbol de comportamiento.

5) El módulo BH implementa la síntesis de texto y video fuera de línea para implementar tareas de tiempo.

6) La síntesis de audio y video de lenguaje de señas de audio y video fuera de línea se implementa con un esquema alineado a la izquierda.

7) El proceso de renderizado general de la composición fuera de línea es coherente con el renderizado en tiempo real.

8) Unidad de expresión:

  • Texto de entrada de texto a lenguaje de señas, que identifica el tipo emocional y la intensidad emocional del usuario.

  • Vocabulario a lenguaje de señas ingresa el tipo emocional y la intensidad del usuario, generando así expresiones y acciones humanas digitales. (Las expresiones y acciones están marcadas y hechas con anticipación).

  • Las emociones se dividen en 7 categorías y 3 intensidades para la conducción de la expresión.

4. Producción de datos

1) Los datos son el componente central del lenguaje de señas.

  • La salida de datos es para poblaciones especiales.

  • La definición y desmontaje de datos no se resuelve escuchando a la gente.

2) No hay casos exitosos a los que referirse para el esquema de recopilación y el costo de los datos de movimiento del lenguaje de señas 3D.

4.1 activos de datos 3D

4.1.1 Proceso de producción estático de activos 3D

  • Los activos estáticos incluyen "pintura original", "modelo 3D de súper alta precisión de 50 millones de caras", "modelo de gris alto/medio/bajo", "textura de piel", "accesorios de ropa", "pelo", "BS y unión de huesos". Conjunto", "Encuadernación de la piel". Una vez que se completan los activos estáticos, se puede ingresar a la etapa de captura de movimiento.

  • Con el fin de reducir el costo total de producción, planeamos utilizar al profesor de lenguaje de señas como la persona en el medio para evitar la modificación de los activos de acción introducidos debido al cambio de los accesorios de ropa del modelo 3D.

  • El diseño del prototipo del personaje es principalmente el resultado de la pintura original del personaje.

  • Modelismo

  • mapa de la piel

  • Encuadernación facial BS

  • encuadernación clave

  • Confección de ropa y accesorios

4.1.2 Producción de activos dinámicos 3D

  • Se determina el equipo de captura de movimiento, y finalmente se decide utilizar captura de movimiento óptica.

  • Guantes, use guantes de datos para la captura de movimiento.

  • El lugar de captura de movimiento y los proveedores son designados por nosotros.

  • Una vez completada la captura de movimiento, el proveedor designado la refinará.

  • Los activos de captura de movimiento se entregaron en línea.

4.2 Colaboración colectiva en lenguaje de señas

4.2.1 Diccionarios de lengua de signos

Dificultad: Cómo organizar un grupo de grupos que no pueden comunicarse y campos especiales para producir los datos que necesitamos. Por lo tanto, elegimos a Alipay como proveedor de crowdsourcing de lenguaje de señas.

4.2.2 Definiciones del glosario

  • Raíz: se refiere a una sola acción de lenguaje de señas, la granularidad más pequeña del lenguaje de señas

  • Fusion Vocabulary: Lenguaje de señas Vocabulario que consta de múltiples raíces

  • Sustantivos propios: palabras especializadas utilizadas en campos específicos

  • Palabras sensibles: se refiere a palabras que no se pueden transmitir, como pornográfico, relacionado con drogas, etc.

  • Polisemia: Hay muchas formas de reproducir un vocabulario natural

  • Juego similar: un juego se puede asignar a múltiples palabras naturales

4.2.3 Composición del diccionario

4.2.4 Etiquetado de datos

Supongo que te gusta

Origin blog.csdn.net/AlibabaTech1024/article/details/129176629
Recomendado
Clasificación