Indicadores de evaluación de interacción de voz que los gerentes de productos de IA deben conocer

Este artículo presenta específicamente los siguientes cinco indicadores principales de evaluación práctica de la industria:

一、语音识别		
二、自然语言处理	
三、语音合成	
四、对话系统	
五、整体用户数据指标

1. Reconocimiento de voz ASR

El reconocimiento automático de voz, generalmente conocido como ASR, es el proceso de convertir sonidos en texto, que es equivalente al oído humano.

1. Tasa de reconocimiento

Observe la tasa de reconocimiento del motor puro, así como la tasa de reconocimiento bajo diferentes relaciones señal-ruido (la relación señal-ruido simula diferentes velocidades del vehículo, ventanas, estados de aire acondicionado, etc.), y la diferencia entre reconocimiento en línea/fuera de línea.

En el trabajo real, el indicador directo de la tasa de reconocimiento general es "WER (tasa de error de palabras)"

Definición: Para que la secuencia de palabras reconocida sea coherente con la secuencia de palabras estándar, es necesario reemplazar, eliminar o insertar ciertas palabras. El número total de estas palabras insertadas, reemplazadas o eliminadas se divide por la secuencia de palabras estándar. El porcentaje de el número total de palabras es WER.

La fórmula es:

Substitution——替换


Deletion——删除


Insertion——插入


N——单词数目

3 puntos

  1. WER se puede dividir en masculino y femenino, velocidad, acento, números/inglés/chino, etc., y se puede ver por separado.

  2. Debido a que hay palabras insertadas, el WER puede ser superior al 100% en teoría, pero en la práctica, especialmente cuando el tamaño de la muestra es grande, es imposible; de ​​lo contrario, será una lástima y no se podrá utilizar comercialmente.

  3. Desde la perspectiva de la experiencia pura del producto, muchas personas piensan que la tasa de reconocimiento debería ser igual a "el número de oraciones reconocidas correctamente / el número total de oraciones", es decir, "la tasa de reconocimiento (correcto) es igual al 96%". En el trabajo real, esto debería ser Apunta a "SER (tasa de errores de oración
    )", que es "el número de errores de reconocimiento de oraciones / el número total de oraciones". Sin embargo, se dice que en el trabajo real, la tasa de error de oraciones es generalmente de 2 a 3 veces la tasa de error de palabras, por lo que es posible que no las lea mucho.

2. Indicadores relacionados con el despertador por voz

Primero, debemos presentar la información relevante sobre Voice Trigger (VT).

A. Antecedentes de requisitos para la activación por voz: durante el reconocimiento de campo cercano, como cuando se utiliza el método de entrada de voz, el usuario puede presionar y mantener presionado el botón de voz Siri en el teléfono móvil y hablar directamente (sueltelo después del final); la relación señal-ruido en situaciones de campo cercano (relación señal-ruido (SNR) es relativamente alta, la señal es clara y un algoritmo simple puede ser efectivo y confiable.

Sin embargo, en el reconocimiento de campo lejano, como en escenarios de altavoces inteligentes, los usuarios no pueden tocar el dispositivo con las manos y necesitan despertarlo con la voz, lo que equivale a llamar a la IA (robot) por su nombre para atraer su atención. atención, como "Hey Siri" de Apple, "OK Google" de Google, "Alexa" de Amazon Echo, etc.

B. El significado del despertador por voz: en pocas palabras, significa "llamar el nombre para atraer la atención del oyente (AI)". Si el resultado del juicio de activación del habla es la palabra de activación (activación) correcta, entonces se debe reconocer el habla posterior; de lo contrario, no se realizará ningún reconocimiento.

C. Indicadores relacionados del despertar por voz

  1. Tasa de excitación. Al llamar a la IA, la velocidad a la que se despierta con éxito.

  2. Tasa de falsos despertares. La velocidad a la que la IA salta y habla por sí sola cuando no se la llama. Si hay muchos falsos despertares, especialmente en mitad de la noche, y el altavoz inteligente de repente empieza a cantar o contar historias, será especialmente aterrador...

  3. Longitud de la sílaba de la palabra de activación. En términos generales, los requisitos técnicos son al menos 3 sílabas. Por ejemplo, "OK Google" y "Alexa" tienen cuatro sílabas, y "Hey Siri" tiene tres sílabas. Para los parlantes inteligentes domésticos, como Xiaoya, la palabra de activación es "Xiaoya Xiaoya", en lugar de "Xiaoya"; si la sílaba es demasiado corta, la tasa de falsos despertares generalmente será mayor.

  4. Tiempo de respuesta al despertar. He leído el artículo de Fu Sheng antes, diciendo que todos los parlantes del mundo, excepto Echo y sus parlantes inteligentes Xiaoya, pueden alcanzar 1,5 segundos, y los demás están por encima de los 3 segundos.

  5. Consumo de energía (debe ser bajo). He leído informes de que Siri apareció en el iPhone 4s, pero no fue hasta el iPhone 6s que se permitió gritar directamente "Hey Siri" para activar la voz sin enchufar la fuente de alimentación; esto se debe a que el 6s tiene un Chip de bajo consumo dedicado a la activación por voz. Por supuesto, el algoritmo y el hardware deben coordinarse, y el algoritmo también debe optimizarse.

Los 1, 2 y 3 anteriores son relativamente más importantes.

D. Otros

Cuando se trata de AEC (cancelación automática de eco), también se debe examinar la mejora relativa de WER.

2. PNL de procesamiento del lenguaje natural

El procesamiento del lenguaje natural, generalmente conocido como PNL, se entiende comúnmente como "permitir a las computadoras comprender y generar el lenguaje humano".

1. Tasa de precisión y tasa de recuperación

Adjunto se incluye una explicación compartida en el artículo anterior " Introducción al trabajo de anotación de datos que los gerentes de productos de IA deben conocer ":

Precisión: número de muestras identificadas correctamente/número de muestras identificadas

Tasa de recuperación: número de muestras identificadas como correctas/número de muestras correctas entre todas las muestras

Por ejemplo: hay 30 niños y 20 niñas en la clase. Se necesita una máquina para identificar el número de niños. Esta vez la máquina identificó un total de 20 sujetos objetivo, 18 de los cuales eran hombres y 2 mujeres. pero

精确率=18/(18+2)=0.9


召回率=18/30=0.6

Añade otra imagen para explicar:

2. Valor F1 (media armónica de precisión y recuperación)

Después de la optimización del modelo, la búsqueda de mejorar el valor F1, la precisión y la tasa de recuperación por sí solas cayeron dentro de un rango pequeño, y el aumento en el valor F1 general también se observó entre particiones (el valor F1 dentro del 60% es definitivamente diferente del anterior 60%, 90% o más sólo podrán perseguir una mejora del 1%).

P是精准率,R是召回率,Fa是在F1基础上做了赋权处理:Fa=(a^2+1)PR/(a^2P+R)

3. TTS de síntesis de voz

Text-To-Speech (Text-To-Speech), generalmente conocido como TTS, convierte el texto en sonidos (leídos en voz alta), lo cual es análogo a la boca humana. Las voces que escuchas en varios asistentes de voz, como Siri, son generadas por TTS y no son personas reales que hablan.

Prueba subjetiva (naturalidad), principalmente MOS:

MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。


ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,看哪个好。

Prueba objetiva :

对声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。


对工程上的测试:实时率(合成耗时/语音时长),流式分首包、尾包,非流式不考察首包;首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。

4. Sistema de diálogo

El sistema de diálogo puede entenderse simplemente como la experiencia de diálogo de chat respaldada por Siri o varios Chatbots.

1. Tasa de finalización de tareas del usuario (que indica si las funciones del producto son útiles y tienen cobertura funcional)

比如智能客服,如果这个Session最终是以接入人工为结束的,那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。


分专项或分意图的统计就更多了,不展开了。

2. Eficiencia de la interacción del diálogo , como el tiempo que tardan los usuarios en completar una tarea, la eficiencia de las palabras de respuesta en la transmisión de información y la guía de acción, la eficiencia de la entrada de voz del usuario, etc. (puede estar relacionada con funciones como la interrupción y one-shot); definición específica, usted decide para cada producto.

3. Existen algunas diferencias según el tipo de sistema de diálogo .

1. Tipo de chat :

CPS(Conversations Per Session,平均单次对话轮数)。这算是微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标;


相关性和新颖性。与原话题要有一定的相关性,但又不能是非常相似的话;


话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句话就会给个负分。

2. Tipo de tarea :

留存率。虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如:之前百度高考,教考生填报志愿,就是这么弄的;


完成度(即,前文提过的“用户任务达成率”)。由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口;


相关的,还有(每个任务)平均slot填入轮数或填充完整度。即,完成一个任务,平均需要多少轮,平均填写了百分之多少的槽位slot。对于槽位的基础知识介绍,可详见《填槽与多轮对话 | AI产品经理需要了解的AI技术概念》。

3. Tipo de pregunta y respuesta :

最终求助人工的比例(即,前文提过的“用户任务达成率”相关);


重复问同样问题的比例;


“没答案”之类的比例。

En términos generales, la industria suele aumentar más el CPS cuando promueve las relaciones públicas. Otros indicadores pueden parecer relativamente triviales o no de alto nivel, pero en el trabajo real, CPS puede estar más orientado a sistemas de diálogo tipo chat, mientras que otros escenarios pueden basarse más en "efectos". Por ejemplo, si un niño llora, el robot puede "llorar para consolarlo", no son necesarias tantas rondas de diálogo, pero cuantas menos, mejor.

4. El grado de naturalidad y humanización del corpus

Actualmente, la evaluación manual se utiliza generalmente para este tipo de problemas. El corpus aquí no suele ser una sola frase, sino que se divide en una única ronda de pares de preguntas y respuestas o en una sesión de varias rondas. En términos generales, el rango de puntuación es de 1 a 5 puntos:

1分或2分:完全答非所问,以及含有不友好内容或不适合语音播报的特殊内容;


3分:基本可用,问答逻辑正确;


4分:能解决用户问题且足够精炼;


5分:在4分基础上,能让人感受到情感及人设。

Además, para eliminar el sesgo subjetivo, actualmente es una práctica común utilizar varias personas para etiquetar y eliminar valores extremos.

5. Indicadores generales de datos de los usuarios

Los productos convencionales de Internet tendrán indicadores generales de usuario; los productos de IA generalmente se considerarán desde esta perspectiva.

1. DAU (Usuario activo diario, número de usuarios activos diarios, denominado "activo diario")

Habrá cambios en escenarios especiales, por ejemplo, en escenarios de vehículos, se contará la "proporción DAU (proporción de DAU del vehículo)".

2. Riqueza de intenciones utilizadas (número de intenciones con tasa de uso >X%).

3. Se puede intentar evaluar la satisfacción a través de información emocional y clasificación emocional semántica de la voz del usuario.

Especialmente para la detección de emociones de enojo, estas muestras de conversación se pueden seleccionar y analizar. Por ejemplo, algunas empresas cuentan cuántas malas palabras se utilizan en el habla para comprender aproximadamente las emociones de los usuarios. Por ejemplo, en el cliente móvil de Tonghuashun, desplácese hasta la parte inferior y verá una función integral de preguntas y respuestas. Cuando los usuarios dicen "¿Por qué no puedo iniciar sesión?" y "¿Por qué no puedo iniciar sesión siempre?" , los resultados devueltos son diferentes.——Este último, si el sistema detecta emociones negativas, solicitará la transferencia manual.

Conclusión

Este artículo presenta los indicadores de evaluación comunes de los sistemas de interacción de voz en la industria. Por un lado, proporciona la información relevante más práctica a los gerentes de productos de IA y, por otro lado, también espera que todos puedan crear más información basada en ellos. En estos indicadores Buena experiencia con el producto.

Supongo que te gusta

Origin blog.csdn.net/weixin_43153548/article/details/82899530
Recomendado
Clasificación