AIプロダクトマネージャーが知っておくべき音声インタラクションの評価指標

この記事では、特に次の 5 つの主要な業界実践評価指標を紹介します。

一、语音识别		
二、自然语言处理	
三、语音合成	
四、对话系统	
五、整体用户数据指标

1. 音声認識ASR

自動音声認識 (一般に ASR と呼ばれます) は、音をテキストに変換するプロセスであり、人間の耳に相当します。

1. 認識率

純粋なエンジンの認識率と、さまざまな S/N 比 (S/N 比はさまざまな車速、窓、空調状態などをシミュレートします) での認識率とその違いを確認してください。オンライン/オフライン間の認識。

実際の業務において、一般的な認識率を直接的に表す指標は「WER(Word Error Rate)」です。

定義: 認識された単語列を標準単語列と一致させるには、特定の単語を置換、削除、または挿入する必要があります。これらの挿入、置換、または削除された単語の総数を標準単語列で割った値の割合です。総単語数は WER です。

式は次のとおりです。

Substitution——替换


Deletion——删除


Insertion——插入


N——单词数目

3点

  1. WERは男性・女性、スピード、アクセント、数字・英語・中国語などに分けて見ることができます。

  2. 挿入された単語があるため、理論的には WER が 100% を超える可能性がありますが、実際には、特にサンプル サイズが大きい場合にはそれは不可能です。そうでない場合は、あまりにも悪すぎて商業的に使用できません。

  3. 純粋な製品体験の観点から、認識率は「正しく認識された文の数 / 文の総数」、つまり「認識 (正解) 率は 96% に等しい」と考える人が多くいます。実際の業務では、
    「文の認識エラー数/総文数」である「SER(Sentence Error Rate)」を指します。ただし、実際の業務では一般的に文章の誤り率は単語の誤り率の2~3倍と言われており、あまり読まれないかもしれません。

2. 音声ウェイクアップに関する指標

まず、音声トリガー (VT) に関する関連情報を紹介する必要があります。

A. 音声ウェイクアップの要件の背景: 音声入力方法を使用する場合など、近距離認識中に、ユーザーは携帯電話の Siri 音声ボタンを押したままにして、直接話すことができます (終了後に放す)。ニアフィールド状況における信号対雑音比 (信号対雑音比 (SNR) が比較的高く、信号が明瞭で、単純なアルゴリズムが効果的で信頼性が高くなります。)

ただし、スマート スピーカーのシナリオなどの遠距離認識では、ユーザーは手でデバイスに触れることができず、音声でデバイスを起動する必要があります。これは、AI (ロボット) を名前で呼んでユーザーを引き付けるのと同じです。 Appleの「Hey Siri」、Googleの「OK Google」、Amazon Echoの「Alexa」など。

B. 音声ウェイクアップの意味:簡単に言うと「聞き手(AI)の注意を引くために名前を呼ぶ」という意味です。音声ウェイクアップ判定結果が正しいウェイクアップ(起動)ワードであれば、その後の音声を認識する必要があり、そうでない場合は認識は行われない。

C. 音声ウェイクアップの関連指標

  1. 覚醒率。AIを呼び出した際、覚醒に成功する割合。

  2. 誤った覚醒率。AIが呼ばれていないときにAIが飛び出して勝手にしゃべる割合。特に夜中に誤覚醒が多く、スマートスピーカーが突然歌ったり物語を語り始めたりすると、特に怖いでしょう…。

  3. ウェイクワードの音節の長さ。一般的に、技術的な要件は 3 音節以上です。たとえば、「OK Google」と「Alexa」は 4 音節、「Hey Siri」は 3 音節です。Xiaoya などの国産スマート スピーカーの場合、ウェイクアップ ワードは、 「Xiaoya」ではなく「Xiaoya Xiaoya」です。音節が短すぎると、一般的に誤覚醒率が高くなります。

  4. ウェイク応答時間。私は以前、Fu Sheng 氏の記事を読みました。Echo とその Xiaoya スマート スピーカーを除く世界中のすべてのスピーカーは 1.5 秒に達し、その他のスピーカーはすべて 3 秒を超えていると述べています。

  5. 消費電力 (低いはずです)。Siri が iPhone 4s に登場したというレポートを読んだことがありますが、電源を接続せずに直接「Hey Siri」と叫んで音声起動できるようになったのは iPhone 6s になってからです。音声アクティベーション専用の低電力チップ。当然、アルゴリズムとハードウェアを調整する必要があり、アルゴリズムも最適化する必要があります。

上記の 1、2、3 は比較的重要です。

D. その他

AEC (自動エコー キャンセレーション) に関しては、WER の相対的な改善も調べる必要があります。

2. 自然言語処理 NLP

一般に NLP と呼ばれる自然言語処理は、「コンピューターが人間の言語を理解して生成できるようにする」ものとして一般に理解されています。

1. 適合率と再現率

前回の記事「AIプロダクトマネージャーが知っておくべきデータアノテーション業務入門」で共有した説明を添付します。

精度: 正しく識別されたサンプルの数/識別されたサンプルの数

再現率: 正解と判定されたサンプル数 / 全サンプル中の正解サンプル数

たとえば、クラスには男子が 30 人、女子が 20 人います。少年の数を識別するには機械が必要です。今回、機械は合計 20 人の対象者を識別し、そのうち 18 人が男性、2 人が女性でした。しかし

精确率=18/(18+2)=0.9


召回率=18/30=0.6

説明するために別の図を追加します。

2. F1 値 (精度と再現率の調和平均)

モデルの最適化後、F1 値の向上を追求した結果、精度と再現率のみが狭い範囲で低下し、パーティション間で全体的な F1 値の増加も見られました (60% 以内の F1 値は上記の F1 値とは明らかに異なります) 60%、90% 以上は 1% の改善のみを追求する可能性があります)。

P是精准率,R是召回率,Fa是在F1基础上做了赋权处理:Fa=(a^2+1)PR/(a^2P+R)

3. 音声合成TTS

一般に TTS と呼ばれる Text-To-Speech (Text-To-Speech) は、人間の口に似た音声 (読み上げ) にテキストを変換します。Siri などのさまざまな音声アシスタントで聞こえる音声はすべて TTS によって生成されており、実際の人間が話しているものではありません。

主観検査(自然さ)、主にMOS:

MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。


ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,看哪个好。

客観的なテスト:

对声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。


对工程上的测试:实时率(合成耗时/语音时长),流式分首包、尾包,非流式不考察首包;首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。

4. 対話システム

Dialogue System は、簡単に言うと、Siri やさまざまなチャットボットによってサポートされるチャット対話エクスペリエンスとして理解できます。

1. ユーザータスク完了率(製品機能が有用かどうか、機能網羅度を示す)

比如智能客服,如果这个Session最终是以接入人工为结束的,那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。


分专项或分意图的统计就更多了,不展开了。

2.ユーザーがタスクを完了するまでにかかる時間、情報伝達や行動誘導における返答言葉の効率、ユーザーの音声入力の効率などの対話対話効率(中断や中断などの機能に関連する可能性があります)ワンショット); 特定の定義、各製品について決定するのはあなた次第です。

3. 対話システムの種類により多少の違いがあります

1. チャットの種類:

CPS(Conversations Per Session,平均单次对话轮数)。这算是微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标;


相关性和新颖性。与原话题要有一定的相关性,但又不能是非常相似的话;


话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句话就会给个负分。

2. タスクの種類:

留存率。虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如:之前百度高考,教考生填报志愿,就是这么弄的;


完成度(即,前文提过的“用户任务达成率”)。由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口;


相关的,还有(每个任务)平均slot填入轮数或填充完整度。即,完成一个任务,平均需要多少轮,平均填写了百分之多少的槽位slot。对于槽位的基础知识介绍,可详见《填槽与多轮对话 | AI产品经理需要了解的AI技术概念》。

3. 質問と回答の種類:

最终求助人工的比例(即,前文提过的“用户任务达成率”相关);


重复问同样问题的比例;


“没答案”之类的比例。

一般的に業界ではPRを推進するとCPSが高くなるのが一般的です。他の指標は比較的些細なこと、または十分に高度ではないように見えるかもしれませんが、実際の作業では、CPS はチャット型の対話システムをより指向している可能性があり、他のシナリオはより「効果」に基づいている可能性があります。たとえば、子供が泣いた場合、ロボットは「泣いて慰める」ことができます。それほど多くの対話を行う必要はありませんが、対話は少ないほど良いです。

4. コーパスの自然性と人間化の程度

現在、この種の問題には手動評価が一般的に使用されています。ここでのコーパスは通常、単一の文ではなく、単一ラウンドの質問と回答のペア、または複数ラウンドのセッションに分割されています。一般的に、採点範囲は 1 ~ 5 ポイントです。

1分或2分:完全答非所问,以及含有不友好内容或不适合语音播报的特殊内容;


3分:基本可用,问答逻辑正确;


4分:能解决用户问题且足够精炼;


5分:在4分基础上,能让人感受到情感及人设。

また、主観的な偏見を排除するために、複数人で極端な価値観にラベルを付けて排除することが現在では一般的に行われています。

5. 全体的なユーザーデータ指標

従来のインターネット製品は全体的なユーザー指標を持っていますが、AI製品は一般的にこの観点から検討されます。

1. DAU (Daily Active User、毎日のアクティブ ユーザーの数、「デイリー アクティブ」と呼ばれる)

特殊シナリオの変更があり、例えば車両シナリオでは「DAU割合(車両DAUの割合)」がカウントされるようになります。

2. 使用されるインテンションの豊富さ (使用率が X% を超えるインテンションの数)。

3. ユーザーの声の感情情報と意味論的な感情分類を通じて満足度を評価することができます。

特に怒りの感情を検出する場合、これらの会話サンプルを選択して分析できます。たとえば、ユーザーの感情を大まかに把握するために、音声の中で悪口が何語使われているかを数えている企業もあります。例えば通華順モバイルクライアントでは、一番下までスクロールするとワンストップで質問と回答ができる機能があり、ユーザーからの「なぜログインできないのですか?」「なぜ常にログインできないのですか?」という質問に対して、ワンストップで質問と回答を行うことができます。 ——後者では、システムが否定的な感情を検出した場合、手動転送を促します。

結論

この記事では、音声インタラクションシステムの業界共通の評価指標を紹介し、AIプロダクトマネージャーに最も現実的な情報を提供するとともに、誰もがよりベースに基づいた評価指標を作成できることを期待しています。優れた製品エクスペリエンス。

おすすめ

転載: blog.csdn.net/weixin_43153548/article/details/82899530