機械との対話、アリ・ダーマ研究所は新世代の人間と機械の対話技術に挑戦します

著者: Huang Fei、Sun Jian、Li Yongbin、Zhang Ji、Dai yingpei、Yu Haiyang、Geng Ruiying、Gao Xing、Yan Ming

1. マンマシン対話の概要

マンマシン対話という言葉を聞くと混乱するかもしれませんが、マンマシン対話テクノロジの応用と経験に関して言えば、あなたは間違いなくよく知っています。たとえば、Siri に代表される携帯電話の音声アシスタント、スマート スピーカー、車載対話ロボット、および同様の消費者グレードのハードウェア対話対話です。この音声ベースの対話形式により、人間とコンピュータの対話がより便利かつ高速になります。別の種類のシナリオは次のとおりです。会話ロボット、たとえば、ユーザーが週末/夜間にカスタマーサービスに電話をかけた場合、ユーザーの電話に対する最初の応答は対話ロボットである可能性が高く、このタイプのロボットは主に次のようなサービスシナリオで使用されます。顧客サービスと全体的なインタラクションとして。

簡単に言うと、人間と機械の対話とは、機械が人間の自然言語を理解し、それに応じて人間と対話できるようにするインテリジェント システムを指します。人工知能研究の初期の頃から、人々は高度にインテリジェントな人間とコンピューターの対話システムの開発に熱心に取り組んできました。通常の意味では、人間とコンピューターの対話には、次の図に示すように、技術的な枠組みに主に 5 つのサブシステムが含まれています。

マンマシン対話で議論される分野のオープン度に応じて、オープンドメインマンマシン対話と垂直フィールドマンマシン対話に分けられ、マンマシン対話が明確な目標を持っているかどうかに応じて、マンマシン対話は次のように分類されます。チャット(特定の目的なし)と目標指向対話(目的指向の対話)に分けられ、機能の違いに応じて、タスク指向の対話、インテリジェントな質疑応答、チャットの 3 つのタイプに一般的に分けられます。 iResearch の定義では、製品の側面から、対話型インタラクティブ製品を消費者グレードのハードウェア インタラクティブ製品と対話型 AI 製品に分けています。AI 製品には 2 つのタイプがあります。

国内市場規模に関しては、2021年の消費者向けハードウェア対話型AI音声アシスタントアルゴリズムの生産額は約34億元、会話型AIの市場規模は2021年に45億元となり、126億元の規模を牽引すると予想されている。. インタラクティブ製品や会話型AI製品は比較的急速な成長段階にあります。人間と機械の対話がここ数年で大幅に進歩したのはなぜですか? 著者は以下の理由があると考えています:第一に、いつでもどこでも情報やサービスに素早く便利にアクセスしたいというCエンド消費者の厳しい要求から来ています;第二に、Bエンド企業の人件費圧力から来ています。この考えは、企業がよりインテリジェントで効率的な顧客接続およびインタラクション サービス手法、つまり顧客サービス ロボットを核とした顧客コンタクト センターの全体的なソリューションを作成することを促進することです。第三に、新世代のテクノロジー ベースです。事前トレーニングされた大規模モデル + 微調整 このパラダイムにより、ヒューマン マシン対話ロボットの一般化能力が大幅に向上し、シナリオ間の拡張性が強化され、ロボットの構築コストが削減されました。

DAMO アカデミーの自然言語処理と音声対話機能を利用して、FAQ ナレッジ検索の質問と回答、タスク フローの質問と回答、ナレッジ グラフ上の複雑な推論の質問と回答、テーブル検索の質問と回答、および MRC の経験を蓄積してきました。質問と回答を理解するための文書化機能、フルリンク操作ツール、インテリジェントな支援、洞察分析の面で継続的に革新とアップグレードを行います。この記事では、次のことを理解するためにいくつかの章を説明します。

  • 会話型 AI 製品の背後にある主な技術的課題

  • 達磨学院の新世代人間・コンピュータ対話技術プラットフォーム

  • 典型的なアプリケーション シナリオとインテリジェント カスタマー サービスの顧客

  • 人間とコンピュータの対話の今後の発展方向と発展経路について考える

2.会話型 AI が直面する主要な技術的課題

機械が人間の言語を理解し、人々と自由にコミュニケーションできるようにするには、少なくとも次の重要な課題に直面する必要があります。

  • 知識構築のコストは高くなります。機械が人間の言うことを理解し理解するためには、機械も人間と同じように事前に多くの知識を持っていなければならず、この知識も構造化する必要があるという前提がありますここでいう構造化知識には主に対話プロセス知識と具体的な目的を中心としたナレッジグラフの2種類が含まれます。特定のシーンに関する比較的完全な対話ロジック プロセス (動的知識) を構築するには 1 ~ 2 週間の人的資源がかかると推定され、スキーマとナレッジ マップの構築には約 2 週間の人的資源がかかると推定されます。 (静的な知識) 特定のシーンの知識であるため、構築コストは非常に高くなります。

  • ロボットの起動からオンライン標準を満たすまでの最適化期間は長く、ロボットは起動からオンライン標準を満たすまで複数のバッチで最適化および磨きをかける必要があり、各バッチには実際の対話データ、ラベル付きデータ、トレーニング モデルの収集が含まれます, モデルをデバッグし、対話効果をテストし、問題の背後にある理由を分析し、次の最適化ラウンドに進むには 2 ~ 3 週間かかると推定されています。同様に、ナレッジ グラフの Q&A 効果を反復的に最適化すると、こちらも2週間かかります。

  • 成熟したシーンから小さなサンプルの新しいシーンに移行するロボットの対話エクスペリエンスは貧弱です。成熟したシーンでは、対話ロボットが処理および利用するためのより実際の対話データを持っているため、対話エクスペリエンスは継続的に最適化できますただし、小さなサンプルと新しいシーンに移行した後、対話エクスペリエンスの効果は大幅に減少しました。

  • 人間の言語の語族、言語、方言は非常に多様であり、多数の小言語に関するデータは乏しく、東南アジア・南アジアなどの多言語社会では、言語が混在する現象が見られます。非常に一般的です。一部の言語には異なる表記方法があり、異なる表記方法間の転写は標準化されていません。ロボットが言語の壁を越え、現地の文化に浸透し、本物の現地言語をサポートするには多くの課題があります。

  • 人間が世界を認識する方法は、画像、テキスト、音声、ビデオなどのさまざまなモダリティの情報が関与するマルチモーダルですが、ロボットは、さまざまなモダリティの多次元情報を同時に理解できる必要があります。さまざまなモダリティで情報を処理する効率的かつ正確なセマンティック表現、クロスモーダルのセマンティック ギャップに対してクロスモーダル情報をより適切に調整する方法、および調整されたマルチモーダル情報に基づいて深いモーダル融合を実行する方法。

上記の主要な課題に対応するため、DAMO アカデミーのインテリジェント対話およびサービス チームは、過去 1 年間、主に次の側面から発展してきました。

  • 知識レベルからは、知識構築のコストを削減するために構造化された知識の半自動構築機能の構築に焦点を当て、グラフィックスやビデオなどのマルチモーダル知識のフル活用にさらに拡張します。

  • 対話モデル レベルでは、ナレッジを組み込んだ事前トレーニング対話モデルの作成に重点を置き、それによってロボットの起動からオンライン標準を満たすまでの最適化サイクルを短縮し、単一モダリティからマルチモダリティへのさらなる拡張を行います。言語から多言語への事前トレーニング モデル能力。

  • 対話エンジン レベルからは、多機能対話エンジン、多言語質疑応答、マルチモーダル質疑応答、小規模サンプル学習テクノロジなど、対話エンジンの中核機能の拡張と強化に焦点を当てます。

3. 達磨研究所の新世代マンマシン対話技術システム

上記の考えに基づいて、私たちは新世代の人間とコンピュータの対話技術システムを設計しました。そのコアは主に知識層、事前訓練された対話質問と回答モデル層、エンジン層の 3 つの層で構成されます。このうち、事前トレーニングされたダイアログ Q&A モデル レイヤーには、事前トレーニングされたダイアログ モデル、事前トレーニングされたグラフ Q&A モデル (KGBert)、および事前トレーニングされたテーブル Q&A モデル (TableBert) が含まれ、エンジン レイヤーには、Dialog Studio マルチラウンド ダイアログ エンジンが含まれます。 、KBQA グラフ Q&A エンジン、TableQA テーブル Q&A エンジン、FAQ 多言語質問応答エンジン、VQA ビジュアル質問応答エンジン。

3.1 知識層: スケーラブルな知識マップの構築

知識はデータから得られます。データ ソースは主に 2 つのカテゴリに分類されます。1 つは全員の対話ログ、もう 1 つは企業ドキュメントです。これに対応して、ナレッジ構築も 2 つの側面に分けられ、1 つは全員の対話ログに基づく対話フローの構築で、従来の手動構成から自動マイニング インテントへ、および手動ラベリングから自動マイニング、半自動ラベリング、およびダイアログフロー、半自動ビルド。手動構築から半自動構築へ、プロセス知識の構築コストが大幅に削減されます。2つ目はドキュメントベースのナレッジグラフ構築です。文書自体には特定の構造化された情報が含まれており、構造化すると質問と回答がより正確になります。複数ラウンドの対話インタラクションの観点から見ると、構造化により対話インタラクションがよりスムーズになります。

ドキュメントベースのナレッジ グラフの構築に焦点を当て、スケーラブルなナレッジ グラフ構築ソリューションを設計しました。これには、主にドキュメント事前トレーニング モデル (DocBert)、エンタープライズ ドキュメント アノテーション プラットフォーム、情報抽出の 3 つの層が含まれます (下図を参照)。 。その中で、情報抽出は、文書構造認識、粗粒度トリプレット抽出、および細粒度トリプレット抽出の 3 つのステップに細分されます。

3.1.1 ドクターバート

私たちは、半構造化された長い文書用の事前トレーニング済み文書モデルである DocBert を設計しました。その主な設計思想は、文書表現を 3 つのレベル (物理構造、論理構造、意味構造) に分割することです。テキスト セマンティクス、レイアウト情報、および視覚的特徴は、次のとおりです。モデルが文書の意味論と構造情報をよりよく理解できるように、自己教師あり学習タスクを構築するために使用されます。具体的な事前トレーニングのタスクは次のとおりです。

1) レイアウト認識 MLM: 意味論的および物理的結合モデリング タスクであるレイアウト認識 MLM を通じて、マスク タスクでテキストの位置、フォント サイズ、その他の情報が考慮され、文書レイアウト認識の意味理解タスクが実現されます。

2) テキストと画像の位置合わせ: テキストと画像の位置合わせには、LayoutLM と同じ方法を採用します。つまり、ドキュメント画像内のテキストのマスクを再構築することで、モデルがテキストの異なるモダリティ間の位置合わせを学習するのに役立ちます。 、レイアウト、画像の関係。

3) タイトルの並べ替え: 自己教師付きの方法で章タイトルの再構成タスクを構築し、文書の階層ディレクトリ構造を理解するモデルの能力を強化します。

4) スパース トランスフォーマー レイヤー: スパース アテンション ベースのトランスフォーマー レイヤーを使用して、従来のトランスフォーマーを置き換え、長いドキュメントを処理するモデルの機能を強化します。以下に示すように:

3.1.2 粗視化トリプレット抽出

文書に基づく粗粒トリプレット抽出は、基本的に、文書全体の物理コンポーネントの順序付けされたシーケンスを入力し、タイトルやテキストなどの物理コンポーネントを識別し、これらの情報に基づいて文書ツリーを生成し、最終的にはいくつかの単純なルールは、ドキュメントのすべての粗粒トリプルを取得でき、そのコアはドキュメント ツリーの生成です。全体的なプロセスを次の図に示します。

文書論理構造抽出に基づく文書ツリー生成は、長い文書と可変深さの階層構造という 2 つの重要な課題に直面しています。一方で、長い文書とは、その文書に数百ページと数千の物理コンポーネントが含まれる可能性があり、計算が非常に重いことを意味し、他方で、深さが可変の階層構造により、文書ごとに深さが異なることを意味します。木も異なり、3 階建てのものもあれば、10 階建てのものもあります。これに基づいて、文書構造抽出のための 3 段階のフレームワークを提案します。

  • 最初のステップは、物理コンポーネント シーケンス内のタイトルを検出することです。最初に物理コンポーネント シーケンスのテキストとフォーマット情報を抽出し、DocBert を使用して特徴を抽出し、次にカテゴリがタイトルかどうかにかかわらず、各タイトルのバイナリ分類を実行します。または他のコンポーネント。このステップは比較的単純であるため、シーケンスでラベル付けされたモデルはより高い精度を達成できます。

  • 2 番目のステップでは、抽出されたタイトル シーケンスのタイトル階層ツリーを生成します。具体的には、初期状態として空のツリーを取得し、シーケンス内のタイトルを順番に取得してツリーに挿入します。現在のタイトルの挿入可能な位置は、ツリーの右端の枝にあるノードの子ノードです。

  • 最後のステップで、タイトル階層ツリーが生成されると、シーケンス内の他のコンポーネントの位置に従って、タイトル階層ツリーをツリーの対応するノードに挿入できます。

DocBert をダウンストリームの粗粒度トリプレット抽出ビジネスに適用すると、官公庁、保険、銀行、電力業界のテスト セットでは、一般に従来の事前トレーニング モデルよりもトリプレット抽出が 3% ~ 7% 優れています。小規模なサンプルデータセットでは10%以上の改善を達成し、同時に自社で構築した公開データセットLIEでもLayoutLMV2などの最新の事前学習モデルを上回る非常に良い結果を達成しました。

3.1.3 きめの細かいトリプレット抽出

テキストのきめの細かいトリプレット抽出では、次のきめの細かい情報抽出タスクを設計しました。

ClosedIE は、特定のグラフ スキーマ、つまりエンティティと関係の種類を前提として、きめの細かいトリプル ナレッジの抽出を実行します。モデルの観点からは、バイリニア 3D テンソル スパース性、回転スパン長モデリング、損失関数 Power Trick などの技術を研究しており、独自に構築した行政、電力、医療、常識およびその他のビジネス データセットに基づく実験により、ベースラインの Biaffine モデルと比較して、1 ~ 3 ポイントの改善が見られます。詳細については、半構造化知識に基づくQ&A技術システムをご覧ください。

古典的な ClosedIE とは異なり、OpenIE は、特定のスキーマなしでドキュメントから三重の知識を抽出できます。SOTA の現在の OpenIE モデルである MacroIE は、単語を基本粒度とする大きなグループ構造としてテキスト内の知識をモデル化し、中国語の SAOKE および英語の OIE4 データセットで最高の結果を達成します。大きな集団としてのモデリング知識は、モデルの堅牢性と一般化が不十分で、エッジが欠落したり間違ったりする傾向があります。したがって、最大クリーク構造の制限を緩和し、有向非巡回グラフ構造のモデリングに目を向け、新しいモデル DragonIE を提案します。このモデルには、重複するスパンや不連続なスパンなどの複雑なケースを扱う際に明らかな利点があり、モデルの複雑さが大幅に軽減されます。中国の公開データセットSAOKEと英語の公開データセットOIE4において、自社開発のDragonIEは現行のSOTAと比較して、タグ数を80%削減、メモリ使用量を50%削減し、効果を1向上させました。点。

3.2 半教師あり事前トレーニングは、対話モデルに知識を組み込むための新しいパラダイムを切り開く

対話の特性に基づいて、対話のコンテキストに応じて最適な応答の選択/生成を記述する事前学習済み対話モデル (Pre-trained Conversation Model、PCM) モデリングを特別に設計しました。歴史。事前にトレーニングされた言語モデルのタスクと比較して、より具体的であり、対話履歴、対話の目標、対話戦略、対話の役割、対話の順番などを包括的に考慮する必要があります。

3.2.1 なぜ知識を統合するのか?

事前トレーニングの本質は、モデルが理解できる方法で、トレーニング データに含まれる情報をパラメータに暗黙的に保存することです。多くの研究成果は、BERT などの事前トレーニング モデルが言語知識の一部を学習できることを示しています。大規模なテキスト(構文、文法)、さらにはある程度の世界知識や常識知識も必要です。ただし、事前トレーニング モデルで人間の経験知識をより適切に学習して使用する方法には、まだ多くの問題があります。

ここでは、人間の経験知識を大きく 3 つのカテゴリーに分類し、第 1 カテゴリーは人為的に構築された知識表、知識グラフ、構造化文書(テキスト構造、グラフィック情報を含む)などの事実知識、第 2 カテゴリーは数理知識、数式、公理と定理、記号計算など。このタイプの知識については、この記事では説明しません。3 番目のタイプは、注釈知識、つまり、注釈データに含まれる知識です。このタイプの知識は非常に一般的であり、テキスト分類、感情分析などのタスク関連。ラベル付けプロセスでは、人間は特定のタスクに従って要約し、ラベルのないデータを推論し、事前定義された高レベルの意味分類空間で対応するラベルを割り当てる必要があります。したがって、事前トレーニングされたモデルを人間の経験的知識で強化することは、関連する下流タスクの大幅な改善につながるはずです。

3.2.2 対話戦略の知識

対話戦略は対話プロセスにおける重要なモジュールであり、一般に対話行為(DA)によって特徴付けられます。つまり、双方の対話履歴を考慮して、対話戦略は対話生成を導くための正しい対話アクションを選択する必要があります。現在、Meena や DialoGPT などのさまざまな一般的な事前学習済み対話モデルは、対話アクションの選択プロセスを暗黙的にモデルパラメータにモデル化していることが多く、説明できない、制御できないなどの問題があります。ポリシーは高度な意味論であるため、自己監視だけで十分に学習することは困難です。したがって、次に、対話戦略のモデリングから開始し、より良い事前トレーニングを実現するための半教師ありアプローチを提案し、ラベル付きデータ内の対話戦略の知識を事前トレーニング対話モデルに統合します。以下の図は、私たちが整理して定義したダイアログ アクト システムを示しています。

3.2.3 対話政策の知識を事前トレーニングに注入する

対話戦略モデリングの問題を解決するために半教師あり事前学習法を設計し、対話行動予測タスクを半教師あり学習タスクに変換し、対話事前学習モデルSPACEを設計しました。このモデルは、Alibaba のディープランゲージ モデル システムの不可欠な部分でもあります。

具体的には, SPACE はエンコーダ + デコーダ アーキテクチャを採用しています. 事前トレーニングの目標には, 対話理解と生成モデリングのための従来の自己教師あり損失だけでなく, 対話戦略モデリングのための半教師あり損失も含まれています. 完全なフレームワークは以下を参照してください:

半教師付き対話事前トレーニング フレームワーク

まず理解力については、事前学習の対象として応答選択、つまり対話文脈(context)と応答候補(response)を与えて[CLS]で二値分類を行い、正しい反応。多くの PCM 作品で、応答選択のトレーニングが対話理解にとって重要であることが証明されているため、このトレーニング目標を維持します。生成能力については、共通の応答生成目標を使用します。つまり、対話のコンテキストを考慮して、正しい応答文を生成します。 ;ポリシー部分では、対話アクションをモデル化するために半教師あり学習で非常に効率的な一貫性正則化手法を使用します。理論では、低密度の仮定 (つまり、分類境界が低密度分布にある) の下で、同じサンプルに摂動を加えた後でも分類結果がある程度の一貫性を維持している (つまり、分布が近い、または近い) ことを証明できます。予測結果が近い場合)、一貫性正則化に基づく最終的な半教師あり学習で正しい分類面が見つかることが保証されます。最後に、モデルの事前トレーニングとして、モデル全体の理解、戦略、生成目標を最適化します。

3.2.4 半教師あり事前トレーニングは大幅な改善をもたらす

以下の図に示すように、半教師あり事前トレーニングと政策知識の組み込み後、3 つの国際対話データセット (スタンフォードの車載データセット、MultiWOZ2.0、MultiWOZ2.1 データセット) に対する効果を検証しました。これらの対話リストでは、GALAXY モデルは以前の SOTA モデルを大きく上回り、エンドツーエンドの総合スコアは、In-Car、MultiWOZ2.0、および MultiWOZ2.1 でそれぞれ2.5、5.3、および5.5ポイント増加しました。

3.3 マルチモーダル事前トレーニングにより、対話による質問応答の新しい体験がもたらされる

さまざまな視覚的特徴表現について、それぞれの特徴の長所と短所を考慮して、私たちは一連の自社開発マルチモーダル事前トレーニング モデルを開発しました。これらのモデルは、複数のマルチモーダルなパブリック タスクに対して SOTA 効果を実現しました。

  • 領域:実際の画像とテキストのデータでは、一部の画像とテキストのペアは 2 つのモダリティで意味的に調整するのが簡単ですが、他の画像とテキストのペアはより高いレベルの意味的な調整が必要です。領域特徴に基づいた既存の事前トレーニング フレームワークが 2 つあります:

    1) 特徴レベルの画像表現とテキスト表現を単一ストリーム Transformer の入力として直接接続し、単純な画像とテキストのペアに適しています。2) 2 つのフレームワークを使用します

    。 stream Transformer は、高レベルの意味空間で画像とテキストの表現を整列させることができます。これに基づいて、 SemVLPマルチモーダルシングルおよびデュアルストリーム融合モデルを提案し、ハードクロスモーダル注意と部分的クロスモーダル注意を統合する新しいクロスモーダル融合メカニズムソフトクロスモーダル注意を導入します。さまざまなセマンティクスから学習できる テキストと画像を細かく整列させます。複数の視覚言語理解タスクについて実験が行われ、シングルストリームとデュアルストリームの融合に基づくSemVLPモデルは、従来のシングルストリームモデルやデュアルストリームモデルと比較して、ある程度の改善を達成できることが示されました。

  • グリッド:リージョンでの長いオンライン遅延の問題とグリッド機能をより有効に活用する方法について、2 つの融合方法を検討しました 1) E2E-VLP : End2End マルチモーダル事前トレーニングを

    Transformerフレームワークに統合し、同時にNLU/NLG タスクをサポートします。事前トレーニング段階では、VisualTask​​s (ObjectDetection、ImageCaption) を追加して、画像とテキストのセマンティクスをより適切に統合します。微調整段階では、時間のかかる検出モジュールを排除し、エンドツーエンドで直接実行できます。 ResNet 特徴マップに基づくトレーニング. モーダル NLU/NLG タスクは 2 段階法と同じ効果を達成すると同時に, 速度を 3 倍向上させます. 詳細については, E2E-VLP 論文を参照してください; 2)

    グリッド- VLP:事前トレーニングされたターゲット検出器の FasterCNN エンコーダーがビジュアル エンコーダーとして使用され、事前トレーニング段階では、ランダム グリッド サンプリング メカニズムを通じてモデルの堅牢性が向上し、地域ベースのマルチモーダル モデルを超える効果が得られます。 VQA、NLVR2、GQA などのデータ セット詳細については、Grid-VLP の論文を参照してください。このうち、E2E-VLPはACL2021に承認されました。

E2E-VLP グリッド VLP

主な結論:グリッドベースのモデルは、リージョンベースのモデルと同等の効果を達成でき、エンドツーエンドのトレーニングと予測をサポートします。推論速度が速く、実際のビジネス アプリケーションにより適しています。

  • パッチ & フュージョン: ViT はビジュアル タスクで大きな進歩を遂げており、最近ではマルチモーダルな研究のホットスポットとなっています。私たちは、事前トレーニングされたターゲット検出器と、事前トレーニングされた CLIP の画像とテキストのペアに基づいてパッチの特徴を抽出しようとしました。 VILT の根底にあるグラフィックとテキストの融合の結果と同様のものを模索しています。さらに、さまざまなグラフィック機能とテキスト機能の利点を組み合わせるために、マルチモーダルビジュアルで、適応型融合(リージョン、グリッド、パッチ)の 3 種類の視覚機能とテキスト機能を学習することにより、 Fusion-VLPを提案しました。質問応答 VQA は同等の結果を達成 事前トレーニングされたデータ量の下での単一モデルの SOTA 効果については、詳細については関連論文を参照してください。

主な結論:検出に基づいて事前トレーニングされたパッチ特徴は比較的簡単にオーバーフィットし、より多くのラベルのないグラフィック データを使用して事前トレーニングされたパッチ特徴はより良い結果を達成できますが、境界情報と一時的な効果が簡単に破壊されます。領域ベースおよびグリッドベースの方法よりも低く、パッチベースのモデルは、画像とテキストを現在の研究のホットスポットである Transformer フレームワークに統合できます。3 種類の機能を統合することで、セマンティック情報をより効果的にキャプチャできます。画像内で異なる粒度の画像を生成し、補完的な役割を果たします。

  • 参加する学習:既存のマルチモーダル事前トレーニング フレームワークのほとんどは、シングル ストリームおよびデュアル ストリーム インタラクション モードを使用します。シングル ストリーム フレームワークでは、グラフィックスとテキストの間のインタラクションには従来のセルフ アテンション メカニズムが引き続き使用されます。経験的な観点から、モデルの最下層は画像とテキストの表現をモデル化する傾向が強く、一方、最上層は画像とテキストの間の表現をモデル化する傾向が強いはずです。 Learning to Attend フレームワークに基づくモーダル事前トレーニング。各レイヤーに 2 つの学習可能な自己注意の重みを使用して、モダリティ間およびモダリティ内の相互作用を動的に制御します。このフレームワークは、前述のマルチクラスの視覚機能 (領域、グリッド) を適応的に融合できます。 、パッチ)およびテキスト機能。

元のトランスフォーマー メカニズムでは、自己注意計算の注意行列を 2 つの部分 (モーダル内注意行列とモーダル間注意行列) に分割しました。次に、モーダル内およびモーダル間の注意行列にそれぞれ 2 つの学習可能な重み ε1 および ε2 を導入します。各層のトランスフォーマーの自己注意の計算では、学習可能な重みに対応する注意の重み行列を乗算して、新しい注意の重み行列を取得します。このようにして、モデルはモダリティ全体のモーダル内合計の注意の重みを適応的に学習して調整できます。

主な結論: Learning to Attend 画像とテキストの融合フレームワークに基づいて、複数の機能で検証しました。元のトランスフォーマーと比較して、領域機能と融合機能の両方が一定の改善を達成しており、新しいフレームワークが環境に自己適応できることを示しています。視覚的特徴とテキスト的特徴の融合。

  • 構造:マルチモーダル データでは、すべての視覚要素の画像に加えて、画像の一部にリッチ テキスト情報が含まれており、現在の視覚機能では画像内の OCR テキスト情報を表現できません。これらの課題に対し、我々は構造化事前学習モデルStructuralLMを提案し、言語モデルStructBERTをベースに、画像文書データの2次元位置情報を駆使し、ボックス共有座標表現を提案し、事前学習タスクを導入する。画像の異なる位置にある単語間の関係をモデルが認識するのに役立つボックス位置予測の関連手法は、従来の SOTA 手法と比較して、古典的な表理解データセット FUNSD および表質問応答データ DocVQA において 10 ポイント近く改善されました。詳細については、StructuralLM の論文を参照してください。この論文はACL2021に採択されました。

構造LM

主な結論:多様性視覚表現モデルに基づいて、StructuralLM モデルが導入され、VQA テスト セットは 1.2 pt の絶対的な改善を示しました。これは、モデルがリッチ テキスト情報とその空間位置表現を十分に学習できることを証明しています。絵。

現在、公開され権威のあるマルチモーダル タスクの最先端の手法は、基本的にマルチモーダル事前トレーニング テクノロジに基づいています。大量のラベルなしマルチモーダル データを使用してモデルを事前トレーニングすると、事前トレーニングの効果は学習済みモデルが大幅に改善されました 当社のマルチモーダル事前トレーニング技術は、VQA タスクに限定されず、マルチモーダル分類、検索、生成などのタスクにも広く使用できます SemEval 2021 マルチモーダル分類と DocVQA で 1 位を獲得しました構造化されたリスト。

3.4 エンジン層: 達磨研究所の TableQA が 4 つのリストで 1 位を獲得し、大規模に適用

エンジン レベルでは、Bodhidharma マンマシン対話プラットフォームには主に、プロセスベースの知識用の対話エンジン Dialog Studio、テーブル ナレッジ用の Q&A エンジン TableQA、ナレッジ グラフ用のグラフ Q&A エンジンが含まれています。紙面の都合上、ここでは主に TableQA 質問応答エンジンを紹介します。

表形式のデータ構造は明確で保守が容易で、人間と機械の両方の理解に優しいため、表形式/SQL データベースはさまざまな業界で使用される構造化知識ストレージの最も一般的な形式です。Table QA TableQA は、自然言語を SQL クエリ言語に直接変換し、ユーザーが自然言語を使用してテーブルの知識と直接対話できるようにし、対話ロボットの機能を拡張します。私たちは TableQA に関する一連の探索を行い、4 つの主要なデータ セットのリストで連続して 1 位を獲得し、中国語での最初の事前トレーニング済みテーブル モデルをオープンソース化し、新世代の人間のコア エンジンの 1 つとなりました。コンピュータ対話技術システム。

テーブルの質問とテーブルの回答のための TableQA エンジン。最も単純なケースは 1 ラウンドの質問と回答であり、業界での作業は主に 1 ラウンドの質問にとどまります。チームは、単一ラウンドの Q&A に基づいて、主に単一ラウンドから複数ラウンドへ、および単一テーブルから複数テーブルへの Q&A 機能を開発および構築しました。

3.4.1 単一ラウンドから複数ラウンドへ

テーブルでの質疑応答を複数ラウンド行う場合、次の 2 つの側面が困難になります。

  • ユーザーの質問を理解するために複数ラウンドの対話履歴を効果的にモデル化して利用する方法。

  • 発話とテーブルスキーマの間の意味的リンクの問題。

マルチラウンド シナリオにおけるセマンティック リンクの問題を目指して、AAAI 2021 で動的コンテキスト スキーマ グラフに基づくフレームワーク R²SQL (Hybrid Relation Network for Cross-Domain Context-Dependent Text-to-SQL Parsing) を提案しました。 -round シーン内の自然言語とテーブル スキーマの間の複雑なセマンティック リンク関係。

このフレームワークには、次の 2 つのモジュールが含まれています: 1. 融合関係グラフ、2. 動的記憶忘却メカニズム。以下の図に示すように、融合関係グラフには、アテンション メカニズムに基づいて取得された暗黙的な関係と、セマンティック リンクに基づいて取得された明示的な関係の両方が含まれており、複数のラウンドを処理する際にモデルと事前のルールを最大限に活用できます。意味的理解の利点。そして、複数の質問と回答のラウンドが進行するにつれて、ユーザーのトピックはラウンドとともに変化することがわかりました。そこで、適切な動的コンテキストモードを取得するために、各関係の重みを更新する動的記憶忘却メカニズムをさらに提案します。複数ラウンドの質疑応答シナリオの画像。

業界で権威のあるマルチラウンドテーブルの質疑応答データセットである SParC と CoSQL で実験を行ったところ、EditSQL と比較して、SParC データセットではターン粒度の精度が 7.9% (47.9%->55.8%) 向上しました。 CoSQL データセットでの効果は 6.0% 増加しました (40.8% -> 46.8%)。この作品はAAAI 2021で公開されました。

3.4.2 単一テーブルから複数テーブルへの質問応答

実際のシナリオには複数のテーブルが含まれることが多く、これには複数のテーブルの結合クエリが含まれ、SQL ステートメントの解析に次の 2 種類の複雑さがもたらされます: 1. JOIN、UNION、その他の高度なキーワードなどのより多くの SQL キーワード、2. 状況SQL は互いにネストされています。

シングルシングルラウンドと比較して、マルチシングルラウンドのタスクには主に次のような困難があります。

  • SQL レベル: 複雑な SQL ステートメントの文法的制約を備えたデコーダーを設計する方法。

  • テーブル レベル: データベース内の複数のテーブル間の関係を使用する方法。

  • スキーマ間のセマンティック リンク関係は、複数テーブルのシナリオではより複雑になります。

これまでの作業の一部は、スキーマの内部モデリング、スキーマ内のテーブル、列、外部キー情報をグラフ形式に変換し、学習のためにネットワークに統合することに焦点を当てていましたが、その他の作業は主にスキーマの確立に焦点を当てていました。マルチテーブルタスクにおけるセマンティックリンク関係のモールド。そして、私たちはまず、テキストから SQL へのタスクに対する自然言語問題の構文構造の重要性に注目します。この目的のために、構文関係を使用して自然言語質問の内部関係をモデル化し、構文距離の尺度の下で ID と日付の間の関係が短縮されるため、正しい SQL が生成されます。この動機に基づいて、私たちは自然言語内の構文構造、スキーマの内部構造、および自然言語間の意味的相互作用構造を統合する S²SQL (Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers) を提案します。およびスキーマを同時にモデリングして完全な質問スキーマのセマンティック相互作用図を取得し、より強力な表現機能を実現します。

実際、S²SQL は Spider データセットで最高の結果を達成しました。これは、以前の最高の結果 (Microsoft の RAT-SQL) より 2.8 パーセント ポイント高かった (64.3->67.1)。R²SQL モデルは、2020 年 7 月と 8 月にそれぞれリストのトップになりました。

SDSQL モデルと S²SQL モデルは、それぞれ 2021 年 3 月と 2021 年 9 月に WikiSQL リストと Spider リストで 1 位を獲得しました。

3.5 よくある質問

基本的にすべての顧客は FAQ の質問と回答をサポートする必要があるため、FAQ の質問と回答エンジンが最も広く使用されています。「ビジネスのカスタマイズ効率の向上、Q&A エクスペリエンスの向上、FAQ の運用と導入コストの削減」に焦点を当て、Q&A モデル ライブラリとコード フレームワーク、対話の事前トレーニングと小規模サンプルの理解、複数ラウンドの理解と明確化のガイダンス、口語的な長文を開発しました。マルチソースの異種コンテンツ、モデルの蒸留、および高パフォーマンスの展開に基づいた FAQ の生成に関して、多くの調査と実践が行われてきました。ここでは、FAQ の質問と回答における小規模サンプル分類の適用に焦点を当てます。

MetaLearning の小規模サンプル分類に基づいて、従来の意図分類と比較して、少数のサンプルを提供するだけで、目に見えないカテゴリを自動的に一般化して認識できます。文ペアのマッチングと比較して、FAQ 知識をより完全にモデル化し、曖昧さの問題を解決できます。単一の知識タイトルです。既存のモデルのほとんどは、表現マッチングに属する古典的なプロトタイプネットワーク設計に基づいていますが、私たちはインタラクティブマッチング設計モデルに基づいたMGIMN(Multi-graned Interactive Matching Network)を提案し、最初にインスタンスごとのマッチング特徴ベクトルを計算し、次にインスタンスごとのマッチング特徴ベクトルを計算します。各クラスの一致する特徴ベクトルを取得し、最終的に各クラスの一致信頼度を取得します。文間の多粒度の対話型マッチングは、グローバルな観点、カテゴリの観点、文のペアの観点、および単一の文の観点から実行でき、強化された語彙的注意を照合する際のペアの識別。

実際のアプリケーション シナリオに到達する過程で、事前にトレーニングされた言語モデルとトレーニング用のターゲット タスクの少量のデータに依存するだけでは、オンライン効果の要件を満たすことができないことがわかりました。この小サンプル分類テクノロジは、業界では文ペア マッチング テクノロジほど人気も知名度も高くありません。主な理由は、トレーニング データ セットに多数のカテゴリが含まれている必要があるためです。そうしないとメタ化が容易になります。オーバーフィッティングであり、公開データセットはこのテクノロジーを迅速にサポートするには十分ではありません。幸いなことに、長年の蓄積を経て、プラットフォームには数百万のインテント カテゴリと数千万のナレッジ タイトルが蓄積されており、これに基づいてメタタスク サンプリング戦略 (確率サンプリング、動的 NK サンプリング、困難なサンプル サンプリング、マルチタスク サンプリング) を改善しました。ドメイン/言語サンプリング)、推論の高速化を通じて、多くの実際のアプリケーション シナリオで大幅な改善を達成しました。たとえば、小サンプル分類モデルが Yunxiaomi データを使用しない場合、FAQ の質問と回答のボックスを開く効果は、文ペア マッチング モデルの SOTA を超えます (ターゲット フィールドには一致するラベル付きデータが数百万件あります)。 )。

3.6 多言語Q&A

グローバル化はアリババの 3 つの主要戦略の 1 つです。国際ビジネスの拡大に伴い、多言語 Q&A は単言語 Q&A とはまったく異なる困難と新たな技術的課題に直面しています。新たにアクセスされる言語のほとんどは低リソース言語です。高リソースの使用方法リソースの少ない小規模言語の改善を支援するための言語移行は課題です。言語が異なれば、文法や単語の構成も異なり、複雑になります。たとえば、アラビア語の単語の構成は複雑で、品詞の変化と語彙の多さが衰退につながります。モデルの有効性において; 東南アジア(インドネシア)、マレー語など)と南アジア(パキスタンなど)はさまざまな文化が混在しており、言語混合現象を引き起こしています; 多くの言語とビジネスがあり、それぞれビジネスは迅速にアップグレードする必要があり、オンラインの保守コストは高額です。 

チームはビジネスで成長し磨きをかけ、言語に依存しない前処理、言語に依存しない文表現、言語に依存しない対話事前トレーニングモデル、言語に依存しないデータなど、言語に依存しない質疑応答対話テクノロジーシステムを徐々に構築しました。拡張および言語に依存しない運用ツール。この文書では、言語に依存しない文表現に焦点を当てます。

  • 言語に依存しない文表現: 並列バッグオブワード予測、対話適応比較トレーニング、自己エンコーディング MLM などの事前トレーニング タスクを追加して言語の壁を排除し、質疑応答の分野に適応して学習を強化します。言語に依存しない文ベクトル表現の機能。新しい言語のターゲット言語ラベル データへの依存を軽減し、迅速なビジネス コールド スタートを実現します。正規化に基づいて、同じ言語でも語順、言語コード、地域ごとに異なる単語が異なります。 、ローマ字音訳、データ拡張、敵対的攻撃などの手法により、混合言語の文表現が強化されます。

3.7 マルチモーダル VQA 質問応答

Dharma Academy の NLP チームは、AI ビジュアルテキスト推論システムを体系的に設計し、多様な視覚的特徴表現、マルチモーダル事前トレーニング モデル、適応型クロスモーダル セマンティック フュージョンおよびアライメント テクノロジー、知識、知識などの一連の革新を行いました。マルチスキルAIの統合などにより、AIは「絵を読んで理解する」という新たなレベルに到達しました。

具体的には、マルチモーダルタスクの課題を解決するために、Alibaba Cloud PAIプラットフォームとEFLOPSフレームワークのエンジニアリング基盤に基づいて、DAMOアカデミーの言語技術研究室と視覚研究室がAIビジュアルテキスト推論システムを体系的に設計しました。 、統合された次のような多数のアルゴリズム革新。

  1. 多様な視覚的特徴表現。あらゆる側面から画像のローカルおよびグローバルな意味情報を記述し、リージョン、グリッド、パッチ、およびその他の視覚的特徴表現を使用して、単一モダリティをより正確に理解します。

  2. 大量のグラフィック データとマルチ粒度の視覚特徴に基づくマルチモーダル事前トレーニングは、より優れたマルチモーダル情報融合とセマンティック マッピング、革新的に提案された SemVLP [3]、Grid-VLP [4]、E2E - VLP などの事前トレーニング モデル [ 5] および Fusion-VLP。

  3. 適応型クロスモーダルセマンティック融合および調整テクノロジーを研究開発し、マルチモーダル事前トレーニング モデルに Learning to Attend メカニズムを追加して、クロスモーダル情報を効率的かつ深く融合します。

  4. 画像内のリッチテキスト情報を含む構造化された事前トレーニングに基づいて、画像と OCR テキストをより適切に融合するために使用され、画像、OCR、およびテキストのマルチモーダル融合のための StructuralLM [6] 事前トレーニング モデルを提案しています。

  5. Mixture of Experts (MOE) テクノロジーを使用して知識主導型のマルチスキル AI 統合を行い、ナレッジ マイニングを使用して AI スキルを独自に発見し、MoE テクノロジーを通じて AI スキルのエキスパートを自動的にマッチングして構築します。

全体的な技術的な詳細に興味がある学生は、論文「Achieving Human Parity on Visual Question Answering」を読むこともできます。この論文では、E2E-VLP [5] と StructuralLM [6] がトップ国際会議 ACL2021 の議長に承認されました。

2021年6月、アリババ・ダーマ・アカデミーは55の応募チームの中からVQAチャレンジ2021で優勝し、2位を1パーセントポイントリードし、昨年のチャンピオンを3.4パーセントポイントリードした。

2 か月後、Bodhidharma は VQA リストで新たな重要な進歩を遂げ、正解率81.26%で VQA リーダーボードの世界記録を樹立し、人間のベースラインである 80.83% を初めて超えました。

AIが人間のレベルを超えたのはVQAテスト以来初めてであり、大きな進歩だ。これは、2015 年と 2018 年にそれぞれ視覚認識とテキスト理解の分野で AI が人間を超えた後、視覚とテキストのマルチモーダル理解という高度な認知を伴うマルチモーダル テクノロジーの分野における大きな進歩です。この進歩は、MITテクノロジーレビュー「2021年人工知能イノベーション研究機関報告書」に主要な技術的ブレークスルーとして掲載されました。

4. アプリケーションの顧客とシナリオ

4.1 新しい小売スマート顧客サービス 

4.1.1 DianXiaomi

⍟ 4.1.1.1 VQA

Dianxiaomi では、購入者が質問すると、Dianxiaomi は購入者の意図を認識し、対応する販売者設定の回答をナレッジ ベースから見つけてユーザーに返信します。このプロセスでは、販売者が回答を手動で構成する必要があるため、初期コストが高くなります。この問題点に基づいて、商品詳細ページのグラフィックとテキスト コンテンツを使用して質問に回答することが提案されています。これにより、販売者の回答構成コストが削減され、初期コストが削減されるだけでなく、購入者の購入意欲も促進されます。購入して問い合わせのコンバージョン率を高めます。

そこで、グラフィックの事前トレーニングやその他の技術に基づいて、商品詳細ページの画像に対する質疑応答機能を開発しました。購入者の質問に応じて、商品詳細ページから最適な画像を見つけて、それをハイライト表示します。特定の回答領域。購入者に返信します。

現在、DianXiaomi の業界全体のアプリケーションがサポートされており、オープンした加盟店の解決率と変換率が大幅に向上しました。ユーザーエクスペリエンスが向上するだけでなく、販売者の知識維持コストも大幅に削減されます。

⍟ 4.1.1.2 ビデオ Q&A

商品のライブ配信は新しいビジネス モデルとなっています。商品を紹介するライブ ブロードキャストを開始する加盟店が増えています。ライブ ビデオには豊富な商品説明、商品詳細、上半身のエフェクトなどが含まれており、これらのライブ ブロードキャストはベースに基づいて自動的に切り取られます。ビデオ クリップでユーザーに返信すると、販売者がビデオを編集するコストを節約できるだけでなく、質問により鮮明かつ具体的に答えることができ、ユーザー エクスペリエンスが向上します。

この考えに基づいて、ライブ映像の構造を理解することを核として、テキスト理解技術と映像理解技術を組み合わせて、ライブ映像の Q&A 機能を開発しました。全体の計画を少しご紹介すると、まず製品に対応する完全なライブビデオクリップを取得し、テキスト理解技術に基づいて意図認識と固有表現認識を行う 2 つの方法に基づいて構造を理解します。ビデオ ASR テキスト。Xiaomi は、各テキスト セグメントの意図とスロット値を識別するための完全なインテント システムとエンティティ カテゴリ システムをすでに備えています。2 つ目は、ビデオ理解テクノロジに基づいており、最初にビデオ テキストの事前トレーニング モデルを通じて、要件を満たす粗粒度のビデオ クリップを作成し、ビデオ グラウンディング テクノロジに基づいてより細かい時間間隔を特定します。上記の 2 つの方法を通じて、構造化されたビデオ クリップを販売者のビデオ回答としてマイニングできます。マルチモーダルビデオを理解するために、私たちはいくつかの革新と改良を加え、強力なグラフィック事前トレーニングモデルに基づいたビデオテキスト検索タスクの一連の効果的な方法を検討し、ビデオのみを使用するマルチインスタンス学習アイデアを提案しました。レベルの監視情報により、クリップレベルの洗練されたビデオ グラウンディング ポジショニング機能が実現されます。

⍟ 4.1.1.3 製品レビューに関する質問と回答

販売者の顧客サービスの質問と回答に購入者のコメントを適用するには、大きな課題があります。きめ細かい感情分析、時間に敏感な談話の差別化、低情報コンテンツのフィルタリング、および不確実な談話の差別化によるコンテンツのリスク管理に加えて、マルチソースの異種コンテンツの競合検出と統合は、マーチャントの自社制作コンテンツ (顧客サービス FAQ 知識、製品詳細マップ、製品属性、マーチャントのライブ ブロードキャスト コンテンツなど) と組み合わせて実行され、このコンテンツの可用性を確保します。内容の一部。

  • Smart Live Room での製品 Q&A

ライブ ブロードキャスト電子商取引の台頭により、スマート ライブ ブロードキャスト ルームのバーチャル アンカーが質問と回答をやり取りできる機能が不可欠になり、バーチャル アンカーが製品やサービスに関するユーザーの販売前相談の質問に効率的に回答できるようになります。コンバージョンを改善します。ただし、販売者の製品が多数あるため、販売者が FAQ を 1 つずつ設定できるようにすることはできません。製品レビュー、製品詳細ページなど、商品に基づいた既製のマルチソースの異種混合およびマルチモーダル コンテンツを提供する必要があります。 、専門家記事など、販売者の設定に依存せずにすぐに使用できる製品 Q&A 機能により、仮想アンカー音声ブロードキャスト + 字幕/印刷表示 + カンバン画像の組み合わせを組み合わせたマルチモーダル Q&A エクスペリエンスが作成されます。これまでの伝統的なオンラインインテリジェントカスタマーサービスと比較して、ライブブロードキャストルームでの質疑応答にもいくつかの新しい特徴があり、たとえば、アンカーは1対多の質疑応答のタイミングを判断する必要があります。製品コンテンツの放送中に質問に答えたり、その回答を口語で放送したりすることは、ライブ放送室での Q&A に新たな課題と機会をもたらします。

4.1.2 アリババグループのインテリジェントな顧客サービス

DeepQA テクノロジー システムは、オンライン チャネルとホットライン チャネルをカバーするグループの数十の BU のインテリジェント サービスをサポートし、FAQ の質問と回答は市場のビジネス トラフィックのほとんどをサポートします。シングルラウンド Q&A 効果の継続的な最適化により、消費者の Q&A エクスペリエンスのボトルネックは、曖昧な質問の処理に徐々に移行していきます。FAQ の質問と回答に対する複数回の理解と明確化のガイダンス。新しい小売業者、電子商取引プラットフォーム、地域生活などの多くの分野をサポートするだけでなく、ホットラインの口語シナリオ、動的なショートカット フレーズ予測、画像の質問と回答、FAQ の知識分類もサポートします。マッチング、回答のない推奨シナリオ、その他多くのシナリオ。小規模顧客のアクセスのために、複数ラウンドの質疑応答機能を低コストで迅速に有効にすることができ、消費者サービス エクスペリエンスが向上しました。たとえば、Hotline Xiaomi は、複数ラウンドのセマンティック モデリング、複数ラウンドの質問書き換え、明確化と修辞的な質問、明確化と確認、複数ラウンドの対話ステータス管理、複数ラウンドの FAQ の質問と回答機能を提供し、質問の回答率を効果的に向上させます。システム。

4.1.3 海外顧客向けのインテリジェントな顧客サービス

英語、ロシア語、スペイン語、フランス語、日本語、アラビア語、韓国語、ポーランド語、ポルトガル語、タイ語、インド語、日本語など22の言語をサポートする多言語質疑応答技術システムを通じて、中国国内のインテリジェントサービス機能を世界に拡大します。ベトナム人、アリグループを許可 Lazada、AliExpress、Daraz、その他の国際的なビジネスユーザーはインテリジェントサービスの時代に入っています。多言語アルゴリズムプラットフォームの構築に基づいて、新しい小さな言語を2週間以内に拡張でき、全体的な解決率はすでに中国語に匹敵します。

言語の急速な拡大に加え、本物の現地語理解をサポートするには現地文化を深く掘り下げる必要もあり、現在はマレーシア、タイ、パキスタンなどで現地の習慣に合わせた混合言語スタイルをサポートしている。中東や南アジアの一部の言語入力方法は完璧ではないため、現地ユーザーはオンライン通信時にローマ字化されたピンインを使用して入力することがよくありますが、システムはオリジナルのウルドゥー語、英語、ローマ字化(ピンイン)ウルドゥー語を同時にサポートする必要があります。 3つの言語のうち。

4.2 クラウド上のインテリジェントな顧客サービス

達磨学院の新世代ヒューマン・コンピュータ対話技術システムは、政府業務シティブレイン(政府サービスネットワーク、12345ホットラインロボットなど)、金融(銀行、保険、証券など)を含むアリババクラウドのインテリジェント顧客サービス事業にサービスを提供し、全面的にサポートしてきました。 、等)、交通(高速ETC、港湾等)、エネルギー(電力網、ガス、水道、熱等)、医療(医療保険、健康管理、慢性疾患管理等)、事業者(電話代、交通費など)。現在、Alibaba Cloud スマート カスタマー サービスは、国内外の 1,000 社を超える企業や機関に会話型 AI 関連サービスを提供しており、製造、小売、金融、運輸、運輸、交通機関など 20 近くの業界で成熟したソリューションと顧客事例を蓄積しています。通信、政府事務。

IDCが半年ごとに発表する「中国AIクラウドサービス市場調査報告書」では、アリババクラウドのインテリジェントカスタマーサービスは2019年以来、中国の会話型AIクラウドサービス市場シェアで第1位にランクされている。国際的に権威ある研究機関であるIDCは、2021年10月に「IDC MarketScapeグローバル会話型AIプラットフォームベンダー評価レポート」を発表し、低コストの知識構築、ローコードの視覚的操作、自己学習型セマンティックモデルなどの製品技術的優位性を評価しました。蓄積されたフィールド経験と豊富なシナリオでのアプリケーションが、IDC グローバル マーケットスケープ レポートで初めて選ばれ、メジャー プレーヤーの地位を獲得しました。

4.2.1 官公庁業界

政府関係の分野では、典型的なビジネスは 12345 ホットラインです。社会保障照会、ETC、戸籍管理、入退出管理、住宅保障、積立金フルボイスポータルなど幅広いシナリオをカバーします。

4.2.2 銀行業界

デジタル経済の時代において、サービスを人間のエージェントのみに依存する従来の方法では、金融機関の顧客サービスのニーズを満たすことが徐々に困難になってきています。インテリジェントな顧客サービスを通じて人工エージェントに権限を与えることは、一方では人工エージェントの個人的価値を高め、離職率を低下させます。他方では、顧客サービスへのアクセス効率を向上させ、金融業界の重要な要求であるユーザーエクスペリエンスを向上させます。機関。Bodhidharma Academy の強力な会話 AI 機能、音声認識機能、AIC テクノロジーは、インテリジェントな支援やインテリジェントなトレーニングを含むコーチング ロボットを作成し、多くのトップ銀行を顧客とする AI 機能プラットフォームを構築しました。

4.2.3 エネルギー産業

エネルギーおよびインフラ分野: 新規設置、請求、障害報告、メンテナンス、苦情およびその他のシナリオ、チャネル カバレッジ ホットライン、WeChat、Alipay およびその他のチャネル、ガス、水道、熱、電気などを実行するフルリンク サービス プラットフォームを構築します。さまざまな都市で再利用されています。

4.3 社会的責任: エピデミックアウトバウンドプラットフォーム

感染症が発生したばかりのとき、達磨アカデミーのチームは、感染症のアウトバウンドプラットフォームを作成することで政府がいくつかの問題を解決できるようにしたいと考え、行動を起こしました。このプラットフォームは 5 日間で迅速に構築され、全国で普及が開始され、2020 年 3 月 31 日の時点で 27 の州で使用され、政府による 1,000 万件以上の発信に貢献し、完了率は 90 を超えています。 %. 人民日報オンラインの「人民の流行との戦い」で最優秀賞を受賞。

5. 新世代の人間と機械の対話の将来展望

過去 2 年間で、達磨研究所のインテリジェント対話サービス チームはテクノロジーとビジネスにおいて大きな進歩を遂げてきましたが、人間と機械の対話能力は現在どの段階にあるのでしょうか? 今後どのような方向に発展していくのでしょうか?

このため、5 レベルの自動運転システムを参考に、主に次の 3 つの側面からマンマシン対話能力の 5 レベルの基準を定義します。 1. シーンの制限とオープン性。 2. 人間と機械の対話には、3. 対話能力が事前に定義されているか、または継続的な学習と進化が可能であるかどうかが含まれます。5 レベルの標準システムは次のように定義されます。

  • L1: 制約されたシナリオ、単一言語、単一モダリティ、事前定義されたダイアログ

  • L2: セミオープンシーン、単一言語、単一モード、事前定義されたダイアログ

  • L3: セミオープンシーン、多言語、マルチモーダル、事前定義されたダイアログ

  • L4: セミオープンシーン、多言語、マルチモーダル、生涯学習型対話ロボット

  • L5: 完全オープンシナリオ、多言語、マルチモーダル、生涯学習型対話ロボット

この規格によれば、業界におけるマンマシン対話は基本的に L1 と L2 の間で行われます。今後 3 年間で、人間と機械の対話は、制限されたシナリオからセミオープンなシナリオに、単一モダリティから音声 + 言語 + 視覚 + 感情を統合するマルチモダリティに徐々に拡張され、対話機能は事前定義されたものから、生涯学習、対話ロボット、L3~L4へ進化。

L5 を達成するには、完全にオープンなシーンで言語のギャップやモーダルの制限を越えてマシンが人間と自由にコミュニケーションできるようにするために、DAMO アカデミーのインテリジェントな対話およびサービス チームによる粘り強い研究と探求が依然として必要です。

人間とコンピューターの対話、ナレッジ グラフ、インテリジェントな質問応答、マルチモーダルな人間とコンピューターの対話、および仮想空間シーンの人間とコンピューターの対話に興味のある才能のある方の参加を心から歓迎します。

達磨学院の知的対話と奉仕に関する論文

1.

yingpei Dai、Hangyu Li、Yongbin Li、Jian Sun、Fei Huang、Luo Si、Xiaodan Zhu. プレビュー、出席、レビュー: マルチドメイン対話状態追跡のためのスキーマ認識カリキュラム学習. ACL-IJCNLP 2021

2.

Che Liu、Rui Wang、Jinghua Liu、Jian Sun、Fei Huang、Luo Si. DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings、EMNLP2021

3.

Wanwei He, yingpei Dai, yinghe Zheng, Yuchuan Wu, Zheng Cao, Dermot Liu, Peng Jiang, Min Yang, Fei Huang, Luo Si, Jian Sun, Yongbin Li. GALAXY: タスク指向ダイアログ用の生成事前トレーニング モデル半教師あり学習と明示的ポリシー注入を使用、AAAI 2022

4.

Binyuan Hui、Ruiying Geng、Qiyu Ren、Binhua Li、Yongbin Li、Jian Sun、Fei Huang、Luo Si、Pengfei Zhu、Xiaodan Zhu、クロスドメインのコンテキスト依存セマンティック解析のための動的ハイブリッド リレーション ネットワーク、AAAA 2021。

5.

Guanglin Niu、Yang Li、Chengguang Tang、Ruiying Geng、Jian Dai、Qiao Liu、Hao Wang、Jian Sun、Fei Huang、Luo Si. 少数ショットのナレッジ グラフ完成のためのゲート付きおよび注意深い近隣アグリゲーターによるリレーショナル学習、SIGIR2021

6.

耿瑞英、李炳華、李永彬、孫建、朱暁丹。少数ショットテキスト分類のための動的記憶誘導ネットワーク、計算言語学協会の第 59 回年次総会 (ACL2020)。米国シアトル。

7。

ダイ・インペイ、リー・ハンギュ、タン・チェングアン、リー・ヨンビン、孫建、朱暁丹。迅速かつ信頼性の高いシステム展開のための低リソースのエンドツーエンドの目標指向ダイアログの学習、計算言語学協会の第 59 回年次総会 (ACL2020)。米国シアトル。

8.

Jinghan Zhang、Yuxiao Ye、Yue Zhang、Likun Qiu、Jian Sun。意図分類のためのマルチポイント セマンティック表現、第 34 回 AAAI 人工知能会議 (AAAI2020) の議事録。米国ニューヨーク州ニューヨーク市。

9.

yingpei Dai、Huihua Yu、Yixuan Jiang、Chengguang Tang、Yongbin Li、Jian Sun、ダイアログ管理に関する調査: 最近の進歩と課題、arXiv: 2005.02233

10.

Haitao Mi、Qiyu Ren、yingpei Dai、Yifan He、Jian Sun、Yongbin Li、Jing Zheng、Peng Xu、「Beyond Domain API タスク指向対話の一般化モデルに向けて」、AAAI 2021 DSTC9 ワークショップ。

11.

Yajing Sun、Yong Shan、Chengguang Tang、Yue Hu、yingpei Dai、JING YU、Jian Sun、Fei Huang、Luo Si、エッジ強化グラフ自動エンコーダーによる決定論的対話構造の教師なし学習、AAAI2021。

12.

Bin Fu、Yunqi Qiu、Chengguang Tang、Yang Li、Haiyang Yu、Jian Sun、知識ベース上の複雑な質問回答に関する調査: 最近の進歩と課題、arXiv:2007.13069

13.

ミン・ヤン、ハイヤン・シュー、チェンリャン・リー、ジュンフェン・ティアン、ビン・ビー、ウェイ・ワン、ウェイホア・チェン、Xianzhe Xu、Fan Wang、Zheng Cao、Zhicheng Zhang、Qiyu Zhang、Ji Zhang、Songfang Huang、Fei Huang、Luo Si、 Rong Jin .「視覚的な質問応答における人間の同等性の達成」、arXiv.org、https://arxiv.org/abs/2111.08896

14.

Feng-Lin Li、Zhongzhou Zhao、Qin Lu、Xuming Lin、Hehong Chen、Bo Chen、Liming Pu、Jiashuo Zhang、Fu Sun、Xikai Liu、Liqun Xie、Qi Huang、Ji Zhang、Haiqing Chen、AliMe アバター: マルチモーダルライブストリーミング電子商取引のためのコンテンツ制作とプレゼンテーション [SIGIR2021 Industrial Track]

15.

Guohai Xu、Yan Shao、Chenliang Li、Feng-Lin Li、Bing Bi、Ji Zhang、Haiqing Chen、AliMe DA: コールドスタートシナリオにおける質問応答のためのデータ拡張フレームワーク [SIGIR2021 Industrial Track]

16.

Qianglong Chen、Feng Ji、Xiangji Zeng、Feng-Lin Li、Ji Zhang、Haiqing Chen、ying Zhang、KACE: 自然言語推論のための知識を意識した対照的説明の生成 [ACL2021]

17.

Feng-Lin Li、Hehong Chen、Guohai Xu、Tian Qiu、Feng Ji、Ji Zhang、Haiqing Chen、AliMe KG:電子商取引におけるドメイン ナレッジ グラフの構築と応用、CIKM 2020、応用研究トラック

18.

Haiyang Xu、Ming Yan、Chenliang Li、Bin Bi、Songfang Huang、Wenming Xiao、Fei Huang「E2E-VLP: 視覚学習によって強化されたエンドツーエンドの視覚言語事前トレーニング」、ACL 2021、https:// aclanthology.org/2021.acl-long.42.pdf

19.

Chenliang Li、Bin Bi、Ming Yan、Wei Wang、Songfang Huang、Fei Huang、Luo Si.「StructuralLM: フォーム理解のための構造的事前トレーニング」、ACL 2021、https://aclanthology.org/2021.acl-long。 493/

20.

Chenliang Li、Ming Yan、Haiyang Xu、Fuli Luo、Wei Wang、Bin Bi、Songfang Huang「SemVLP: 複数レベルでのセマンティクスの調整による視覚言語の事前トレーニング」、arXiv.org、https://arxiv.org/ abs/2103.07829。

21.

Ming Yan、Haiyang Xu、Chenliang Li、Bin Bi、Junfeng Tian、Min Gui、Wei Wang「Grid-VLP: 視覚言語の事前トレーニングのためのグリッド機能の再検討」、arXiv.org、https://arxiv. org/abs/2108.09479

22.

ROSITA: クロスおよびモーダル内の知識統合によるビジョンと言語の意味論的整合性の強化Y Cui、Z Yu、C Wang、Z Zhao、J Zhang、M Wang、J Yu [ACM MM 2021]

23.

Xuming Lin、Shaobo Cui、Zhongzhou Zhao、Wei Zhou、Ji Zhang、Haiqing Chen、GGP: 長いテキスト生成の明示的制御のためのグラフベースのグループ化プランナー [CIKM2021]

24.

Guohai Xu、Hehong Chen、Feng-Lin Li、Fu Sun、Yunzhou Shi、ZhiXiong Zeng、Wei Zhou、Zhongzhou Zhao、Ji Zhang、AliMe MKG: ライブストリーミング電子商取引のためのマルチモーダル ナレッジ グラフ [CIKM21 デモ]

25.

Fu Sun、Feng-Lin Li、Ruize Wang、Qianglong Chen、Xingyi Cheng、Ji Zhang、K-AID: 質問応答のためのドメイン知識による事前トレーニング済み言語モデルの強化 [CIKM21 応用トラック]

26.

Fangkai Jiao、Yangyang Guo、Yilin Niu、Feng Ji、Feng-Lin Li、Liqiang Nie、REPT: 検索ベースの事前トレーニングによる言語モデルと機械読解の橋渡し [ACL 2021 Findinds]

27.

Shaobo Cui、Xintong Bao、Xinxing Zu、Yangyang Guo、Zhongzhou Zhao、Ji Zhang、Haiqing Chen、OneStop QAMaker: ワンストップ アプローチでテキストから質問と回答のペアを抽出、[WWW2021]

28.

Yangyang Guo、Liqiang Nie、Zhiyong Cheng、Feng Ji、Ji Zhang、Alberto Del Bimbo、AdaVQA: 適応マージン コサイン損失による言語事前確率の克服、[IJCAI2021]

29.

Zhenxin Fu、Shaobo Cui、Feng Ji、Ji Zhang、Haiqing Chen、Dongyan Zhao、Rui Yan、クエリとセッションのマッチング: マルチターン対話システムの応答選択中に歴史と未来を忘れないでください、CIKM 2020

30.

Runqi Yang、Jianhai Zhang、Xing Gao、Feng Ji、Haiqing Chen、豊富な配置機能を備えたシンプルで効果的なテキスト マッチング、ACL 2019、長編論文

31.

Ming Yan、Jiangnan Xia、Chen Wu、Bin Bi、Zhongzhou Zhao、Ji Zhang、Luo Si、Rui Wang、Wei Wang、Haiqing Chen、複数文書読解のための深いカスケード モデル [AAAI 2019]

32.

Feng-Lin Li、Minghui Qiu、Haiqing Chen、Xingwei Wang、Xing Gao、Jun Huang、Juwei Ren、Zhongzhou Zhao、Weipeng Zhao、Lei Wang、Guwei Jin、Wei Chu、AliMe Assist: 革新的な電子メールを作成するためのインテリジェント アシスタントコマース エクスペリエンス、CIKM 2017 デモ (ベスト デモ賞)

33.

Minghui Qiu、Fenglin Li、Siyu Wang、Xing Gao、Yan Chen、Weipeng Zhao、Haiqing Chen、Jun Huang、Wei Chu、AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine、ACL 2017、短編論文

おすすめ

転載: blog.csdn.net/AlibabaTech1024/article/details/124411686