業界 NER

1. 背景

検索フィールドなどの業界では、テキスト フィールドでのエンティティ認識では、多くの場合、各フィールドでの f1 スコアの高い要件を満たすことに加えて、コスト、効率、およびエンティティが ner によって抽出される下流アプリケーション シナリオの使用を考慮する必要があります。ラベル。クエリーナーの問題には一般に次の特徴があります。

  • 新しいエンティティの数が膨大で、成長率が速い: ビジネス分野は急速に発展しており、新しい店舗、新しい製品、新しいサービス カテゴリが際限なく出現しており、ユーザーのクエリには多くの非標準化された表現が混在していることがよくあります。略語やホットワード (「注意」、「猫を吸う」など) が含まれるため、高精度かつ高カバー率で NER を達成することが大きな課題となります。
  • 強力なドメイン相関: 検索におけるエンティティ認識はビジネス供給との関連性が高い。一般的な意味論に加えて、判断を支援するためにビジネス関連の知識を追加する必要がある。たとえば、「髪を切った」など、一般的な理解は一般化された説明である。エンティティですが、検索ではビジネス エンティティです。
  • 高いパフォーマンス要件: ユーザーが検索を開始してから最終結果がユーザーに表示されるまでの時間が非常に短く、DQU の基本モジュールである NER はミリ秒以内に完了する必要があります。近年、ディープネットワークに基づいた多くの研究や実践により、NER の効果は大幅に向上していますが、これらのモデルは計算量が多く、予測に時間がかかることがよくあります。計算時間に関する NER の要件も、NER の実践において重要な問題であり、大きな課題です。

2.方法

全体のフレームワークは「エンティティ辞書マッチング + モデル予測」の手法を使用して実装されます。

  1. crf スコアラーをトレーニングしてエンティティ ディクショナリの結果をスコアリングし、エンティティ ディクショナリに一致がない場合、または一致結果のスコアが低い場合にモデル予測を実行します。

  2. エンティティ辞書の構築

    1. 事業名、ブランド、カテゴリ名などの構造化情報から取得
    2. マイニング製品の詳細、販売者の紹介などの非構造化テキストでのマイニング。
    3. 新しい言葉の発見
      1. 教師なし: 気密性、自由度指標によるスクリーニング
      2. 監修: 専門家が文法を設計し、ルールがマイニングされる
      3. 遠隔監視: 少数ショット学習
  3. オンライン語彙マッチング戦略

    1. 双方向の最大マッチング

      この戦略は比較的シンプルであり、非常に高い語彙の精度と範囲を必要とします。

    2. crf ワードセグメンテーションの前処理

    3. パターン正規表現の修正

  4. モデル予測

    1. バート蒸留

      ラベルのないデータの量に応じて、対数、分布、および値の近似を使用して抽出を行うことができます。

    2. オンラインモデル予測の高速化

      1. 混合精度
      2. バッチ処理
      3. オペレーターフュージョン
    3. 知識の向上

      1. ラティスとフラットの融合ワード機能を組み合わせる
    4. 2段階のナーの試み

    5. 監視が弱いナー

参考

おすすめ

転載: blog.csdn.net/be_humble/article/details/130490766