実践 2.0 におけるテキスト分類の微調整スキル

Xunfei コンテストの弁護は終了しました。著者と私の友人は、いくつかの Xunfei コンテストに参加しました。今年の Xunfei テキスト分類コンテストは、昨年よりも多様化されており、さまざまな分野、タスク、データが含まれています。 big guys 、これまでの経験と次のコンテストの質問を組み合わせて、テキスト分類コンテストの実戦のアイデアを要約します。

1 Xunfei テキスト分類コンテストの質問の概要

1.1 単純なトリアージ チャレンジ 2.0 非標準化疾患請求のトップ 3 スキームの概要

イベントタスク

単純なトリアージには、それを裏付ける特定のデータと経験的知識が必要です。このコンテストでは、Haodofu Online の実際のコンサルテーション データの一部が提供されました。このデータは厳密に感度が制限され、単一カテゴリのタスクの参加者に提供されました。具体的には: テキストによる訴えを処理することにより、20 の一般的な治療指示のうちの 1 つと、61 の疾患指示のうちの 1 つが与えられます。

特徴

  • 分類ラベルは問診の方向と病気の方向の2つで、評価指標はそれぞれマクロf1とミクロf1です。
  • 病気の方向に欠落しているラベルが多数あり、データセット内の値は -1 です。
  • テキスト方向と疾患方向の2つのタグは、例えば、相談方向が「第2子の消化器疾患」、疾患方向が「小児の消化不良」というように、一定の制約関係を有している。
  • データの特性

診療方向別では、内科、小児科、咽頭疾患の受診件数が比較的多く、整形外科、甲状腺疾患の受診件数が比較的少ない。

疾患の方向性表示では内科などが最も多く、子宮鏡下疾患は比較的少ない

データの前処理

(1) テキストフィールドの場合、欠損値は空の文字列「」で直接埋められます。
(2) spo.txt ファイルの場合、テキストに使用される疾患名の最初の列に従って集計テキストが構築されます。セマンティック拡張など

(3) テキストに疾患名が含まれる場合、その疾患に対応する集約テキストを結合し、テキスト情報の露出に従ってテキストを結合します。たとえば、疾患名は患者の疾患カテゴリーを主に特定します。 titleとhopeHelpフィールドが存在します 繰り返しの場合、現時点ではタイトルのみ予約可能です

モデリングのアイデア

まとめ

  • 病気について質問するための知識テキストの使用は、それぞれに主題/(属性)/目的語が含まれており、ラベル学習に効果があります
  • 問い合わせ方向と疾患方向ラベルの共同トレーニングは、ラベルごとに個別にトレーニングされたモデルよりも優れています
  • 擬似ラベル学習により、病気の方向への効果をさらに向上させることができます

チームメイトに感謝: 私の心は氷のように冷たい、江東、pxx_player

1.2 中国語意味文認識チャレンジのトップ 2 スキームの概要

イベントタスク

中国語の意味的エラー認識は、文が意味的エラーであるかどうかを予測するバイナリ分類問題です。意味的エラーは、スペル ミスや文法的エラーとは異なります。意味的エラーでは、文の意味的レベルの合法性にさらに注意が払われます。意味的エラーの例を次の表に示します。

特徴

  • このコンテストで使用されるデータの一部はインターネット上の小中学校の問題バンクから取得され、一部は手作業による注釈から取得されます。間違った文認識を行う。
  • ラベルの分布が特殊でデータ量が比較的多く、1のデータは0の約3倍です。
データの前処理
  • 競技中に、プレイヤーはこのデータの方が適合しやすいことがわかります。データの一部を分析すると、類似したデータや、重複するデータさえあります。そのため、重複データをフィルタリングしてラインを減らす必要があります。違い。
  • 多重層化サンプリング

モデリングのアイデア

  • 実験中、macbert や誤り訂正機能を備えたモデルを選択するなど、いくつかの中国語の事前トレーニング モデルを試しました。良い結果は macbert と electra です。
shibing624/macbert4csc-base-chinese
hfl/chinese-macbert-base、hfl/chinese-macbert-large
nezha-large-zh
hfl/chinese-electra-large-discriminator
hfl/chinese-roberta-wwm-ext

まとめ

  • 中国語の誤文認識のための事前学習ベースの基本的な選択はより重要であり、その中でもelectraとmacbertが優れていますが、その他の大手企業は即時学習モデルとpertモデルを使用しています。
  • データ重複排除により回線の差を削減できる

チームメイトに感謝します: Jiangdong、A08B06365ECB216A

1.3 人材マッチングチャレンジ上位2スキームの概要

競技課題

インテリジェントな求人マッチングにはサポートとして強力なデータが必要です。このコンテストでは、トレーニング サンプルとして多数の JD と求職者の履歴書の暗号化および非感作データが提供されます。出場者は提供されたサンプルに基づいてモデルを構築し、履歴書と求人が一致するかどうかを予測する必要があります。ではありません。

データの前処理

このコンテストでは、出場者に多数の JD および求職者の履歴書を提供します。その中には次のようなものがあります。

  • ジョブ JD データには、job_id、役職、ジョブの説明、ジョブ要件の 4 つの機能フィールドが含まれています。

  • 求職者の履歴書データには 15 の特徴フィールドが含まれています。

id, 学校类别, 第一学历, 第一学历学校, 第一学历专业, 最高学历, 最高学历学校, 最高学历专业, 教育经历, 学术成果, 校园经历, 实习经历, 获奖信息, 其他证书信息, job_id。

  • トレーニングセットでは、job_id の数が以下のように分布しており、ジョブ 4 と 12 の数が最も多く、ジョブ 38 と 37 の数が相対的に少ないことがわかります。

モデリングのアイデア

  • 語彙構築
    このコンテストのデータは匿名データであるため、オープンソースの中国語事前学習モデルは適用できないため、語彙とコーパスを再構築し、事前学習モデルを再学習する必要があります。語彙は、トレーニング セット、テスト セット、および JD データに従って
    、空間セグメンテーションに従ってすべてのテキストをセグメント化し、語彙を構築します。さらに、[PAD]、[UNK]、[CLS] の 5 つの特殊文字を追加する必要があります。 ]、[SEP]、[MASK]、そして最後に語彙のサイズは 4571
  • 学習前コーパス構築
    競合データは匿名データであるため、オープンソースの中国語事前学習モデルは適用できないため、語彙とコーパスを再構築し、事前学習モデルを再学習する必要がある

2 番目のステップは、学校カテゴリー、第一学位、第一学位学校、第一学位専攻、最高学位、最高学位学校、最高学位専攻、教育経験、学力、キャンパス経験、インターンシップを直接分類して、事前トレーニング コーパスを構築することです。経験、受賞情報、その他の証明書情報 これらのフィールドのテキストが結合されて、個人の履歴書の説明が生成されます。

  • 事前トレーニング タスク
    実験中に、Bert と Nezha の 2 つの事前トレーニング モデル構造を選択しました。そのうち Nezha は Bert よりも大幅に優れています。

  • 分類の微調整 求人情報
    照合タスクをテキスト分類タスクとして扱い、履歴書テキストに対して複数分類を実行します。

まとめ

  • 人物や投稿の匿名データを微調整することで、意味論的な知識を効果的に取得し、さまざまな職種を識別できます
  • NEZHA は BERT モデルに基づいており、多くの箇所で最適化されており、一連の中国語の自然言語理解タスクで高度なレベルに達することができます。
  • 古いチームと Juge は異なるアイデアを採用し、多くのインスピレーションを与えました 統計的特徴と従来の NN ネットワークによりテキスト分類がさらに改善されました

チームメイトに感謝: WEI Z/江東/小沢/上司とスープを飲む

最適化アルゴリズム集

以下は一般的なルーチンの一部です。必ずしもすべてのタスクに役立つわけではなく、データセットと事前トレーニングされたモデルに多くの関係があるため、必要に応じて選択できます。

  • FGM
  • EMA
  • PGD
  • フリーLB
  • AWP
  • マルチドロップアウト - ミックス
    アウト

微調整方法のまとめ

テキスト分類に関する微調整のヒントもいくつかありますので、ぜひ追加してください。

  • 階層学習率
  • 多重相互検証
  • 擬似ラベル学習
  • 埋め込みのフリーズ
  • Fp16 混合精度トレーニング

NLP コンテンツをさらに詳しく知りたい場合は、パブリック アカウント ChallengeHub に注目してください。

おすすめ

転載: blog.csdn.net/yanqianglifei/article/details/127926886