入札フィールドでマークされたデータを大規模な中国モデルに追加して、入札フィールドを解析するための Transformer モデルを構築する方法は?

ChatGPT スキーム 1

ここに画像の説明を挿入

入札フィールドでマークされたデータを大規模な中国語モデルに追加し、入札フィールドを解析するための Transformer モデルを構築するには、次の手順を実行します。

  1. 入札に関連するデータを収集してラベル付けします。既存のデータ セットを使用することも、クローラー テクノロジを使用して関連データを取得し、手動でラベル付けすることもできます。データにラベルを付けるには、フィールド名 (件名、入札者など) と対応するフィールドの値にラベルを付ける必要があります。

  2. ラベル付きデータを Transformer モデルのトレーニングに適した形式に変換します。データは、一般的なシーケンス ラベル付けデータセットと同様の形式 (つまり、ラベルごとに 1 行) に変換できます。各ラベルには、単語とそれに対応するラベルが含まれます。次に例を示します。

标的物 O
: O
XXX B-标的物
, O
YYY I-标的物
。 O
投标人 O
: O
ZZZ B-投标人
, O
WWW I-投标人
。 O
……
  1. Hugging Face のトランスフォーマー ライブラリなどのオープン ソースの Transformer モデル ライブラリを使用して、入札フィールドの解析用の Transformer モデルを構築します。事前トレーニング済みの中国の BERT または RoBERTa モデルを使用するか、自分でトレーニングするかを選択できます。

  2. モデルをトレーニングする場合、データ セットは中国語の単語のセグメンテーションと入力エンコーディング (たとえば、BertTokenizer を使用) を受けてから、トレーニングのために Transformer モデルに入力として渡す必要があります。トレーニング時には、NER タスクと Adam オプティマイザーに似たクロス エントロピー損失関数を使用できます。

  3. トレーニングが完了すると、トレーニング済みのモデルを使用して新しい入札テキストを解析し、フィールド名と対応する値を特定できます。シーケンスのラベル付けと同様の方法を使用して、入札テキストをセグメント化し、各単語にラベルを付けて、単語が属するフィールド名と対応する値を取得できます。最後に、対応する値がフィールド名に従って集計されます。

ビングオプション2

ここに画像の説明を挿入

こんにちは、ビングです。Webで見つけた情報に基づいて、ここに私の提案があります:

  • BERT 1などの事前トレーニング済みの中国の大規模モデルを基本モデルとして使用し、入札フィールドでラベル付けされたデータで微調整して、タスクのニーズに合わせることができます。
  • 入札フィールドのラベル付けのタスクは、一連のラベル付けの問題と考えることができます。つまり、入札テキストが与えられた場合、各単語または文字にラベルを割り当てて、プロジェクト名、予算額、入札開始など、それがどのフィールドに属するかを示します。時間等。
  • Transformer 2のエンコーダー/デコーダー構造を使用してモデルを構築できます。ここで、エンコーダーは入力テキストのエンコードを担当し、デコーダーは対応するラベル シーケンスの生成を担当しますBART 3などの変形または改良された Transformer モデルを使用することもできます。
  • モデルの入力に位置エンコーディング 2を含めて、各単語または文字の位置に関する情報を提供し、モデルが言語の順序関係を取得できるようにすることができます。

この情報がお役に立てば幸いです。他にご不明な点がございましたら、お気軽にお問い合わせください。

クロードプラス プラン3

ここに画像の説明を挿入

入札フィールドのラベル付けデータを中国語の事前トレーニング モデルに追加します。フィールド解析モデルを構築する手順は次のとおりです。

BERT、RoBERTa、BERT-wwm などの中国のトランスフォーマー モデルを選択します。ここでは例として BERT-wwm-ext を取り上げます。

テキスト シーケンスと BIO タグ シーケンスを含む、入札フィールドのラベリング データセットを準備します。

BERT-wwm-ext モデルを読み込み、すべてのレイヤーをフリーズし、最後のレイヤーのみを更新します。

BERT-wwm-ext の最後のレイヤーの後に 2 つの新しいレイヤーを追加します。

全結合層、入力は BERT の最後の層の出力、出力次元はラベル数、活性化関数はソフトマックスです。
BIO タグ シーケンスをデコードするための CRF レイヤー。
入札フィールド アノテーション データ セットを BERT-wwm-ext モデル入力に接続し、全結合層と CRF 層が結合ラベルを出力します。

モデルをコンパイルし、BIO でマークされたクロスエントロピー損失を使用し、Adam をオプティマイザーとして選択します。

新しく追加された全結合層と CRF 層のみをトレーニングし、BERT-wwm-ext モデルの他の層をフリーズします。

一定回数のトレーニングの後、検証セットの F1 スコアと正解率を評価し、最適なモデルを選択します。

最終的なモデルはテスト セットで評価され、各入札フィールドの抽出効果が得られます。

ドロップアウトなどの正則化方法の追加、より大きな BERT モデルの使用など、これに基づいて引き続き最適化できます。

このように、BERT-wwm-ext モデルと入札フィールド アノテーション データを使用して、入札フィールド分析用の Transformer モデルを構築できます。大規模な中国語の事前トレーニング モデルによってもたらされる意味表現能力を使用し、これに基づいて微調整することで、良好な結果を得ることができます。

クロードインスタントスキーム4

ここに画像の説明を挿入

入札フィールド分析モデルは、次の手順に従って、中国の BERT などの大規模なモデルで構築できます。

入札公告データを準備し、各公告には、公告の主な内容とそれに対応する入札フィールドも記載されています。発表内容と応札欄の対応関係をトレーニングセットデータとする。

BERT、RoBERTaなどの大型中国モデルを基本モデルに選びます。下流のタスクに合わせて、基本モデルの最初の数層を微調整する必要がある場合があります。

入札タスクの出力レイヤーをベース モデルの最後のレイヤーに追加します。出力レイヤーには、すべての入札フィールド (入札者、資格審査、現場入札評価など) のタグが含まれており、各タグは予測する必要がある精度値に対応しています。

トレーニング データは DataLoader によって処理され、モデルのトレーニングはデータローダーを介して実行されます。損失は​​クロスエントロピー損失です。

訓練したモデルをテストデータ上で展開すると、アナウンスの主要な内容ごとに、モデルはすべての入札マークに対応する精度予測値を同時に出力します。

予測結果と実際のラベルに従って、各入札マークの正解率が計算され、モデルのパフォーマンスが判断されます。

実際のニーズに応じて、モデルを最適化し、調整して精度を向上させることができます。モデルに他の機能 (アナウンス属性、位置機能など) を追加することを検討することもできます。これにより、効果がさらに向上する可能性があります。

上記のプロセスを特定のデータとモデルと組み合わせることで、入札アナウンスのフィールド分析用の Transformer モデルを構築できます。モデルの精度は、トレーニング データの十分性、基本モデルの選択、およびトレーニング済みパラメーターの最適化と調整によって決まります。

ウェン・シン・イーヤン プログラム 5

ここに画像の説明を挿入

入札フィールドでマークされたデータを大規模な中国語モデルに追加し、入札フィールドを解析するための Transformer モデルを構築するには、次の手順に従います。

データの前処理: まず、データのクリーニング、フォーマット変換、特徴抽出など、入札データを前処理する必要があります。中国語の単語のセグメンテーション、品詞のタグ付け、固有表現の認識などのテクノロジを使用して、データの主要な特徴を抽出できます。
特徴エンジニアリング: 抽出された特徴を正規化し、外れ値や欠損値などを削除して、モデルのパフォーマンスと堅牢性を向上させます。
モデル トレーニング: 事前トレーニング済みの Transformer モデルをトレーニングに使用します.BERT、XLNet などの既存の事前トレーニング モデルを使用するか、事前トレーニング モデルを自分で構築できます。
モデル予測: トレーニング済みのモデルを使用して新しい入札データを予測し、予測結果を使用してさらなる分析と意思決定を行います。
実際のアプリケーションでは、データ セキュリティやプライバシー保護、モデルの解釈可能性やスケーラビリティなどの問題を考慮する必要があることに注意してください。さらに、モデルのパフォーマンスと堅牢性を向上させるために、モデルを調整および最適化する必要があります。

バードスキーム6

ここに画像の説明を挿入
入札フィールドでマークされたデータを大規模な中国語モデルに追加し、入札フィールドを解析するための Transformer モデルを構築します。次の手順に従います。

テキスト フィールドと入札フィールドのデータセットを収集します。データセットは、モデルを効率的にトレーニングするのに十分な大きさである必要があります。

データを前処理します。これには、テキストのタグ付け、入札フィールドのタグ付け、ストップ ワードの削除が含まれます。

データセットでの大規模な中国モデルの微調整。これは、転移学習と呼ばれる手法によって実現できます。

固定テスト セットでモデルを評価します。これは、目に見えないデータに対してモデルがどのように機能するかを判断するのに役立ちます。

各ステップに関する追加の詳細を次に示します。

  1. テキスト フィールドと入札フィールドのデータセットを収集する

テキストおよび入札フィールドのデータセットは、次のようなさまざまなソースから収集できます。

オンラインオークションサイト

政府調達ウェブサイト

民間入札プラットフォーム

データを収集するときは、テキスト フィールドと入札フィールドが正確にラベル付けされていることを確認することが重要です。これは、データを手動でラベル付けするか、機械学習モデルを使用してデータを自動的にラベル付けすることで実行できます。

  1. データの前処理

データセットが収集されたら、モデルをトレーニングする前にデータを前処理することが重要です。これには、テキストのタグ付け、入札フィールドのタグ付け、ストップ ワードの削除が含まれます。

トークン化は、テキストを個々の単語またはトークンに分解するプロセスです。これは、モデルがテキストの意味を理解するために必要です。

入札フィールドのタグ付けは、テキスト内の特定の入札フィールドを識別するプロセスです。これは、モデルが入札フィールドを解析する方法を学習するために重要です。

ストップ ワードの削除は、テキストから一般的な単語を削除するプロセスです。これは、モデルのパフォーマンスを向上させるために行われます。

3. データセットでの大規模な中国モデルの微調整

データの前処理が完了したら、データセットで大規模な中国のモデルを微調整します。これは、転移学習と呼ばれる手法によって実現できます。

転移学習は、事前トレーニング済みのモデルを使用して、別のタスク用に新しいモデルをトレーニングできるようにする手法です。この例では、大規模な中国のモデルを使用して、入札フィールドの解析用にモデルをトレーニングします。

モデルを微調整するプロセスは比較的簡単です。モデルにトレーニング データを入力するだけで、モデルは入札フィールドの解析を学習します。

  1. 固定テスト セットでモデルを評価する

モデルを微調整したら、固定テスト セットでモデルを評価することが重要です。これは、目に見えないデータに対してモデルがどのように機能するかを判断するのに役立ちます。

ホールドアウト テスト セットは、モデルのトレーニングに使用されなかったテキスト フィールドと入札フィールドのセットである必要があります。モデルは、ホールド アウト テスト セットの入札フィールドを高い精度で解析できる必要があります。

永続性テスト セットでモデルのパフォーマンスが低い場合は、より多くのデータを収集するか、モデルをさらに微調整する必要がある場合があります。

これがお役に立てば幸いです。

おすすめ

転載: blog.csdn.net/weixin_45934622/article/details/130308303