ディープラーニングにおける事前トレーニングモデルと金融テキストセンチメント分類タスクの概要 (図による説明)

純粋に教師あり学習の欠点

事前トレーニング済みモデルとは

 

事前学習モデルの進化プロセスは次のとおりです

 

GPT モデルによって書かれた最初の学術論文

昨年末に世界中で流行したchatgptモデルをベースにしたモデルは皆さんも聞いたことがあるのではないでしょうか?

 キーワード生成 ペイントツール ディスコ拡散

EasyNLP: 大型モデルと小型サンプルのランディング技術

もちろん、これはモデルの精度に必然的に影響しますが、コストと精度のトレードオフになります。

 

パラメータスケールの開発傾向

 現在のchatgptの効果から判断すると、パラメータ増加の効果はまだ良いですが、パラメータがある程度大きくなるとパラメータ増加による限界利益も大きくなります。アルゴリズムまたはアーキテクチャの画期的な進歩

 BERTologyに基づく拡張モデル

1 番目、2 番目にチューニング、3 番目に圧縮、4 番目に知識の強化、5 番目に意味的認識、6 番目に言語固有、7 番目に多言語およびクロスリンガル、8 番目にマルチモーダルおよびクロスモーダル、8 番目にタスク固有、9 番目に特定の分野、11 番目に特定の分野堅牢性、12番目のセキュリティ、そして融合モデル

大規模分散型並列トレーニング ツールキット

比較の観点は以下の通りです

 大規模エンベディング ソリューション ——OneEmbedding

コンピュータの構成原理やオペレーティング システムを学んだことがある学生なら、この図によく馴染みがあると思いますが、上位層は高速に実行されますが、高価で容量も小さいため、キャッシュなどの戦略を導入しました。

センチメントと金融市場の浮き沈みの相関関係

 2020 年 1 月の中国投資家センチメント指数

有名な格言通り、金よりも情報が重要であり、投資家心理が市場動向に大きな影響を与える

 投資家心理サイクル

 中国投資家センチメント指数の構築方法

 ネットワーク全体が、すべての上場企業の投資家心理に関連するテキストビッグデータを収集します。2008年7月から2018年5月までに約1億5千万件のテキスト情報が収集された。中国語の単語分割テクノロジーを使用して、テキストの単語分割処理を実行します。Word2Vec テクノロジーを使用して、テキスト内の単語がベクトル化されます。外国の LM 辞書 (Loughran and McDonald, 2011) については、翻訳と検査に翻訳ツールが使用され、中国語版の LM 辞書が構築されます。

上海と深センの 300 銘柄のうち 200 銘柄を選択し、各銘柄に対して 200 のディスカッション投稿を選択します。北京大学国立発展学院の教授、優秀な博士課程および修士課程の学生、市場投資家で構成される手動タグ付けチームが、これらの 40,000 件の投稿に手動でタグ付けしました。二人は独立してテキスト情報にマークを付け、その内容に応じて肯定的、否定的、不確実なカテゴリに分類し、各投稿に含まれる肯定的キーワードと否定的キーワードを同時にリストアップしました。ラベリングが完了したら、投稿を一貫したラベリングと分類で保持し、ラベリング結果に従って中国金融センチメント辞書 (GB) を構築し、中国金融市場の投資家センチメント ラベリング セットを取得します。...最適なトレーニング済みモデルをすべてのテキスト データに適用し、各投稿のセンチメント スコアを計算します。対応する基準に従ってさまざまな株式投稿の感情スコアを合計し、さまざまな指数システムの投資家感情指数を構築します

FinBERT: 事前トレーニングされた金融言語表現モデル

Jane Entropy Technology FinBERT 1.0 モデル 

初のオープンソースの中国 BERT 事前トレーニング モデルは、中国の金融分野の大規模コーパスでトレーニングされました。Google がリリースしたネイティブ中国語 BERT、ハルビン工業大学 Xunfei 研究室のオープンソース BERT-wwm および RoBERTa-wwm-ext モデルと比較して、オープンソース FinBERT 1.0 事前トレーニング モデルは、下流タスクで顕著な結果を達成しました。追加の調整を行わずにパフォーマンスが向上し、F1 スコアが少なくとも 2 ~ 5.7 パーセント ポイント増加しました。

蘭州科技財務版孟子モデル 

2021 年 7 月 12 日、蘭州テクノロジーイノベーションワークスチーム、上海交通大学、北京理工大学およびその他の部門によって共同開発された中国語モデル - 孟子の軽量モデルは、パラメータが 10 億しか含まれておらず、中国語のベンチマークです中国語理解(中国語理解評価、CLUE)が総合リーダーボード、分類課題リーダーボード、読解リーダーボードで1位にランクイン

Baidu Wenxin・NLP 大規模モデル金融フィールド モデル 

ERNIE-Finance は、大量の金融分野のテキストと一般的なテキストでトレーニングされており、モデルが豊富な金融分野の知識を学習し、金融の質問応答や金融イベントの件名抽出などの一連の金融分野のタスクを大幅に向上させることができます。ERNIE-Finance 金融ドメイン モデルは、膨大な金融データから金融ドメインの専門知識を学習しており、複数の金融ドメイン タスクにおいて一般的なモデルよりも大幅に優れています。金融テキストの分野における ERNIE の効果を向上させるために、ERNIE-Finance は、モデルの最上位構造がトレーニング中に金融ドメインの知識を学習できるように、マルチデータ ソース、マルチタスク モデルの分岐戦略を提案しています。最下位構造は財務テキストと一般テキストから同時に情報を取得できます。

投資家センチメント指数は上海総合指数の利回り動向を予測する 

まず、BERT モデルと株価指数のコメント テキスト、および Baidu Index の検索ボリュームセンチメント インデックスに基づいて、投資家センチメント インデックスを構築します。次に、LSTM-CNNを2つの感情指数と利回りの複数情報入力の形で使用して、上海株価指数利回りのプラスとマイナスの傾向を予測および分析すると、381営業日以内に、以下に基づいて超過リターンの20.15%を取得できます。戦略上ですが、最大リトレースメントは5.64%と高いです

BERTセンチメントエクストラクター株価指数予測

著者は、BERT をマルチタスク学習 (マルチタスク学習、MTL) に使用し、ニュース報道の感情と価値を抽出し、時間の経過に伴う感情の極性の測定方法 (Polarity-Over-Time、POT) を使用してニュースを比較します。指数トレンドの方向性に関する見解は、BERT を使用して、非常にポジティブ (非常にポジティブ)、ポジティブ (ポジティブ)、ニュートラル (中立)、ネガティブ (ネガティブ)、非常にネガティブ (非常にネガティブ) の 5 つのカテゴリーに分類されます。来週の株価指数トレンドを予測する +POT+MTL モデル

作成するのは簡単ではありませんが、役立つと思いますので、いいね、フォロー、収集してください~~~

おすすめ

転載: blog.csdn.net/jiebaoshayebuhui/article/details/130395232