深度学习中预训练模型与金融文本情绪分类任务概述(图文解释)

纯监督学习的不足之处

什么是预训练模型

 

预训练模型的演进过程如下

 

GPT模型撰写的第一篇学术论文

去年年底火爆全球的chatgpt模型想必大家都听说过,正是基于这个模型

 关键词生成绘画工具Disco Diffusion

EasyNLP:大模型小样本落地技术

当然这样势必会影响模型精确度,但是算是成本与精确度之间的tradeoff

 

参数规模发展趋势

 就目前chatgpt的效果来看,增加参数的效果还是不错的,但是同样的当参数大到一定程度后再增大参数边际效益递减严重,这时也许要寻求算法或架构上的突破

 基于BERTology的扩展模型

第一,调优 第二,压缩 第三,知识增强 第四,语义感知 第五,特定语种 第六,多语种和跨语种 第七,多模态和跨模态 第八,特定任务 第九,特定领域 第十,鲁棒 第十一,安全 第十二,融合模型

大规模分布式并行训练工具包

各方面对比如下

 大规模 Embedding 方案—— OneEmbedding

学习过计算机组成原理和操作系统的同学们对这幅图想必十分熟悉,上层执行速度快,但是成本贵并且容量小,因此我们引入了cache等策略

金融市场中情绪与涨跌走势的相关性

 2020年1月中国投资者情绪指数

就好比那句著名的话:信息比黄金还重要,投资者的情绪对于市场的走势影响是非常大的

 投资者情绪周期

 中国投资者情绪指数构建方法

 全网收集关于全部上市公司的投资者情绪相关的文本大数据。时间上从2008年7月开始,截止至2018年5月已收集约1亿5千万条文本信息。 利用中文分词技术对文本进行分词处理。 利用Word2Vec技术,将文本中的词语向量化。 对于国外的LM词典(Loughran和McDonald, 2011)运用翻译工具进行翻译和检查,构建中文版的LM词典。

在沪深300成分股中,选取200只股票,并对每只股票选取200条讨论帖子。由北京大学国家发展研究院教授、优秀博士和硕士生、市场投资者组成人工标注团队,对这4万条帖子进行人工标注。两人独立标注一条文本信息,根据其内容将其分为正、负、不确定三类,同时对每条帖子列出其包含的正、负关键词。标注完成后,保留标注分类一致的帖子,根据标注结果构建中国金融情绪词典(GB),并获得中国金融市场投资者情绪标注集。 …… 将训练好的最优模型应用到全部文本数据中,计算每个帖子的情绪得分。将不同股票帖子的情绪得分按照相应标准进行加总,构建不同指标体系的投资者情绪指数

FinBERT:预训练金融语言表征模型

简熵科技FinBERT 1.0模型 

国内首个在金融领域大规模语料上训练的开源中文BERT预训练模型。相对于Google发布的原生中文BERT、哈工大讯飞实验室开源的BERT-wwm 以及 RoBERTa-wwm-ext 等模型,本次开源的 FinBERT 1.0 预训练模型在多个金融领域的下游任务中获得了显著的性能提升,在不加任何额外调整的情况下,F1-score 直接提升至少 2~5.7 个百分点

澜舟科技金融版孟子模型 

2021年7月12日,澜舟科技-创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型——孟子轻量型模型,仅包含10亿参数量,中文语言理解评测基准(Chinese Language Understanding Evaluation, CLUE)总排行榜、分类任务排行榜和阅读理解榜上登顶第一

百度文心·NLP大模型金融领域模型 

ERNIE-Finance在海量金融领域文本和通用文本上进行训练,使得模型学习了丰富的金融领域知识,在金融问答,金融事件主体抽取等一系列金融领域任务上提升显著。 ERNIE-Finance金融领域模型,从海量金融数据中学习了金融领域专业知识,在多个金融领域任务上大幅优于通用模型。为提升 ERNIE 在金融文本领域的效果,ERNIE-Finance 提出了多数据源,多任务模型分支策略,使模型在训练过程中顶层结构学习金融领域知识,底层结构可以同时获得来自金融文本和通用文本的知识

投资者情绪指数预测上证指数收益率趋势 

首先,基于BERT模型和股吧评论文本构建投资者情绪指数,并基于百度指数的搜索量情绪指数。然后,利用两个情绪指数和收益率多信息输入形式的LSTM-CNN对上证指数收益率的正负趋势进行了预测分析,在381个交易日内,基于策略可以获取20.15%的超额收益,但其最大回撤高达5.64%

BERT情绪提取器股票指数预测

作者采用 BERT 进行多任务学习(multi-task Learning, MTL),提取新闻报道到中的情绪和价值,并使用情绪极性随时间变化的度量方法(Polarity-Over-Time, POT )把新闻对股票指数走势方向的看法分为五类:非常积极(very positive)、积极(positive)、中性(neutral)、消极(negative)和非常消极(very negative),使用BERT+POT+MTL模型预测下周股票指数走势

创作不易 觉得有帮助请点赞关注收藏~~~

猜你喜欢

转载自blog.csdn.net/jiebaoshayebuhui/article/details/130395232