paper name:How to Fine-Tune BERT for Text Classification?

作者介绍了一下各种可用于文本分类的方法，比如word2vec、GloVe、sentence embeding.Bert在
文本分类任务上大放异彩，但是Bert的潜力还没有被完全发掘出来，所以作者提出几种fine-turning方法
去增强Bert的性能

本文的贡献如下：
· 提出一种针对Bert的通用fine-tune技术。主要包括三个步骤: (1)在任务相关或者领域相关的训练集上
继续train Bert模型，注意此处不是fine-tuning (2)在相关任务上，通过多任务学习优化Bert
` 针对特定任务fine-tuning Bert模型

· 研究测试上述fine-tuning技术对Bert在长文本任务、隐藏层选择、隐藏层学习率、知识遗忘、少样本学习问题上的影响

· 在各种数据集上取得start-of-the-art的效果

pass

pass

Bert中不相同层表示着不同的语义和句法信息，如果针对不同的任务选择不同的层作为特征？选择什么优化方法和学习率最好？

Bert在pre-train阶段利用了大量无监督语料，但是这些语料往往和要预测的任务不相关。数据分布也有可能和目标任务数据分布
不同，所以在目标任务的数据集上继续pre-train,是一个很自然的想法

pre-train模型没有兴起之前，多任务学习已经证明了它在利用不同任务相同知识的优异性能，多任务学习显然对pre-train模型也会有帮助