师兄讲座的总结

2019年12月30日，师兄回到学院和实验室分别做了报告，以下是报告的个人总结。

总结

2019年12月30日

DeepCamp 每年一次，全世界范围内招录本科生、硕士生和博士生，进行为期五周的夏令营训练。师兄在该夏令营中做了讲席。

要有作第一名的决心，First or the others（除第一名以外，剩下的都是其他），要有毅力、持续性和坚持的品质。

提出 IBM 1~5 机器翻译模型的团队，后来集体从 IBM 离职，去华尔街创办了文艺复兴对冲基金。（数学之美也提到过文艺复兴基金）

现在是百年一遇的发展机遇。

NNLM 是最早面向 NLP 的神经网络模型。

Pre-trained Model 在各项 NLP 任务上都远超针对具体任务的调参方法。

{1.迁移学习可以使得模型的泛化能力如此强大？2.我是实验室最早关注迁移学习的人之一（可能要去掉“之一”），当时就想着迁移学习如何应用于 NLP，但是时隔一年后 BERT 才横空出世，说明上帝使得我对技术的发展趋势具有一定的预测性}

Fine-Tune的经验：1. 考察收敛速度；2. 当 Loss 单调递减时即认为 FT 可以结束了。

强化学习其实是在做搜索，目标不是当前状态，而是等待后期的反馈。

ZPar 是性能最高的句法分析工具。{ZPar （https://github.com/frcchang/zpar）是西湖大学博士生导师张岳（https://frcchang.github.io/）于2011年的作品}

2019年12月31日

OpenNMT 是自然语言生成加机器翻译为一体的框架。

生成模型的训练数据至少要在 1w 条以上。

师兄带的实习生必须要在 3 个月内完成一篇顶会的研究工作。

论文是作者与审稿人思想交流的载体，每个图、每个表乃至整篇文章的排版都需要讲究美学。

论文的基本要素，1.超过SOTA；2.有自己的见解。

CV 是感知智能、NLP 是认知智能。

关注 ML 领域的发展，要以技术驱动研究，不要脱离应用来做研究，要时刻想着技术落地。

做研究，case study 非常重要！做研究之前，要先看数据集长什么样；研究着手的顺序应该是：数据->问题->模型->方法。

事理图谱。（知识图谱反应的是实体之间的关系。事理图谱可以表示一件事情的前因和后果。哈工大最先提出事理图谱的概念https://arxiv.org/pdf/1907.08015.pdf，应用于金融领域 http://eeg.8wss.com/main）

师兄：做 NLP 就是在做机器模拟人的研究。

预训练模型是当代 NLPer 的必备技能和工具。

Zen 的启示：中文 NLP 与英文 NLP 不一样

Zen：n-gram 是基于统计的方法，从文本中自动学习得到的。（既然 n-gram 是自动学习而来的，那么一定会存在一个阈值来控制 n-gram 生成的粒度和数量，这是一个超参数，而且自动学习的方法不一定能使得 n-gram 生成的足够准确。可以考虑融入知网来进一步提升 n-gram 生成的质量）

Zen：图 A 与 BERT 完全一样，只是加了右边的 n-gram 模块，如图 B 所示。

蔡：渐进式学习

BERT 时代的研究出路：1.可以不改 pre-trian 改 fine-tune；2.LSTM 等文章一定要把 BERT 的结果加入进来；3.LSTM 等相关工作可以继续做

搞科研必备两种能力：1.编程能力，数据结构与算法的基础扎实非常重要；2.读论文的能力，要能快速地检索论文中有用的信息。

好奇心是使得一个人从普通到优秀的关键品质。

如何在学术的道路上成功：有人带着走、跟同伴一起走、有人沟通一起进步。

师兄领导的团队维护的 Paper List：https://github.com/SVAIGBA/paper_list

学习的方法论：对研究领域建立起框架，要有系统性地认识，由此可以将新的知识快速地归档和理解。（基于这样的认知，读 NLP 综述类的学术书籍就显得十分重要，比如《基于深度学习方法的自然语言处理》https://book.douban.com/subject/30236842/）

2020年1月1日

OpenNMT 是个很好的基线系统。

wmt16 数据集最为常用。

数据预处理是 MT 最关键的步骤，决定了 BLUE 的大致分布。

t2t 就是 tensor2tensor。

PyTorch 在师兄的团队中大量地在用，原因之一就是比较适合做分布式运算。

Zen 代码包含了 Transformer 的主体和入口程序。

Zen 的 modeling.py 555~578 行就是在调用 Transformer。（其实就是 forward 函数）

Bert 只是 Encoder，Attention is all you need 论文阐述的框架是 Encoder + Decoder。

复现 MT 系统的经验：如果系统在中-英翻译上无法复现论文的结果，则可以先跑英-德翻译来确定系统是否的稳定的。

Case Study 非常重要，是发现研究问题的关键步骤。

Google 和 FaceBook 的 MT 论文会介绍很多 tedious works，比如语料预处理、和数据集来源等等，但国内的论文不会介绍这些。体现了中美之间写作水平、工程水平和做事态度的不同。（美国人是希望你能复现，但中国人是不希望你复现）

做研究的原则：score 是最重要的，方法相对而言比较次要。

看文章要深入地了解作者、单位、研究组织和作者的背景信息。

师兄在 EMNLP 2019 上指导了一篇面向具体任务的词向量研究：Zhang, Hongming et al. “Multiplex Word Embeddings for Selectional Preference Acquisition.” EMNLP/IJCNLP (2019).

TACL 每月月底截稿，两个月审稿周期，中了以后可以选择发表在当年的 ACL、NAACL 或者 EMNLP 等。投稿该档次的期刊，无需相当复杂的模型，只需把问题想清楚，解决具体的问题即可。

https://www.aclweb.org/anthology/ 网站上的 WS 是 Work Shop 的缩写，SIGs 是 Special Interest Group 的缩写，比如 SIGHAN = Special Interest Group on Chinese Language Processing。

有必要跟踪师兄每年的研究进展，就今年（2020年）而言，尤其是应该跟踪其 word embedding 的进展，看看他是如何解决 BERT 对 word embedding 的挑战的。（我这记的不是废话嘛~ 师兄的研究进展是一定要跟进的！）

陈建军老师：与你们师兄的沟通要讲究方法，主动建立渠道，比如给他写 reporter 来阐述研究中遇到的问题。

Nvidia 显卡的每个型号是有区别的，比如 T4 是专门为 inference 而设计的， v100 是专门为 training 而设计的。

giza++ 是完全基于 EM 算法的，所以可以尝试自己实现一遍，以便于加入自己的改进和理解，或者 attention 也可以取代 giza++ 来实现词对齐。

BPE 是什么？（https://web.archive.org/web/20160326130908/http://www.csse.monash.edu.au/cluster/RJK/Compress/problem.html）

所有的研究都没有高大上，关键是不怕麻烦，要坐的住！

师兄的单独指导

2019年12月30日

NLI 对理解文本表征有帮助。（NLI 问题的数据集中都是短句的句对，句对间的关系分为近义、反义和无关三种，做好词语间关系的判断是 NLI 的基础）

2020年1月1日

发表 NLPCC 2020 档次的文章，预计 word embedding 是够用的。

NLI 研究对象是句子级的，但前提是要做好词级别元素的表达。（应该做 case study，但在此之前可以想当然地认为句法信息是一定能够增强 NLI 任务的表现的，因为句法知识可以解决语言理解问题）