师兄讲座的总结

师兄讲座的总结

2019年12月30日,师兄回到学院和实验室分别做了报告,以下是报告的个人总结。

总结

2019年12月30日

DeepCamp 每年一次,全世界范围内招录本科生、硕士生和博士生,进行为期五周的夏令营训练。师兄在该夏令营中做了讲席。

要有作第一名的决心,First or the others(除第一名以外,剩下的都是其他),要有毅力、持续性和坚持的品质。

提出 IBM 1~5 机器翻译模型的团队,后来集体从 IBM 离职,去华尔街创办了文艺复兴对冲基金。(数学之美也提到过文艺复兴基金)

现在是百年一遇的发展机遇。

NNLM 是最早面向 NLP 的神经网络模型。

Pre-trained Model 在各项 NLP 任务上都远超针对具体任务的调参方法。

{1.迁移学习可以使得模型的泛化能力如此强大?2.我是实验室最早关注迁移学习的人之一(可能要去掉“之一”),当时就想着迁移学习如何应用于 NLP,但是时隔一年后 BERT 才横空出世,说明上帝使得我对技术的发展趋势具有一定的预测性}

Fine-Tune的经验:1. 考察收敛速度;2. 当 Loss 单调递减时即认为 FT 可以结束了。

强化学习其实是在做搜索,目标不是当前状态,而是等待后期的反馈。

ZPar 是性能最高的句法分析工具。{ZPar (https://github.com/frcchang/zpar)是西湖大学博士生导师张岳(https://frcchang.github.io/)于2011年的作品}

2019年12月31日

OpenNMT 是自然语言生成加机器翻译为一体的框架。

生成模型的训练数据至少要在 1w 条以上。

师兄带的实习生必须要在 3 个月内完成一篇顶会的研究工作。

论文是作者与审稿人思想交流的载体,每个图、每个表乃至整篇文章的排版都需要讲究美学。

论文的基本要素,1.超过SOTA;2.有自己的见解。

CV 是感知智能、NLP 是认知智能。

关注 ML 领域的发展,要以技术驱动研究,不要脱离应用来做研究,要时刻想着技术落地。

做研究,case study 非常重要!做研究之前,要先看数据集长什么样;研究着手的顺序应该是:数据->问题->模型->方法。

事理图谱。(知识图谱反应的是实体之间的关系。事理图谱可以表示一件事情的前因和后果。哈工大最先提出事理图谱的概念https://arxiv.org/pdf/1907.08015.pdf,应用于金融领域 http://eeg.8wss.com/main

师兄:做 NLP 就是在做机器模拟人的研究。

预训练模型是当代 NLPer 的必备技能和工具。

Zen 的启示:中文 NLP 与 英文 NLP 不一样

Zen:n-gram 是基于统计的方法,从文本中自动学习得到的。(既然 n-gram 是自动学习而来的,那么一定会存在一个阈值来控制 n-gram 生成的粒度和数量,这是一个超参数,而且自动学习的方法不一定能使得 n-gram 生成的足够准确。可以考虑融入知网来进一步提升 n-gram 生成的质量)

Zen:图 A 与 BERT 完全一样,只是加了右边的 n-gram 模块,如图 B 所示。

蔡:渐进式学习

BERT 时代的研究出路:1.可以不改 pre-trian 改 fine-tune;2.LSTM 等文章一定要把 BERT 的结果加入进来;3.LSTM 等相关工作可以继续做

搞科研必备两种能力:1.编程能力,数据结构与算法的基础扎实非常重要;2.读论文的能力,要能快速地检索论文中有用的信息。

好奇心是使得一个人从普通到优秀的关键品质。

如何在学术的道路上成功:有人带着走、跟同伴一起走、有人沟通一起进步。

师兄领导的团队维护的 Paper List:https://github.com/SVAIGBA/paper_list

学习的方法论:对研究领域建立起框架,要有系统性地认识,由此可以将新的知识快速地归档和理解。(基于这样的认知,读 NLP 综述类的学术书籍就显得十分重要,比如《基于深度学习方法的自然语言处理》https://book.douban.com/subject/30236842/

2020年1月1日

OpenNMT 是个很好的基线系统。

wmt16 数据集最为常用。

数据预处理是 MT 最关键的步骤,决定了 BLUE 的大致分布。

t2t 就是 tensor2tensor。

PyTorch 在师兄的团队中大量地在用,原因之一就是比较适合做分布式运算。

Zen 代码包含了 Transformer 的主体和入口程序。

Zen 的 modeling.py 555~578 行就是在调用 Transformer。(其实就是 forward 函数)

Bert 只是 Encoder,Attention is all you need 论文阐述的框架是 Encoder + Decoder。

复现 MT 系统的经验:如果系统在中-英翻译上无法复现论文的结果,则可以先跑英-德翻译来确定系统是否的稳定的。

Case Study 非常重要,是发现研究问题的关键步骤。

Google 和 FaceBook 的 MT 论文会介绍很多 tedious works,比如语料预处理、和数据集来源等等,但国内的论文不会介绍这些。体现了中美之间写作水平、工程水平和做事态度的不同。(美国人是希望你能复现,但中国人是不希望你复现)

做研究的原则:score 是最重要的,方法相对而言比较次要。

看文章要深入地了解作者、单位、研究组织和作者的背景信息。

师兄在 EMNLP 2019 上指导了一篇面向具体任务的词向量研究:Zhang, Hongming et al. “Multiplex Word Embeddings for Selectional Preference Acquisition.” EMNLP/IJCNLP (2019).

TACL 每月月底截稿,两个月审稿周期,中了以后可以选择发表在当年的 ACL、NAACL 或者 EMNLP 等。投稿该档次的期刊,无需相当复杂的模型,只需把问题想清楚,解决具体的问题即可。

https://www.aclweb.org/anthology/ 网站上的 WS 是 Work Shop 的缩写,SIGs 是 Special Interest Group 的缩写,比如 SIGHAN = Special Interest Group on Chinese Language Processing。

有必要跟踪师兄每年的研究进展,就今年(2020年)而言,尤其是应该跟踪其 word embedding 的进展,看看他是如何解决 BERT 对 word embedding 的挑战的。(我这记的不是废话嘛~ 师兄的研究进展是一定要跟进的!)

陈建军老师:与你们师兄的沟通要讲究方法,主动建立渠道,比如给他写 reporter 来阐述研究中遇到的问题。

Nvidia 显卡的每个型号是有区别的,比如 T4 是专门为 inference 而设计的, v100 是专门为 training 而设计的。

giza++ 是完全基于 EM 算法的,所以可以尝试自己实现一遍,以便于加入自己的改进和理解,或者 attention 也可以取代 giza++ 来实现词对齐。

BPE 是什么?(https://web.archive.org/web/20160326130908/http://www.csse.monash.edu.au/cluster/RJK/Compress/problem.html

所有的研究都没有高大上,关键是不怕麻烦,要坐的住!

师兄的单独指导

2019年12月30日

NLI 对理解文本表征有帮助。(NLI 问题的数据集中都是短句的句对,句对间的关系分为近义、反义和无关三种,做好词语间关系的判断是 NLI 的基础)

2020年1月1日

发表 NLPCC 2020 档次的文章,预计 word embedding 是够用的。

NLI 研究对象是句子级的,但前提是要做好词级别元素的表达。(应该做 case study,但在此之前可以想当然地认为句法信息是一定能够增强 NLI 任务的表现的,因为句法知识可以解决语言理解问题)

猜你喜欢

转载自www.cnblogs.com/fengyubo/p/12209928.html