nlp研究的三个层次

本人认为nlp的研究应该按照以下三个层次开展：

一、应用级别。本阶段比较适合本科生和研究生，以应用为目标，能够熟练使用tensorflow等框架，看懂论文并且把论文的成果工程化。包括的基础理论：微积分，线性代数，统计学，计算机基础，数据结构与算法，基本的物理学知识。AI方面主要包括：统计学派和联结主义学派。统计学派的经典著作：李航博士的关于图模型的论述共90页的pdf,宗成庆的《统计自然语言处理》。吴恩达03年的斯坦福公开课16讲，包括LR,SVM，PCA,SVD等。深度学习包括RNN，LSTM，CNN，word2vector等。另外关于基本的语言逻辑，语言学也要了解，包括知识图谱的基础知识。本阶段应读的论文包括96年的lasso（必读），CRF等。编程主要以python或者C++为主，熟悉5折交叉验证理论，熟悉CUDA，遗传算法，神经网络参数优化。熟练一种中文分词，最好有开发中文分词的经历，比如改造过IK分词等。经过这个阶段的学习，可以满足绝大部分公司的AI应用需求。

二、研究级别。本阶段的主要目标是成为一名研究过去的AI专家。对现有的所有成果，论文能够利用数学，物理学等基础学科进行解释，能够指导工业界的工程师学习，解决问题。能够提供解决方案，比如语义相似度方案，有自己确定的研究兴趣和方向，能够对现有算法提出改进想法，对现有的论文进行深度评估。本阶段应该掌握的基础学科包括：《矩阵论》、《凸优化》、《实变函数与泛函数分析》（必需）以及信号学等物理方面的知识。必读的论文包括：①kb_qa方面：模板匹配，向量建模，语义解析，核心推导链儿，检索+seq2seq解决自由聊天，上下文建模，slot对话及对话状态跟踪②知识图谱：知识图谱的向量化transD以及改进方案，关系抽取③语义相似度：siamese lstm，SIF，融合图谱和深度学习的推荐算法④深度学习：self_attention,CNN的改进方案，语义丢失问题的缓解。能够提出"目前的深度学习高度依赖海量数据"问题产生的根本原因，能够用遗传算法或者模拟退火对神经网络参数优化⑤深度学习和统计学派的融合：BiLSTM_CRF,图结构和神经网络融合的预研。这个阶段可以指导AI工程师，确立研究方向，目前国内的工业界专家绝大部分是属于这个层次。

三、引领级别。本阶段的主要目标是成为一名研究未来的AI专家。第二个阶段只是顺着原来的研究方向小修小改，这个阶段需要脑洞大开，另辟蹊径，研究“慢而无用”的东西，坐冷板凳，搞创新。第二个阶段的最后已经做了一些铺垫，比如联结主义和符号主义融合。神经规则推理和AutoML是这一阶段重研究对象，但不是全部，因为AutoML谷歌大脑已经启动。底层的基础知识包括拉普拉斯矩阵的研究，傅立叶变换在无向图模型方面的应用，谱卷积算子的研究。对神经网络能够提出新的理论解释，能够从物理学或者神经生物学中找到灵感提出新的理论：包括发现现有算法之间新的联系，提出知识的时空表示，能够解决实体，关系，规则三要素的统一问题，能够有效解决有向图的推理问题，能够提出"目前的深度学习高度依赖海量数据"问题的解决方案，能够研究人类在婴幼儿时期非依赖经验主义学习(也就是不过度依赖海量数据)的智能原理。

按照以上三个层次持续研究，孜孜不倦，最起码也能达到第二个层次，至于能不能达到最高境界，看资质了。不过按照国内应试教育的体系，很难出现第三个层次的人，不出国够呛。之前复旦大学的博导写过“无解的中国教育”系列，其中提到了目前的研究生普遍对研究不感兴趣，一味地责备学生也没用，是体制问题。学习兴趣被刷题，考试过早过度消费了，镀个金就高枕无忧了，这种想法的人非常多。

还有目前关于深度学习的研究有些泛滥，有些论文都是套路，给人感觉好像创新就那么回事的误解。比如seq2seq的研究，坑了很多人，尤其是一些在校研究生。之前本人就提出过，机器翻译用seq2seq很勉强，根本不是真正语义级别的翻译，法律，文学，同传方面机器翻都译望尘莫及……单纯的深度学习不可过度研究，因为目前它存在重大理论缺陷，重点研究应该是神经规则推理，知识图谱，这些都是未来的AI。

研究论文多了会发现，每次重大理论创新总是由国外提出，比如谷歌大脑，以色列特拉维夫大学。论文脑洞大开，思维开阔，总是能够从物理学，神经生物学中吸收灵感。国内的数学教育注重的是解题，这个属于很低的层次了，并且从众心理很普遍，有点儿保守，而且有些研究生专业设置不合理，或者有些学校根本不具备开设的资格。知识学的多与少应该根据个人的意愿以及研究的深度而定，而并不是一味地拿到毕业证学完所有的东西。你创造多少新的东西，和知识储备不总是成正比。必须脱离应试教育的评价体系，避免短平快，摆脱浮躁从众的心态才能搞研究。

nlp研究的三个层次

本人认为nlp的研究应该按照以下三个层次开展：

猜你喜欢