初入NLP领域的一些小建议

（作者：香侬科技李纪为斯坦福大学计算机博士）

1. 了解NLP的最基本知识：

Jurafsky和Martin的Speech and Language Processing是领域内的经典教材，里面包含了NLP的基础知识、语言学扫盲知识、基本任务以及解决思路。阅读此书会接触到很多NLP的最基本任务和知识，比如tagging, 各种parsing，coreference, semantic role labeling等等等等。
==Chris Manning ==的 introduction to information retrieval 也是一本可以扫一下盲的书，当然我认为依然不需要记住所有细节，但轮廓需要了解。
如：斯坦福的吴恩达组的Ziang Xie的 Data Noising as Smoothing in Neural Network Language Models ICLR2017（arxiv.org/pdf/1703.0257） 就首次提出了此方法，而且给出了理论解释。这种random替换其实本质上属于language modeling里面基于interpolation的平滑方式，而基于interpolation的LM平滑，就躺在jurafsky那本书的第3.4.3节。

2.了解早年经典的NLP模型以及论文：

神经网络模型，早年的NLP算法确实比较繁琐复杂，但里面确实有很多早年学者在硬件条件艰苦情况下的智慧结晶。

chris dyer 组的Incorporating structural alignment biases into an attentional neural translation model (NAACL16) 提出用双向attention做neural机器翻译的约束项。
Percy Liang 曾经的成名作之一，早在NAACL06年 Alignment by Agreement。
处理对话系统的无聊回复，用反向概率p(source|target)做reranking现在应该已经是标配。再比如Rico Sennrich的成名作之一将Monolingual data 跟seq2seq 模型结合。其实这连个思想在phrase-base MT 里面早就被广发的使用。Neural之前的MT，需要对一个大的N-best list用MERT做 reranking，反向概率 p(source|target) 以及语言模型概率 p(target)是reranking中feature的标配。
3)Harvard NLP组，Sam Wiseman 和Alex发表的EMNLP16 best paper runner-up, Sequence-to-Sequence Learning as Beam-Search Optimization, 基本上传承了Daume´ III and Daniel Marcu 2005年的 LaSO模型，将其思想adapt到neural里面。

3.了解机器学习的基本模型：

比如吴恩达的 machine learning就是必要之选。
Pattern Recognition and Machine Learning这本书，尤其是某些小节确实比较难（又暴露了数学基础差的事实），即便是只是为了过一遍，也需要很强的耐力才能看完，更不用说完全看懂了。但是其中的很多基础chapter，我认为还是很值得一读的。其实可以组成那种两三个人的学习小组，不需要有太雄伟的目标，用个一年哪怕两年的时间，把几个重要的chapter 过一遍。

4. 多看NLP其他子领域的论文：

NLP有很多子领域，MT，信息抽取，parsing，tagging，情感分析，MRC等等。但是最开始看不熟悉领域的问题可能会有一点难，原因是对问题的formalization不是很了解。这可能就需要多花一些时间，多找懂的同学去问。其实了解不同问题的formalization也是对领域知识最好的扩充。

5.了解 CV和data mining领域的基本重大进展：

当熟悉了上面所说的点之后（当然可能至少也需要一年的时间）。熟悉CV领域的基本任务、基本算法我认为对于打开科研视野很重要。

强烈推荐清华大学刘知远老师的相关文章

南有芙蕖

发布了11 篇原创文章 · 获赞 15 · 访问量 981

私信关注