对“自然语言处理”的理解

语言,人类独有的交流方式。而语言的形式——文字,人类最伟大的发明,携带着人类表达事物和自身情绪的信息。一句话,一篇文章,一部巨著,都是由文字构成。互联网上也是由大量的文字组成,每一个文字都包含着作者想传达的信息。

那么语言学和信息论是如何看待“语言”这一载体的呢?是不是文字越多,信息就越丰富呢?人类是如何习得语言这一技能呢?机器能不能掌握人类的语言技巧?如果机器会讲话,会写文章,写小说,那会是怎样的场景?于是,催生了计算机领域的自然语言处理这一门学科。微软小冰就是自然语言处理的产物,可以跟人对话。

对计算机来说,每一个字或者词语只是一串串不同的数字代码,但是它们却有着意义。人们讲话其实是有规律可循的。它们不仅仅是冰冷的词语,它们代指现实中的事物,或者人类虚构的事物。比如今天写一篇文章,要组织哪些词语,要写一部小说,需要哪些剧情,其实都是有规律可循的。要教计算机生成我们想要的文字结果,就需要训练计算机教给它怎么组建我们想要的文字。当喂食的这方面的信息越多,它就越熟练,越能生成我们想要的文章。(这点跟图像绘画生成很像)

人类现在的信息是爆炸式的,一天贴吧或微博生成的网帖就有几亿的文字,因此自然语言处理就十分有必要。这对于捕捉网络信息的流向,网络舆论分析都有作用。

猜你喜欢

转载自www.cnblogs.com/2008nmj/p/10052933.html