第一章 1、1 自然语言处理概论

一、AI工程师必备的核心技能

PPt

也就是工程师需要从现实实际问题当中抽取数学模型,然后运用数学知识优化问题。
然后才是工程能力:学习某个开源或者黑盒工具开发项目。

二、什么是NLP

  1. NLP

在这里插入图片描述

NLP就是NLU+NLG。NLU(nature llanguage understand)一个人先用文本或者语音表达自己的意思,然后对面的那个人来理解这个是什么意思。NLG(nature language generation)是将文本或者语音表达为意思。这一步是最难的

  1. 为什么说NLP难于CV
    在这里插入图片描述

因为一个文本或者语音有多个意思,而且一个文本或者语音多种表达方式。文本的语义的理解是最难的

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

比如一词多义现象。解决一词多义现象:根据不同行业出现的频率来判断。或者通过上下文来判断

  1. 机器翻译系统实现初探
    在这里插入图片描述

这是一个根据统计规则实现的。给出一个问答语料库,里面都是问答。当翻译一个句子的时候,查看每个单词出现的时候,回答句子里面对应的单词。这样做是初级实现,因为没有考虑语义。翻译出来的句子生搬硬套。而且没有考虑上下文,语法可能也有问题。如果语料库十分庞大,统计费时费力。结果也和语料库的建设息息相关。

  1. 机器翻译系统初探
    在这里插入图片描述

1、首先进行中文分分词,把一句话划分为若干个合理的词。所以分词算法影响结果,重要。
2、构建词典。也就是语料库,包含所有统计的单词
3、对照词典进行每个单词挨个翻译。
4、把翻译好的单词进行排列组合,列出所有单词排序,组成句子。
5、LM(language model)计算排列组合当中所有的句子,输出每一个句子的合理值(概率)。选出最大的句子。所以LM模型很重要,会影响结果的输出

在这里插入图片描述

LM语言模型:解决语句通顺问题,是否说起来听得懂。被翻译后的桔子是否友好。
TM翻译模型:讲原始句子根据语料库进行翻译成tough语句。
D A:同时考虑上面两个。

在这里插入图片描述

对于一个好的语言模型来说,通顺的句子分值高。
联合概率的计算公式如图。Unigram只考虑本身单词,Bigram考虑前一个,Trigram考虑前两个…等等等等。(是否独立?)

发布了31 篇原创文章 · 获赞 3 · 访问量 878

猜你喜欢

转载自blog.csdn.net/qq_38888209/article/details/104362211