第一节：机器学习

D={X,y}

x：特征
y：标签
f：学习x到y的映射关系

1、机器学习定义：

自动从已有的数据里找出一些规律（与专家系统的区别），然后把学到的这些规律应用到对未来数据的预测值，或者在不确定环境下自动地做出一些决策。

Name	Supervised learning	unsupervised learning
生成模型	朴素贝叶斯	GAN/HMM/LDA/GMM
判别模型	逻辑回归/conditional random field	None

2、Supervised learning

给定一批数据，包含一些样本的特征向量和标签值。学习特征向量到标签值的映射关系。

在这里插入图片描述

2.1 Sentiment Classification

在这里插入图片描述

线性回归
逻辑回归
朴素贝叶斯
神经网络
SVM
随机森林
Adaboost
CNN

3、Unsupervised learning

对数据的分析，根据数据特征对其进行分类。

k-means
PCA
ICA
MF : 矩阵分解
LSA
LDA：通过分析文本，分析文本后的主题

4、Generative model VS Discriminative Model

生成模型：训练好的模型，可以生成一些数据，记住每一个样本的特征 p(x,y),p(x)
判别模型：学习两个样本不同的特征 p(y|x)

5、Working Pipeline of constructing models

给定数据
数据清洗
特征工程：时间很长
建模
预测

End-to-end learning：不做特征工程，直接输入数据，比如Seq2seq

6、Train and Test Data

交叉验证在train set 上加入validation set：做超参数调参

第二节：朴素贝叶斯：适合文本分类

1、垃圾邮件分类器

在这里插入图片描述

occurrence of 购买

每个邮件包含十个单词，正常邮件有24个，垃圾邮件有12个。
统计正常邮件中出现购买的概率
统计垃圾邮件中出现购买的概率
p(购买|正常)：3/240
p(购买|垃圾)：7/120

在这里插入图片描述
可以计算出每个单词的条件概率，对词库里每个单词计算条件概率

prior information(先验)

在该例子里，正常邮件/垃圾邮件占所有邮件的比例

2、贝叶斯定理

在这里插入图片描述

3、conditional independence

当x和y条件独立于z时
在这里插入图片描述

Make prediction

在这里插入图片描述

第三节：Case study 垃圾邮件过滤

在这里插入图片描述

计算先验概率
列出词库
对于没有出现的单词，它的条件概率需要加入laplace 平滑
对于词库/新邮件里的每个单词，计算它在正常和垃圾邮件中出现的条件概率
对比给定这些单词下，是垃圾邮件还是正常邮件的概率，哪个大就认为该新邮件属于哪个类别。

当遇到这个新邮件的词很多，做条件概率乘法时，可能值很小，可以使用log将logp1p2p3=logp1+logp2+logp3

第四节：python函数高阶函数的应用

1、lambda表达式：匿名函数

格式：lambda 参数列表：函数体

add_lambda=lambda x,y:x+y
#调用
add_lambda(3,4)
#输出：7

三元运算符

condition=True
print(1 if condition else 2)
#结果1

2、map函数的应用

输入一堆input，经过map函数，输出后返回对应的input的output
在这里插入图片描述

如何使用map

list1=[1,2,3,4,5]
r=map(lambda x:x+x,list1)
print(list2)
# 结果 [2,4,6,8,10]

m1=map(lambda x,y:x*x+y,[1,2,3,4,5],[1,2,3,4,5])
#result:[2,6,12,20,30]

3、filter过滤器

输入一些input，经过filter的一些条件筛选，过滤掉一些不符合条件的input
在这里插入图片描述

def is_not_none(s):
	return s and len(s.strip())>0
list2=[" "," ","hello","greedy",None,"AI" ]
result=filter(is_not_none,list2) #传入一个条件函数和一个可迭代对象
#result : ["hello","greedy","ai"]

4、reduce函数

将input输入，经过reduce函数，输出一个output

from functools import reduce
f= lambda x,y:x+y
r=reduce(f,[1,2,3,4,5],10)#10为初始化的值
# result:25

在这里插入图片描述

5、Python三大推导式

5.1 列表推导式

根据已有的列表推导出新的列表

list1=[1,2,3,4,5]
f=map(lambda x:x+x,list1)#此时为map的对象
#需要转换格式
list(f)
list2=[i*i for i in list 1]
print(list2)# [1,4,9,16,25]
#有选择性的筛选
list4=[i*i for in list1 if i >3]
print(list4)# [16,25]

5.2 集合推导式

list1={1,2,3,4,5}
f=map(lambda x:x+x,list1)#此时为map的对象
#需要转换格式
list(f)
list2={i*i for i in list 1}
print(list2)# {1,4,9,16,25}
#有选择性的筛选
list4={i*i for in list1 if i >3}
print(list4)# {16,25}

5.3 字典推导式

s-={
	"zhangsan":20,
	"lisi":15,
	"wangwu":34
}
#拿出所有的key
s_key=[key+“aaa” for key, value in s.items()] #for后面有两个value
# key和value颠倒
s1={value: key for key , value in s.items()}
#只拿出符合条件的值
s2={key:value for key,value in s.items if key=="lisi"}#15:"lisi"

6、闭包

一个返回值是函数的函数

#调用后打印当前时间
import time
def runtime()：
	def now_time():
		print (time.time())
	return now_time
f=runtime()
print(f())

使用f调用runtime函数，再调用f函数。

data.csv

在这里插入图片描述

cat data.csv
#读出一个文件中带有某个关键字的行
def make_filter(keep):
	def the_filter(file_name):
		file=open(file_name)
		lines=file.readlines()
		file.close()
		filter_doc=[i for i in lines if keep in i]
		return filter_doc
	return the filter
filter1=make_filter("8")#这一行调用了make_filter函数，接受了the filter作为返回值
#这里的filter1等于函数the_filter
filter_result=filter1("data.csv")
print(filter_result)# [6,7,8,9,19]

NLP(9): 机器学习介绍，朴素贝叶斯，python高阶函数应用

第一节：机器学习

1、机器学习定义：

2、Supervised learning

2.1 Sentiment Classification

3、Unsupervised learning

4、Generative model VS Discriminative Model

5、Working Pipeline of constructing models

6、Train and Test Data

第二节：朴素贝叶斯：适合文本分类

1、垃圾邮件分类器

occurrence of 购买

prior information(先验)

2、贝叶斯定理

3、conditional independence

Make prediction

第三节：Case study 垃圾邮件过滤

当遇到这个新邮件的词很多，做条件概率乘法时，可能值很小，可以使用log将logp1p2p3=logp1+logp2+logp3

第四节：python函数高阶函数的应用

1、lambda表达式：匿名函数

三元运算符

2、map函数的应用

如何使用map

3、filter过滤器

4、reduce函数

5、Python三大推导式

5.1 列表推导式

5.2 集合推导式

5.3 字典推导式

6、闭包

data.csv

猜你喜欢