python之scikit-learn

官方文档:http://scikit-learn.org/stable/#

input--模型-output

数据分析是为了发现规则

数据分析--数据挖掘和机器学习,算法相同

推荐系统

语音识别--科大讯飞,百度垄断,比较成熟,自然语言的分支

机器视觉--卷积神经网络,图像识别,图片搜索,目标检测(无人驾驶)

NLP--聊天机器人,机器翻译,金融,與情分析

自动驾驶

垃圾邮件

自然语言??

监督学习:输入和输出之间有一定的关系,模型和标准是可靠的

无监督:聚类,分成几个类,评估和标准不可靠,有点问题

强化学习:aphago象棋程序

离散型、类别型

每列:特征(变量)==数据库的字段

每行:样本/样例

训练集-训练模型

测试集--评估模型

模型参数的训练

探索性分析

热力图 seaborn模块

几百万数据不算大?一般有多少数据?

交叉验证:多次测试取平均值,基本3-5次

鲁棒性:强壮性,抗噪能力

一般将整个数据集分成测试集和训练集

标准化:去均值和标准差

fit训练

transform转化

fit_transform训练加转化

score评估:R^2的得分

梯度下降GD,随机梯度下降SGD,随机梯度下降用的更多,每一次拿一个样本,可以跳坑,缺点:造成震荡,迭代次数增加,达不到收敛,一般指小批量的随机梯度下降mini_batch

收敛:无限接近

rigde优化所化,svd作为参数

Move mouse over image

猜你喜欢

转载自blog.csdn.net/YeChao3/article/details/84062094