加州理工机器学习与数据挖掘（一）

第一讲：

一个例子：预测一个观看者将如何评价一个电影

一家出租电影的公司将对这个问题感兴趣。如果一家公司想提升内部系统性能？的百分之10，

他在你登陆的时候会推荐一些他们认为你们可能会喜欢的电影

因为他觉得你会对这些电影评价很高

所以他们创建一个系统，并希望能够改善他。

10百分之的改善有多大帮助呢？一百万，很多的意思。

简单说就是这个工作有意义。

比如财务预测时候的应用。

这些人在干嘛？提供数据，人们进行数据分析，用不同算法，直到有人获得了奖励。

回顾第一个问题，可以看出机器学习的内涵。机器学习是一个应用工具

机器学习的内涵：由三个部分组成。

存在一个模式，没有模式就会无迹可寻（一个人评价电影的方法，与他如何评价其他电影有关，也与其他人如何评价这部电影有关）

我们就是要找出这个模型，但是还不能用数学方法确定。所以要机器学习。要依据数据来找出这样一个体系。以上就是三个部分。

机器学习的本质：

存在一个模式。

不能用数学去判定他。

有数据。

比如看电影，对于一个观众，喜欢喜剧？喜欢动作片？喜欢大片还是边缘电影？喜欢....？喜欢汤姆克鲁斯？等等

对于一个电影,对应这些特征，300多个因素？会喜欢某些，又有不协调的部分，总之将电影与观众比较，得出结果。

通过机器学习，不用去一个个调查观众了，喝茶就行

在这里观众是一个由不同因素构成的矢量，电影也是。

机器学习：从评价出发，试图找出和评价相一致的因素。

都缺少一个万能公示：银行用来判断给你办信用卡是否有收益，电影出租公司用来计算你是否会喜欢这个电影。

所以依据历史记录，反向研究，用于以后情况相同的顾客身上。

输入X：顾客信息；

输出Y：结果。

目标函数F：X领域的目标函数，可以推出Y。

用一致的x1，y1 .....xn，yn的数据

假设：G ：由x推出y，F未知，G假设的，已知。

希望G接近F

学习算法通过例子，得到最终假设。创造出一个公式，从现成公式模型得出，

从目标函数到数据到学习的算法到假设集再到最终的假设。

假设集H，选择学习方法，学习模型就是选出一个假设集和学习算法。

一个简单的模型：

输入X1.....Xd代表顾客信息

加权求和？

得到评分。与临界值进行比较。也就是说，结果是由权重和临界值决定的。

前提是存在一个简单的直线模型，可以划分出优质顾客、劣质顾客

那两个参数直接决定画出的直线。算法就是改变参数后得到移动的线，最后试图得到答案。

以上公式就是感知器的假设（加权求和？）

现在有了假设集，提供了需要的资源，现在需要算法来看数据，来训练测试需要的数据。再找一边所有的假设，找到作为最终假设输出的函数。

给出一组训练用的数据，起点，选出存在的顾客以及他们的行为。这些数据都是为了让W全中更准确。

算法就是更改权向量。

监督学习

非监督学习给你数据，祝你好运。簇。

加强监督学习

加州理工机器学习与数据挖掘（一）

猜你喜欢