机器学习作业1--机器学习概论

1、贴上Python环境及pip list截图，了解一下大家的准备情况。暂不具备开发条件的请说明原因及打算。

2、贴上视频学习笔记，要求真实，不要抄袭，可以手写拍照。

一、概论

　　1、概念（04：05）：机器学习是人工智能的一个分支。我们使用计算机设计一个系统，使它能够根据提供的训练数据按照一定的方式来学习；随着训练次数的增加，该系统可以在性能上不断学习和改进；通过参数优化的学习模型，能够用于预测相关问题的输出。

　　2、机器学习的内涵与外延（19：00）

　　（1）、机器学习可以解决给定数据的预测问题。如：数据清洗、特征选择、确定算法模型、参数优化和结果预测。

　　（2）、机器学习不能解决的问题有：大数据存储、并行计算、做一个机器人等等。

　　3、机器学习的一般流程（37：35）：数据收集 → 数据清洗 → 特征工程 → 数据建模 → 模型的使用。

　　4、机器学习方法（40：30）

　　（1）、线性回归、rate、Loss（45：40）

　　（2）、EM Code、EM算法（46：40）

　　（3）、CMM与图像（49：05）

　　（4）、图像的卷积（49：35）

　　（5）、去均值ICA分离、带噪声的信号分离（50：10）

　　（6）、SVM算法（51：37）

　　（7）Crawler爬取数据（52：10）

　　（8）HMM分词（MLE）（52：50）

　　（9）LDA（53：30）

　　（10）其他内容：最大熵模型、聚类、降维、SVM、主题模型pLSA/LDA、条件随机场、变分推导Variation Inference、深度学习（55：10）

　　5、数学知识（62：30）

　　（1）构造数列（65：40）

　　（2）自然参数（66：30）

　　（3）导数（67：40）

　　（4）常用函数的导数（70：00）

　　（5）应用1（71：30）

　　（6）积分应用2（77：00）

　　（7）Taylor公式-Maclaurin公式（82：20）

　　（8）Taylor公式的应用（84：50）

　　（9）方向导数（97：16）

　　（10）梯度（102：50）

　　（11）Γ函数（111：10）

　　（12）凸函数（114：55）

　　（13）概率论（128：40）

3、什么是机器学习，有哪些分类？结合案例，写出你的理解。

答：机器学习是人工智能的一个分支。我们使用计算机设计一个系统，使它能够根据提供的训练数据按照一定的方式来学习；随着训练次数的增加，该系统可以在性能上不断学习和改进；通过参数优化的学习模型，能够用于预测相关问题的输出。

机器学习的分类：

（1）监督学习

监督学习是利用已标记的有限训练数据集，通过某种学习策略/方法建立一个模型，实现对新数据/实例的标记（分类）/映射。监督学习要求训练样本的分类标签已知，分类标签的精确度越高，样本越具有代表性，学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

监督学习的输入是标注分类标签的样本集，通俗地说，就是给定了一组标准答案。监督学习从这样给定了分类标签的样本集中学习出一个函数，当新的数据到来时，就可以根据这个函数预测新数据的分类标签。

在监督学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对反垃圾邮件系统中的“垃圾邮件”“非垃圾邮件”分类等。

在建立预测模型的时候，监督学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断调整预测模型，直到模型的预测结果达到一个预期的准确率。

最典型的监督学习算法包括回归和分类等。

（2）无监督学习

无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律。无监督学习不需要训练样本和人工标注数据，便于压缩数据存储、减少计算量、提升算法速度，还可以避免正负样本偏移引起的分类错误问题，主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域，例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。

无监督学习与监督学习相比，样本集中没有预先标注好的分类标签，即没有预先给定的标准答案。它没有告诉计算机怎么做，而是让计算机自己去学习如何对数据进行分类，然后对那些正确分类行为采取某种形式的激励。

在无监督学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法、KMeans算法、随机森林（random forest）、主成分分析（principal component analysis）等。

（3）半监督学习

半监督学习介于监督学习与无监督学习之间，其主要解决的问题是利用少量的标注样本和大量的未标注样本进行训练和分类，从而达到减少标注代价、提高学习能力的目的。

在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是该模型首先需要学习数据的内在结构以便合理地组织数据进行预测。

应用场景包括分类和回归，算法包括一些对常用监督学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理（graph inference）算法或者拉普拉斯支持向量机（Laplacian SVM）等。

（4）强化学习

强化学习是智能系统从环境到行为映射的学习，以使强化信号函数值最大。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习。

强化学习的目标是学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境的最大奖赏，使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。

在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式。在强化学习下，输入数据直接反馈到模型，模型必须对此立刻做出调整。常见的应用场景包括动态系统以及机器人控制等。

常见算法包括Q-Learning以及时间差学习（temporal difference learning）。

参考网址：https://blog.csdn.net/zw0Pi8G5C1x/article/details/89173508

机器学习作业1--机器学习概论

猜你喜欢