数据挖掘与机器学习

1.数据挖掘

利用机器学习、统计学等方法在相对大量的数据集中发现模式和知识,涉及数据预处理、模型与推断、可视化等。

2.数据挖掘包括的常见任务

  • 异常检测
    对不符合预期模式的样本、事件进行识别。异常也被称为离群值、偏差和例外等。异常检测常用于入侵检测、银行欺诈、疾病检测、故障检测等。
  • 关联分析
    在数据库中发现变量之间的关系(强规则)。例如,在购物篮分析中,发现规则{面包,牛奶}→{酸奶},表明如果顾客同时购买了面包和牛奶,很有可能也会买酸奶,利用这些规则可以进行营销。
  • 聚类
    一种探索性分析,在未知数据结构的情况下,根据相似性把样本分为不同的簇或子集,不同簇的样本具有很大的差异性,从而发现数据的类别与结构。
  • 分类
    根据已知样本的某些特征,判断一个新样本属于哪种类别。通过特征选择和学习,建立判别函数以对样本进行分类。
  • 回归
    一种统计分析方法,用于了解两个或多个变量之间的相关关系,回归的目标是找出误差最小的拟合函数作为模型,用特定的自变量来预测因变量的值。

3.机器学习算法

机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法,可以分成下面几种类别:监督学习、无监督学习、强化学习。

  • 监督学习
    监督学习是从有标记的训练数据中学习一个模型,然后根据这个模型对未知样本进行预测。其中,模型的输入是某一样本的特征,函数的输出是这一样本对应的标签。常见的监督学习算法包括回归分析统计分类。监督学习包括分类数字预测两大类别,前者包括逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯等,后者包括线性回归、KNN、Gradient Boosting和AdaBoost等
  • 无监督学习
    无监督学习又称为非监督式学习,它的输入样本并不需要标记,而是自动从样本中学习特征实现预测。常见的无监督学习算法有聚类关联分析等,在人工神经网络中,自组织映射(SOM)和适应性共振理论(ART)是最常用的无监督学习。
  • 强化学习
    强化学习是通过观察来学习做成什么样的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。强化学习强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

4.机器学习包括的常见任务

分为回归、分类、聚类三大常见机器学习任务。

5.机器学习应用的典型领域

网络安全、搜索引擎、产品推荐、自动驾驶、图像识别、语音识别、量化投资、自然语言处理等。例卷积神经网络(CNN)——图像识别、照片分类、图像隐藏、图片生成、美化、修复和图片场景描述。

发布了22 篇原创文章 · 获赞 3 · 访问量 3098

猜你喜欢

转载自blog.csdn.net/weixin_39920026/article/details/104131161