统计机器学习-1-统计机器学习基础

版权声明:本文为博主原创文章,未经博主允许禁止转载(http://blog.csdn.net/napoay) https://blog.csdn.net/napoay/article/details/89612958

一、统计机器学习的研究内容

网络 算法 机器 优化 概率 统计
数据 矩阵 信息 模型 推理
获知识 靠学习

We are drowning in information and starving for knowledge. -John Naisbitt

Data -> Model -> Knowledge

二、机器学习与应用统计学对比

ML STATISTICS 备注
Networks Graphs Models 网络、图/模型
Weights parameters 权重/参数
learning fitting or estimating 学习/拟合、估计
generalization 泛化 Test set 可信度
superised learning regression/classification 回归 分类
unsuperised learning density estimating clustering 聚类

三、Data Science的三个能力

  • infrastructure 底层架构

  • coding 代码能力

  • math (解决问题的能力)

统计机器学习–SML:

A field that bridges computation and statistics, with ties to information theory,
signal processing,algorithm, control theory, and optimization theory。

SML = Matrix +Optimization+Algorithm+statistics

矩阵+优化+算法+统计,本质是一个最优化问题

N个数据 每个数据有P个特征

X = (
X11 X12 … X1P,
X21 X22 … X2P,

Xn1, Xn2 … Xnp
)

X1 = (X11 X12 … X1P)

1.降维 X1^P --> X1^Q 由P维降到Q维

线性降维

  1. 聚类

3.分类

binary
x1 -> input
x2 -> output

分类问题,数据分三类:
1.训练集
training data

模型+参数
e(y–>f(x,a))+c P(b)

2.validation data

验证数据估c

  1. 测试数据(只有输入)

4.regression 回归

y 属于R
回归是一个特殊的分类问题

5.Ranking

四、机器学习的基本方法:

1.频率派
The frequent.st approach views the model params as unknown
constants and estimates them by matching the model to the training data
using an appropritate metric.

(Xi,Yi)
least square estimation 最小二乘估计

i->n (Yi-Xi*a)^2

最大似然估计

高斯分布

2.Bayesiam Approach
y~N(XT*a,b2)

猜你喜欢

转载自blog.csdn.net/napoay/article/details/89612958