一、统计机器学习的研究内容

网络算法机器优化概率统计
数据矩阵信息模型推理
获知识靠学习

We are drowning in information and starving for knowledge. -John Naisbitt

Data -> Model -> Knowledge

二、机器学习与应用统计学对比

ML	STATISTICS	备注
Networks	Graphs Models	网络、图/模型
Weights	parameters	权重/参数
learning fitting or estimating	学习/拟合、估计
generalization 泛化 Test set	可信度
superised learning	regression/classification	回归分类
unsuperised learning	density estimating clustering	聚类

三、Data Science的三个能力

infrastructure 底层架构
coding 代码能力
math (解决问题的能力)

统计机器学习–SML:

A field that bridges computation and statistics, with ties to information theory,
signal processing，algorithm， control theory, and optimization theory。

SML = Matrix +Optimization+Algorithm+statistics

矩阵+优化+算法+统计，本质是一个最优化问题

N个数据每个数据有P个特征

X = (
X11 X12 … X1P,
X21 X22 … X2P,
…
Xn1, Xn2 … Xnp
)

X1 = (X11 X12 … X1P)

1.降维 X1^P --> X1^Q 由P维降到Q维

线性降维

聚类

3.分类

binary
x1 -> input
x2 -> output

分类问题，数据分三类:
1.训练集
training data

模型+参数
e(y–>f(x,a))+c P(b)

2.validation data

验证数据估c

测试数据(只有输入)

4.regression 回归

y 属于R
回归是一个特殊的分类问题

5.Ranking

四、机器学习的基本方法:

1.频率派
The frequent.st approach views the model params as unknown
constants and estimates them by matching the model to the training data
using an appropritate metric.

（Xi，Yi）
least square estimation 最小二乘估计

i->n (Yi-Xi*a)^2

最大似然估计

高斯分布

2.Bayesiam Approach
y~N(X^T*a,b2)

统计机器学习-1-统计机器学习基础

一、统计机器学习的研究内容

二、机器学习与应用统计学对比

三、Data Science的三个能力

四、机器学习的基本方法:

猜你喜欢