算法基本名词解释

欧氏距离

欧氏距离
适用环境:
用于描述两个多维点之间的距离

曼哈顿距离

曼哈顿距离
适用环境:
用于描述两个多维点之间的距离,比欧氏距离计算更加方便且消除开方后取近视值带来的误差

高斯分布(正态分布)

高斯分布函数式
高斯分布函数曲线
参数说明:
1. exp是e^的意思,即e的指数,e约等于2.72
2. 极值为x=μ时,y=1/(√(2π)σ)
3. μ越大,函数曲线中轴越偏右
4. σ越大,函数曲线坡度越平缓
适用环境:
如果一个样本符合高斯分布,则只需要确定μ和σ的值,就可以迅速获得68.2%的样本分布

泊松分布

泊松分布
泊松分布函数曲线
参数说明:
1. k为正整数,作为自变量表示发生次数
2. λ为正整数,作为常量表示在单位时间/面积内发生了的次数
3. P为概率,表示在给定λ的条件下发生k次事件的可能性
成立条件:
1. 该事件为小概率事件
2. 事件独立发生
3. 事件发生概率具有稳定性
适用环境:
用于已知一定时间内稳定发生过的事件发生次数,来预测未来一定时间内发生同样事件的概率

伯努利分布

伯努利分布
成立条件:
伯努利分布成立
1. 每次试验结果只有两种,n=0失败,n=1成功
2. 试验相互独立,n=1的概率为p,n=0的概率为1p
参数说明:
1. n为正整数,表示试验总次数
2. k为正整数,表示结果为成功的次数
3. p位常量,表示每次试验成功的概率
4. P表示进行n次试验,每次成功概率为p的情况下,成功k次的概率
适用环境:
用于已知成功概率的事件,同时用古典概率计算非常繁琐的情况

互联网行业主要指标

PV(page views): 页面浏览数,即用户点击页面次数
UV(unique visitors): 独立用户数,即不同用户点击页面次数,同一用户多次点击无效
DAU(daily activated users): 日活跃用户,每日至少登录过一次的用户数
MAU(monthly activated users): 月活跃用户
LTV(lifetime value): 用户生命周期,用户从开始玩到抛弃游戏所充值的钱数
ARPU(average revenue per user): 用户平均收入,从每个用户身上赚到的钱数

指标的共性

数字化,可以量化比较
易衡量,简单计算可得
意义清晰,无二义性
周期适当,取样周期要合理
尽量客观,减少误差

信息论

“信息是被消除的不确定性”,即对未发生的某一事件存在多种可能性,但发生后只有一种可能性被保留,其他都被消除

理想模型下的信息量

参数说明:
1. m为正整数,即事件所有可能产生的结果的数量
2. I表示一件有m种可能结果的事件被确定一个结果后所产生的信息量的大小
3. I单位为bit
适用环境:
m种结果产生的概率均等

信息量

实际信息量
参数说明:
1. P为常量,表示发生该事件的先验概率,例如历史记录
2. H表示发生概率为P的事件发生了的话,产生的信息量的大小
3. H单位为bit
适用环境:
存在已知的先验概率

香农公式

香农公式
参数说明:
1. B表示码元速率的极限值,B=2H
2. H表示信道带宽,单位为Baud
3. S表示信号功率,单位为瓦
4. N表示噪声功率,单位为瓦
5. S/N表示信噪比,信噪比为0时,传输速率等于理论带宽传输速率
6. C表示一定信噪比下,已知带宽的传输速率
适用环境:
大数据不会用到,仅作为拓展知识

信息熵

信息熵
参数说明:
1. p表示单个事件发生概率
2. n表示事件总数
3. H表示若干个事件的信息量与其发生概率的乘积和,称为熵增
4. log2的底可以为任意值,前后保持一致即可
适用环境:
熵增越大,表示信息的混乱程度越高,信息越不确定
熵增越小,表示信息越单一,信息越确定
如果存在N种情况,则当所有情况发生概率相等时,熵增最大

向量

在数据计算领域的表示方法为(a,b,c,…)
每个元素都是其所在维度上的一个数据取值
例如sql语句创建一个表,该表就是向量,表的字段就是维度

维度

Demension,也可以称作参照系
维度的选取要具有正交性,即相互不产生依赖
正交向量中的任何一个维度数值的改变,不影响其他维度的数值

矩阵的内积

矩阵的内积
矩阵的方向不影响内积结果,可通过转置后相乘得到内积

维度的可视化

维度的可视化
通过三维结构可以将维度和具体数值一次展示出来

线性回归

线性回归
参数说明:
1. e表示误差,满足μ=0的正态分布,随y,x的出现而出现
2. y和x表示同一个试验的两种结果,它们是成对出现的
适用环境:
用于统计分析两种或以上变量间相互依赖的定量关系,由果推因的过程

1. 拟合

在平面上将多个散点用一条光滑的曲线连接起来的过程
通过观测获得若干个y的值,与通过x拟合出来的ax+b之间存在误差e

2. 残差分析

拟合e
为确定拟合的误差值,通过对ax+b与y做差值后取绝对值获得|e|
拟合Q
以误差e最小为目标构造函数并对a,b偏导值为0,求出极值(x,y看作常量)
最小二乘法拟合
此时可使e接近于μ=0的正态分布

3. 过拟合

危害:
1. 描述复杂,参数过多
2. 失去泛化能力,无法预测
成因:
1. 训练样本过少,不构成典型
2. 强迫覆盖过多样本,未排除噪点

4. 欠拟合

成因:
1. 参数过少,维度不足
2. 拟合方法不正确