七周成为数据分析师第六周：统计学 - 代码天地

七周成为数据分析师第六周：统计学

其他 2019-04-23 03:38:20 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Julialove102123/article/details/89334252

1.描述性统计学

分类数据的描述性统计：单纯计数就可以

数据描述统计：

统计度量：平均数–数据分布比较均匀的情况下进行，中位数，众数，分位数（4分位、10分位、百分位）
图形：

权重预估（分位数）：

数据分布（波动情况，标准差，方差）

数据标准化：

在实际用用的时候，有很多情况量纲不一致（即数据单位不一样）导致差异很大无法进行比较

用数据标准化将数据进行一定范围的压缩，得到的结果与数据业务意义无关，纯粹是数据上的波动达到可进行对比。

xi：数据的具体值

u：平均值

σ：标准差

标准化之后一般都是在0上下直接按波动的数字，就可以反应原始数据的典型特征进行分析。

但是，标准化的办法还需要根据实际数据类型确认，不同标准化办法的实际标准化意义不同。

关于销量等特征与时间的关系，需要从多个时间维度去分析才能得到更多结论。如，周期、月份和年份。

切比雪夫定理：

是一个经验定理，可以用来排除大部分异常值。数据量越大，精确度更高。

2.描述统计可视化

1.箱线图：描述一组数据的分布情况。

Excel中能直接对数据进行作图，并且还能添加许多对比条件。

2.直方图：数值数据分布的精确图形表示

标准型：分布均匀，出现在大多数场景下。
陡壁型：比较容易出现在收费领域
锯齿型：说明数据不够稳定
孤岛型：要研究分析孤岛产生的原因
偏峰型：销售数据一般会产生偏锋，一般会出现长尾（或左或右）
双峰型：两者数据混合一般会形成双峰

直方图引出另外一个概念：偏度，统计数据分布偏斜方向和程度的度量

正态分布：也称“常态分布”

以上公式成立是，有标准正态分布。

可以用来进行异常值排查，或者假设的数据分布。

3.概率推断统计

统计推断(statistical inference)，指根据带随机性的观测数据（样本）以及问题的条件和假定（模型），而对未知事物作出的，以概率形式表述的推断。

重要概念：贝叶斯定理

案例：

如果某种疾病的发病率为千分之一。现在有一种试纸，它在患者得病的情况下，有99%的准确率判断患者得病，在患者没有得病的情况下，有5%的可能误判患者得病。现在试纸说一个患者得了病，那么患者真的得病的概率是多少？

P(A1)代表是真实患者的概率
P(A2)代表是健康人群的概率
P(B)代表试纸查出患者的概率
P(B|A1)为真实患者条件下试纸查出患者的概率，即99%
P(B|A2)为健康人群条件下试纸误判为患者的概率，即5%
P(A1)为真实患病率0.1%，
P(A2)为健康率99.9%

在知道结果A已经发生，想要推导出各种原因发生的可能性情况。

贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用，它告诉我们当我们要预测一个事物，我们需要的是首先根据已有的经验和知识推断一个先验概率，然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。

重要概念：其他分布

二项分布
泊松分布
正态分布
假设检验：A/B测试、Z测试。

猜你喜欢

转载自blog.csdn.net/Julialove102123/article/details/89334252

七周成为数据分析师第六周：统计学

第六周：统计学

七周成为数据分析师07_统计学基础

七周成为数据分析师01_数据分析思维

七周成为数据分析师第七周：Python

七周成为数据分析师第五周：Mysql

七周成为数据分析师第三周：Excel篇

七周成为数据分析师第二周：业务篇-指标

七周成为数据分析师02_业务分析指标

七周成为数据分析师03_业务分析框架

七周成为数据分析师05_数据可视化

七周成为数据分析师—Excel函数篇

如何七周成为数据分析师

【目录】七周成为数据分析师

七周成为数据分析师06_MySQL

七周成为数据分析师04_Excel

七周成为数据分析师第一周：数据分析思维

数据分析师博文集合七周成为数据分析师01_数据分析思维七周成为数据分析师02_业务分析指标七周成为数据分析师03_业务分析框架七周成为数据分析师04_Excel 七周成为数据分析师05_数据可视化七周成为数据分析师06_MySQL 七周成为数据分析师07_统计学基础爬取链家北京租房数据并做简单分析二手车数据分析-爬取人人车二十余万条线上二手车数据

七周成为数据分析师第四周：数据可视化

统计学第六周&七周打卡：抽样与抽样分布

七周成为数据分析师第二周：业务篇-框架与模型

《七周成为数据分析师》前5周小结--第一期

天善磨剑之作,七周成为数据分析师秦路主讲

【转】如何七周成为数据分析师22：用pandas进行数据分析实战

第六周

第六周.

第六周作业第六周作业

第六周作业

JavaEE第六周

JAVAEE 第六周

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)