python数据分析新手入门课程学习——(一)数据获取(来源:慕课网)

版权声明:本BLOG上原创文章未经本人许可,不得用于商业用途及传统媒体。网络媒体转载请注明出处,否则属于侵权行为。 https://blog.csdn.net/qq_38266635/article/details/83934128

一、数据获取手段

1.数据仓库(DW):将所有业务数据经汇总处理构成

            1)特点:

             全部事实的记录;部分维度与数据的整理

            2)数据库与数据仓库的不同

            ++数据库面向业务存储,仓库面向主题存储(主题:对于购买图书这一行为就可看作是个主题。谁在几分几秒以什么价格购买了什么书就是购买主题的一个记录。)

            ++数据库针对应用(OLTP),仓库针对分析(OLAP)

            ++数据库组织规范,仓库可能冗余,相对变化大,数据量大

2.监测与抓取

监测:使用检测设备或算法直接获取数据,如传感器网络等等。

抓取:直接通过获取网页内容进行解析与分析的过程。

python中常用的工具:

urllib、urllib2、requests、scrapy用来抓取数据;

beautifulSoup、Xpath(lxml)用来解析路径;

PhantomsJS则用来渲染数据(有些数据需要通过js代码的运行才能解析到)。

3.填写、日志、埋点

填写:用户注册填写的信息。

埋点:是指在APP或网页应用中针对特定的流程收集一定的信息,用来跟踪APP或网页被使用的情况,以便后续进一步优化产品或进行运营支持。常见的记录项:访问、访客、停留时间、页面查看和跳出率。分类:1)页面统计 2)统计操作行为。

日志:日志与仓库相似,但日志较为精简。一般为了分析,日志也会汇总到数据仓库中进行统计分析。 分类:1)前端日志:网页、APP记录的日志。需要传输到后端才能被记录。  2)后端日志:服务器日志。可以直接进行处理。

4.计算

通过已有数据计算生成衍生数据

二、数据学习网站

猜你喜欢

转载自blog.csdn.net/qq_38266635/article/details/83934128