版权声明:本BLOG上原创文章未经本人许可,不得用于商业用途及传统媒体。网络媒体转载请注明出处,否则属于侵权行为。 https://blog.csdn.net/qq_38266635/article/details/83934128
一、数据获取手段
1.数据仓库(DW):将所有业务数据经汇总处理构成
1)特点:
全部事实的记录;部分维度与数据的整理
2)数据库与数据仓库的不同
++数据库面向业务存储,仓库面向主题存储(主题:对于购买图书这一行为就可看作是个主题。谁在几分几秒以什么价格购买了什么书就是购买主题的一个记录。)
++数据库针对应用(OLTP),仓库针对分析(OLAP)
++数据库组织规范,仓库可能冗余,相对变化大,数据量大
2.监测与抓取
监测:使用检测设备或算法直接获取数据,如传感器网络等等。
抓取:直接通过获取网页内容进行解析与分析的过程。
python中常用的工具:
urllib、urllib2、requests、scrapy用来抓取数据;
beautifulSoup、Xpath(lxml)用来解析路径;
PhantomsJS则用来渲染数据(有些数据需要通过js代码的运行才能解析到)。
3.填写、日志、埋点
填写:用户注册填写的信息。
埋点:是指在APP或网页应用中针对特定的流程收集一定的信息,用来跟踪APP或网页被使用的情况,以便后续进一步优化产品或进行运营支持。常见的记录项:访问、访客、停留时间、页面查看和跳出率。分类:1)页面统计 2)统计操作行为。
日志:日志与仓库相似,但日志较为精简。一般为了分析,日志也会汇总到数据仓库中进行统计分析。 分类:1)前端日志:网页、APP记录的日志。需要传输到后端才能被记录。 2)后端日志:服务器日志。可以直接进行处理。
4.计算
通过已有数据计算生成衍生数据