数据采集:如何自动化采集数据

数据采集:如何自动化采集数据

一个数据的走势,是由多个维度影响的,收集到尽可能多的数据维度,同时保证数据的质量,才能得到高质量的数据挖掘结构

数据源分四类:开放数据源(政府、企业、高校)、爬虫抓取(网页、APP)、日志采集(前端采集、后端脚本)、传感器(图像、测速、热敏)

如何使用开放数据源

开放数据源可以从两个维度来考虑,一个是单位的维度,比如政府、企业、高校;一个是行业维度,比如交通、金融、能源等领域,如果想找某个领域的数据源,比如金融领域,可以直接搜索金融开放数据源

如何使用爬虫做抓取

使用Python编写爬虫代码

  • 使用Requests爬取内容,使用Requests库来抓取网页信息,Requests库就是Python的HTTP库,通过这个库来爬取网页中的数据
  • 使用XPath解析内容,XPath是XML Path缩写,就是XML路径语言,一种用来确定XML文档中某部分位置的语言,XPath可以通过元素和属性进行位置索引
  • 使用Pandas保存数据,用Pandas来保存爬取的数据,再写入到XLS或者MYSQL数据库中

当然也可以不编程就抓取到网页信息,比如:火车采集器、八爪鱼、集搜客

如何使用日志采集工具

传感器采集基本基于特定的设备,将设备采集的信息进行收集即可

为什么进行日志采集?通过分析用户访问情况,提升系统性能,从而提高系统承载量

日志记录了用户访问网站的全过程:哪些人在是什么时间,通过什么渠道(搜索引擎、网址输入)、执行什么操作、系统是否发生错误、这些数据可以被写在一个文件中,也可以分成不同日志文件,比如访问日志、错误日志等

日志采集分为两种形式:

  • 通过WEB服务器采集,比如httpd、Nginx、Tomcat都自带日志记录功能,还有很多互联网企业都有自己的海量数据采集工具,用于系统日志采集
  • 自定义采集用户行为,例如用JavaScript代码监听用户行为
埋点是什么

埋点就是在有需要的位置采集相应的信息进行上报,比如某页面的访问情况,包括用户信息、设备信息,或者用户在页面上的操作行为,包括时间长短等等就是埋点,每个埋点相当于一个摄像头,采集用户行为数据,将数据进行多维度的交叉分析真实还原用户使用场景,和用户使用需求

埋点就在你需要统计数据的地方植入统计代码

扫描二维码关注公众号,回复: 9867809 查看本文章

关于怎么做埋点:https://blog.csdn.net/feishangbeijixing/article/details/86445704

发布了75 篇原创文章 · 获赞 9 · 访问量 9171

猜你喜欢

转载自blog.csdn.net/ywangjiyl/article/details/104740396