《大数据之路 阿里巴巴大数据实践》阅读学习记录(编辑中)

本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。
另外,本书是阿里的技术分享,并非行业的严格规范。

日志采集

(这一部分我以理解为主,没做过多研究)

浏览器日志采集

  • 主要分为页面浏览日志和页面交互日志。
    页面浏览日志:以pv、uv为主
    页面交互日志:以用户行为日志为主,用于获取用户兴趣和体验优化点。(业务方会注册一个模板,获取需要的那部分日志)

  • 采集后的日志需要处理
    1.存在流量攻击、爬虫、作弊流量
    2.数据缺项补正
    3.存在无效数据

无线客户端日志采集

通过采集SDK采集日志
根据事件进行了分类,分为页面事件和控件点击事件,和浏览器采集的两种对应。

  • 页面事件
    日志记录分为三类信息:设备及用户基本信息、被访问页面的信息(业务参数)、访问路径。
    为了平衡采集、计算、分析成本,日志会采用透传。即上个页面的日志传到下个页面,甚至下下个。

  • 采集SDK提供了聚合功能
    减少发送的请求、减小日志大小。例如滚动页面的多条日志可以聚合起来。

  • H5和Native日志统一
    当今app大多为有Native又有H5嵌套,两者对应无线端和浏览器端日志,需要进行结合才能更好分析。

日志采集的挑战

  1. 分流与定制
  2. 采集与计算一体化

数据同步

猜你喜欢

转载自blog.csdn.net/weixin_43093501/article/details/106341863