给想进入大数据行业的朋友的建议(二)

我们在上一篇文章中给大家介绍了大数据中的各个环节的普及内容,大数据的环节有数据的收集、数据的传输、数据的转换、数据的清洗、数据的储存、数据的二次加工、数据的挖掘、数据的统计、数据的上层应用输出。今天我们在这篇文章中给大家介绍一下大数据的第一个环节,那就是数据的收集。

在数据的收集阶段,数据主要有4种存在方式,它们分别是第三方开放数据集、业务数据、服务日志、行为上报数据,下面我们就给大家详细大家的解答一下这些知识。

我们先说说第三方开放数据,目前爬取第三方开放数据的形式已经逐渐被认可,并且将会越来越多的人以及企业从互联网开放数据集中获取原始数据。针对于开放数据的获取,爬虫已经可以单独形成一个体系了,包括不同的爬虫框架,以及近年来对于分布式爬虫的技术需求等,所以需要学习Python知识,辅助其他相关脚本知识。

当然,如果我们的数据是业务数据,那么业务数据一般存储在传统的数据库中,这就需要我们学习数据库相关的技术知识,当然我们需要学会简单的数据库知识,这样才能够做到业务数据的收取。

如果我们想要对数据进行统一化的处理,而且还需要对数据的迁移,这就需要我们学习一些其他的技术了,我们需要把从传统数据存储介质中迁移到生态框架中,这就需要我们学习Hadoop。当然,我们还需要学习SQL相关的知识需要补充,以及linux操作,还需要对java需要简单的掌握。还有,加入我们的数据是记录在服务日志中,那么,我们需要对linux很熟悉,各种脚本的使用,日志文件的各种操作。如果体量大,我们还需要把这些日志文件丢到分布式框架中进行处理、清洗。对于这种数据的处理,我们需要掌握的一方面是linux的熟悉操作、另一方面是一些诸如离线数据处理框架的使用,语言方面还是以java、脚本类语言为主。只有学到了这些,我们才能够做好对服务日志的数据收集。

如果是数据上报的形式,这就需要我们需要对整个数据上报的流程熟悉,怎么进行埋点、怎么收集上报的数据,上报过来怎么进行传输接受落地,这里就不多说,最终这种上报过来的数据就会相当整齐。我们在这篇文章中给大家介绍了数据的收集的相关知识了,在数据收集方面需要学的知识还是有很多的,所以希望大家能够根据自己的需求定制学习计划,希望这篇文章能够给大家带来帮助。

猜你喜欢

转载自www.cnblogs.com/CDA-JG/p/10266427.html