大数据入门学习指导

随着科技的发展,我们进入了大数据时代。大数据与人们的生活息息相关,而如今越来越多的学校也已经开设了数据科学与大数据专业,那么现在正火热的大数据究竟是什么?身为学生的我们又该如何入门呢?

我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,不定期分享干货,包括我整理的一份适合零基础学习大数据资料和入门教程。

  • 什么是大数据?

大数据(Big Data)由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、管理和处理能力, 需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说大数据就是“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。

1.数据体巨大(Volume):当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级(1EB=210PB,1PB=210TB)。

2.数据类型多(Variety):除了以往常见的文本数据外,还有其他的数据类型,包括网络日志、音频、视频、图片、地理位置信息等等等等。

3.价值密度低(Value):价值密度的高低与数据总量的大小成反比。所以对于大数据来说这一点是毋庸置疑的。

4.速度快(Velocity):指的是数据输入输出的速度。

  • 大数据能干什么?

大数据在很多方面都有用到,包括感测设备网络、天文学、大气学、交通运输、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、金融大数据,医疗大数据,社交网络、通勤 时间预测、医疗记录、照片图像和视频封存、大规模的电子商务等各方面。

举个例子,洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生(BBC纪录片”大数据时代的来临“中提到了这个),他们采集分析了80年来1300万起犯罪案件,用于进行犯罪行为的大型研究,通过算法预测成功将相关区域的犯罪率降低了36个百分点。听起来是不是很神奇?他们利用大量的数据进行犯罪研究,建立了一个犯罪预测算法,把洛杉矶市分成单位面积约为0.15平方公里的一个个“方块区”,然后按照犯罪行为发生的可能性为这些方块区排序。

  在当天早晨点名时,富特希尔区的每个巡逻警察都收到一份任务地图,每张地图上都清楚地标示出一个或多个方块区,表明这些地区是犯罪发生“可能性高”的区域。图上还附有犯罪类型的统计学预测。马林诺夫斯基告诉他们:“只要你们有时间,就深入这些方块区巡逻,找出那些可能会采取犯罪行为的人或预示着可能会发生犯罪案件的状况,并采取强制或预防措施,避免犯罪案件发生。”

不得不说,大数据能干的事情真的是太多了!

  • “数据科学与大数据技术”专业怎么样?

麦肯锡(McKinsey)公司曾出具一份详细分析,该分析显示预计到2018年,大数据或者数据工作者的岗位需求将激增,其中大数据科学家的缺口在140000到190000之间,对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将达到1500000!

这意味着目前大数据类的人才非常稀缺,换句话说,大数据的就业前景还是蛮不错的,为了解决大数据人才缺少的问题,很多高校设立了数据科学与大数据技术的本科专业,那么这个专业难吗?那是肯定的,毕竟大数据以前属于研究生方向而现在却改成了本科生方向。而且数据科学与大数据技术专业可以说是基本上整合了数学、计算机、统计学三门学科的一个专业,这三个专业无论单看哪一个都是非常累人的而且还难,整合到一起就更不用说了。因此想要选这个专业最好逻辑思维强,数学好。

  • 如何入门大数据?

说了这么多,那么大数据应当如何入门呢?

首先你要有基本的数学知识:高等数学, 线性代数,概率论。

这些都非常重要,大多数大学都有开设这三门课,就不多说了。在这里推荐一本不是课本的书:李航的《统计学习方法

有了基本的数学知识后就可以入门大数据的基础:机器学习 了,了解一些相关的概念,比如决策树,神经网络,SVM, 贝叶斯,BP, 集成学习等等,有了这些理论知识后再自己动手敲代码来实现。

推荐书籍:《机器学习》

有了基础知识就要学会用,python为必学编程语言, 同时也因为其语言的简洁非常适合入门学习,而且python语言有非常强大的库,说了这么多,自己一定要多敲代码!多敲代码!多敲代码!重要的事情说三遍!

  • 大数据专业的工作岗位?

学习大数据也可以参考自己想做的工作的招聘信息来决定自己的学习方向,目前大数据相关比较热门的岗位有以下几个:

1.大数据系统架构师

大数据平台搭建、系统设计、基础设施。

2.大数据系统分析师

面向实际行业领域,利用大数据技术进行数据安全生命周期管理、分析和应用。

3.hadoop开发工程师。

解决大数据存储问题。

4.数据分析师

不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。

5.数据挖掘工程师

做数据挖掘要从海量数据中发现规律。

6.大数据可视化工程师

随着大数据在人们工作及日常生活中的应用,大数据可视化也改变着人类的对信息的阅读和理解方式。从百度迁徙到谷歌流感趋势,再到阿里云推出县域经济可视化产品,大数据技术和大数据可视化都是幕后的英雄。

猜你喜欢

转载自blog.csdn.net/qq_43713878/article/details/84337196
今日推荐