大数据基础问题

1、什么是大数据?
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

2、什么是大数据技术?哪些技术适应于大数据?
大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

3、大数据的特点?
(1)数据体量巨大。
(2)数据类型多样。
(3)处理速度快。
(4)价值密度低。

4、大数据的作用?
(1)大数据的处理分析成为新一代信息技术融合应用的结点。
(2)大数据是信息产业持续高速增长的新引擎。
(3)大数据利用将成为提高核心竞争力的关键因素。
(4)大数据时代科学研究的方法手段将发生重大改变。

5、大数据分析存在的方法理论有哪些?
(1)可视化分析。
(2)数据挖掘算法。
(3)预测性分析。
(4)语义引擎。
(5)数据质量和数据管理。

6、大数据的技术?
(1)数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
(2)数据存取:关系数据库、NOSQL、SQL等。
(3)基础架构:云存储、分布式文件存储等。
(4)数据处理:自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
(4)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
(5)数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
(6)模型预测:预测模型、机器学习、建模仿真。
(7)结果呈现:云计算、标签云、关系图等。

7、大数据处理的基本流程?
(1)采集;
(2)导入/预处理;
(3)统计/分析;
(4)挖掘。

8、大数据时代存储所面临的问题?
容量问题、延迟问题、安全问题、成本问题等。

9、大数据应用的案例?
医疗行业、能源行业、通信行业、零售业等。

猜你喜欢

转载自blog.csdn.net/qq_36294338/article/details/108726660