大数据基本概念总结

大数据特点：

五个主要技术特点：5V

Volume（大体量）：即可从数百TB到数十数百PB、甚至EB规模。

Variety（多样性）：即大数据包括各种格式和形态的数据。

Velocity（时效性）：即很多大数据需要在一定的时间限度下得到及时处理。

Veracity（准确性）：即处理的结果要保证一定的准确性。

Value（大价值）：即大数据包含很多深度的价值，大数据分析挖掘和利用带来巨大的商业价值。

大数据概念：

大数据是指数据规模大，尤其指因为数据形式多样、非结构化特征明显，导致数据存储、处理和挖掘异常困难的那类数据集。

大数据性质：

非结构性，不完备性，时效性，安全性，可靠性

大数据技术概述：

大数据及时是指从数据采集、清洗、集成、分析与解释，进而从各种各样的巨量数据中快速获得有价值信息的全部技术。

大数据趋势：

大数据细分市场、大数据推动企业发展、大数据分析的新方法出现、大数据与云计算高度融合、大数据一体化设备陆续出现、大数据安全日益受到重视。

大数据应用实例：

网络大数据、金融大数据、企业大数据、政府管理大数据、安全大数据。

在医疗行业中医疗保健内容的预测分析、早产婴儿的预测分析、精确确诊的预测分析

在能源行业中：智能电网、风力系统依靠大数据技术对气象数据进行分析

在通信行业中：通过分析客户的资料分析客户需求

交通行业中：车辆的运输管理，解决道路拥堵

零售业中：收集社交信息，分析消费者水平

科学研究四个范式：

第一范式：

概念：科学实验主要描述自然现象，以观察和实验为依据的研究，也可称为经验范式。

内容：实验是人们为实验预定目的，在人工控制条件下，通过干预和控制科研对象而观察和探索科研对象的规律和机制的一种研究方法，

特征：纯化观察对象条件、强化观察对象、可重复性

第二范式：

概念：以建模和归纳为基础的理论学科和分析范式，又称为理论范式。

内容：是对某种经验现象或事实的科学解说和系统解释，他是由一系列特定的概念、原理、命题以及对他们的严密论证组成的知识体系。

特征：抽象性、逻辑性、系统性

第三范式：

概念：是以模拟复杂现象为基础的计算科学范式又称模拟范式

内容：模拟有三种方法数学模型方法模拟程序方法物理模型方法

特征：高度抽象高度精确具有普遍意义

第四范式：

概念：以考察为基础，联合理论、实验、和模拟一体的数据密集计算的范式

内容：数据被捕获或者由模拟器生成，利用软件处理，信息和知识存储在计算机中国，科学家使用数据管理和统计学方法分析数据

特征：处理对象是数据，是围绕数据展开的计算；计算的含义是从数据获取到管理再到分析、理解的整个过程；其目的是推动技术前沿发展，目标是依赖传统的单一数据源和准静态数据库无法实现的应用。

可伸缩性：

又称可扩展性，是指通过扩展系统规模来提高性能并处理更大数量的用户和通过扩展系统规模提高系统的容错能力等

横行扩展：

向逻辑单元之外的扩展，增加更多逻辑单元的资源，并使他们像一个单元一样工作。

CAP定理：

一个分布式系统不可能同时满足一致性、可用性和分区容错性三个系统需求，最多只能同时满足俩个系统需求。在考虑满足系统需求时，要根据实际需要来选择关注点，进而采用相应的策略。

函数式编程优点：

逻辑可证、模块化、组件化、易于调试、易于测试、更高的生产率

函数式编程的特征：

没有副作用、无状态编程、只有输入值与输出值

Mapreduce是谷歌针对大规模群组中的海量数据处理而提出的分布式编程模型

Hadoop 是一个用于收集、共享和分析来自网络的大量结构化、半结构化和非结构化数据的平台。

Hadoop优点：方便、健壮、横向可扩展、简单。

Hadoop与sql数据库比较：横向扩展代替纵向扩展、键值对代替关系表、函数式编程代替声明式查询、离线批量处理代替在线处理

流式数据的特征：实时性，易失性，突发性，无序性，无限性，可靠性

流式计算性能指标：计算方式，常驻空间，时效性，有序性，数据量，数据速率，是否可重现，移动对象，数据精确度

Storm：任务拓扑=有向无环图（Spout、Bolt）Spout读取数据（元组）——》Blot。节点：Nimbus Supervisor。特征：编程模型简单（Spout，Blot），多语言支持，作业级容错，水平可拓展，快速消息计算。Zookeeper：存储信息，1任务拓扑，任务分配，任务执行状态，2从节点状态，工作进程状态，心跳信息，3集群状态配置信息

Nimbus master资源分配，任务调度，状态监控，故障检测（接受任务，分配任务，写入Zookeeper，重启节点）

Zookeeper cluster

Supervisor Slaves{Worker{Executor{task[1+]}}

storm三种运行环境：master、cluster、slaves

Storm主要特征：编程模型简单、支持多种编程语言、作业级容错性、水平可扩展、快速消息计算

Storm不足：资源分配没有考虑任务拓扑的结构特征，无法适应数据负载的动态变化；采用集中式的作业级容错机制，在一定程度上限制了系统的可扩展性想系统学习大数据的话，可以加入大数据技术学习交流扣扣君羊：522189307，欢迎添加，了解课程介绍

大数据搜索技术。不含语义搜索引擎、不含搜索引擎优化。

① 组成:搜索器、索引器（处理搜索结果得出索引）、检索器（根据用户输入检查索引库中检出文档排序。。。。）、用户接口

② 搜索引擎的分类：全文搜索引擎、目录搜索引擎、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎。

③ 工作过程：爬行，抓取存储，预处理，排名。

④ 搜索引擎评价指标：查全率、查准率、响应时间、覆盖范围、用户方便性。

大数据预处理技术。

① 数据抽取，包装器（完成数据抽取（映射）的程序）映射数据源S，数据库R 映射M（从数据S抽取、按格式存储到R）5

② 抽取方法：同构同质，同构异质，文件型，增量更新

大数据分析。大数据分析概述、基本数据分析方法

① 用准确合适的分析方法和工具来分析经过处理的数据，提取具有价值的信息，进而形成有效的结论并通过可视化技术展现出来的过程。

② 目的对杂乱无章的数据进行集中、萃取和提炼进而找出所研究对象的内在规律，发现其价值

数据分析方法分类：基本分析方法、高级分析方法、数据挖掘方法

③ 步骤识别需求-》收集数据-》分析数据

④ 数据分析类型 : 探索性数据分析（为了形成假设，侧重发现特征）定性数据分析（非数值数据）离线数据分析在线数据分析

⑤ 方法：统计指标对比分组分析综合评价指数分析平衡分析平滑和滤波基线与峰值

数据科学与数据思维。数据科学概述、大数据研究方式。不含数据专家。

① 数据科学是指导数据分析预处理的科学，系统的理论与方法，数据科学通过系统性的研究数据的组织和使用，可以促进发现改进关键决策过程。

② 数据科学研究的内容：基础理论、实验方法与逻辑推理方法、领域数据学、数据资源的开发和技术。

③ 数据科学主要有两个内涵：一个是数据本身，研究数据的各宗类型、状态、属性及变化形式和变化规律；另一个是为自然科学和社会科学研究提供一种新的方法，成为科学研究的数据方法，其目的是揭示自然界和人类行为现象和规律，将现实世界中的事物和现象以数据的形式存储到存储空间

大数据基础入门教程

发布了144 篇原创文章 · 获赞 1 · 访问量 1万+

私信关注

大数据基本概念总结

猜你喜欢