大数据学习之大数据简介03 - 代码天地

大数据学习之大数据简介03

其他 2019-04-26 00:58:07 阅读次数: 0

3 大数据简介

1-> 什么是大数据？

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和

处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优

化能力的海量、高增长率和多样化的信息资产。

传统的数据处理技术已经无法胜任，需要催生新的技术。一套用来处理海量数据的软件

工具应运而生，这就是大数据！

大数据=数据处理技术

大数据并行化处理数据，Google2004(分而治之)，hadoop产生（Doug Cutting）

数据量到达一定程度的时候存储和计算就成了问题？需要用新的技术解决

处理海量数据的核心技术：

海量数据的存储：分布式

海量数据的计算：分布式

分布式的复杂程度比单机版高很多！运用多台机器一起工作解决问题。

存储和计算成熟的框架：

存储：

HDFS-》分布式文件系统（hadoop的存储框架）

HBASE-》分布式数据库系统（对HDFS的二次封装）

KAFKA-》分布式消息缓存系统

计算框架：

MAPREDUCE-》离线计算框架（hadoop的计算框架）

SPARK-》离线批处理/实时流式计算的计算框架 ->相当于MR的二次封装

STORM-》实时流式计算

辅助类工具：

HIVE-》数据仓库工具

FLUME-》数据采集

SQOOP-》数据迁移

....

2-> 大数据应用场景

典型应用：公司运营情况

CNZZ 数据专家

友盟

电商推荐系统：淘宝、京东、苏宁。。。

大量基于算法模型的运算，的出来各类推荐结论...

广告推送系统：基于海量互联网用户的各类数据（数据共享）

3-> 什么是Hadoop?

http://hadoop.apache.org/

Apache?Hadoop?项目开发了用于可靠，可扩展的分布式计算的开源软件。

Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集

群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每

台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性，

而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供

高可用性服务，每个计算机都可能容易出现故障。

用户可以在不了解分布式的底层细节而开发分布式程序。

用户需要充分的利用集群的为例进行高效的运算和存储。

Hadoop中三个核心组件：

分布式文件系统：HDFS - 实现存储在多台服务器上

分布式运算编程框架：MapReduce - 实现在很多台机器的分布式并行计算

分布式资源调度平台：Yarn - 帮我们调度大量的mapreduce程序的，并且合理分配运算资料

4-> HDFS的运行机制

如何实现分布式存储？

总结：机制->用户的文件会被切块后存储在多台datanode服务器当中，

并且每个文件在整个集群当中存放多个副本，可以自己指定副本数据。

HDFS:对用户统一的目录，存储时会把文件切分为若干个文件块存储，在不同的

datanode服务器当中。

用户文件可以存储多个副本，以增强数据的安全性。

用户存储的块信息存储的位置在namenode当中。

猜你喜欢

转载自www.cnblogs.com/hidamowang/p/10771999.html

大数据学习之大数据简介03

（一）hadoop学习之大数据简介

hadoop之大数据

Java之大数据学习路线

寒假之大数据学习笔记（2）

寒假之大数据学习笔记（1）

寒假之大数据学习笔记（0）

大数据学习笔记之大数据概述

大数据技术之大数据概论

大数据时代之大数据概念

system design之大数据

大数据学习方向简介

大数据学习之路-简介

深入浅出学习大数据：核心篇之大数据分析！

大数据专业技术学习之大数据处理流程

大数据入门培训之大数据开发基础知识学习

好程序员大数据学习路线之大数据自学路线二

好程序员大数据学习路线之大数据自学路线一

02云计算与大数据学习之大数据关键技术与应用习题

02云计算与大数据学习之大数据关键技术与应用

01云计算与大数据学习之大数据环境下的云计算架构习题

大数据入门之大数据处理流程

实战大数据之大数据在医疗行业的应用

大数据教程之大数据处理流程

人工智能之大数据

理论篇之大数据篇

简单介绍之大数据框架

Linux之大数据集群部署

社交媒体之大数据挖掘

大数据03

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)