再度学习大数据技术与应用（厦门大学林子雨） - 代码天地

再度学习大数据技术与应用（厦门大学林子雨）

企业开发 2023-12-17 18:09:46 阅读次数: 0

再度学习大数据技术与应用（厦门大学林子雨）

4V概念

大数据 -结构化数据与非结构化数据组成

数据量大
处理速度快（秒级决策）
价值密度低商业价值高

大数据概念和影响

以数据为驱动去发现和解决问题，颠覆传统的方式
全样非抽样
精度非效率
相关非因果

大数据的应用

纸牌屋的拍成电视剧-大数据应用
谷歌的预测流感

大数据的关键技术

1.数据存储
分布式存储
google 技术
在这里插入图片描述
2.数据处理
分布式处理
不同的需要：

批处理

   mapreduce / spark

实时计算

流计算（实时） S4

图计算

   Pregel Graphx

交互式计算（查询计算）

google Dremel hive

大数据与云计算

 **虚拟化与按需服务**
 公有云
 私有云
 混合云
 **三个层次：**
 Iaas Paas Saas

二大数据处理架构 hadoop

apache 项目
使用java语言开发的
两大核心 源于谷歌提供的技术
HDFS + Mapreduce
高可靠性
高效性集群
高扩展性
高容错性
成本低
High performance computing

数据分析实时查询数据挖掘
Hadoop大体应用

2.2 hadoop 项目结构

项目架构

HDFS 分布式文件存储
YARN 资源管理和调
度
MapReduce 离线处理
Tez （DAG 有向图计算，运行在yarn上面，查询处理框架）
sprk 在内存中进行计算加快数据读取计算速度
Hive 数据仓库用于企业决策分析大量历史数据
将SQL语句转化为Mapreduce作业
pig 流数据处理

pig 简化处理使用一条语句代替多条mapreduce语句
Oozie 作业流调度系统

oozie 作业流

Zookeeper 分布式协调服务

分布式锁
集群管理
Hbase Hadoop上非关系型分布式数据库
Flume 日志收集分析
Sqoop 用于在Hadoop与传统数据库之间进行数据传输
Ambari 部署工具

2.3 Linux与Hadoop的安装

用
workstation 12（以上版本） + unbantu 16.04-destop-am 版本（用高的版本极大概率会出现 mysql等诸多软件版本不兼容的情况，太多报错问题，不要问我为什么知道）
workstation教程自己百度

从优麒麟传送门网址官网上找到16.04的版本
下载相应的版本
下载完成后使用workstation开始创建新的虚拟机

创建典型就可以
使用光盘映像文件 ubantukylin-16.4版本（图片版本请忽略）
设置名字账号密码相关内容
虚拟机名称
设置大小建议为40或者更大，设置为单个文件方便删除
完成安装，安装虚拟机，确认硬件相关，优麒麟相关的内容耗费时间比较长。

2.3.2接Hadoop安装

安装hadoop3.1.3步骤传送门

2.4 Hadoop集群的部署和使用

为了照顾作业完成部署集群
在这里插入图片描述
集群硬件配置 NameNode 与 DataNode
NameNode相当于目录
datanode 存储数据

MapReduce作业
jobTracker 对整个作业拆分处理多个小作业然后协调处理
taskTracker部署在不同的机器上对小作业，对于JobTracker布置的小作业进行跟踪和执行
在这里插入图片描述

Secondary冷备份

大部分机器是 Datanode与 TaskTracker进行数据处理，需要配置如下
在这里插入图片描述
NameNode 总管家管理各种元数据并提供服务，很多数据保存在内存中。

所需要的配置更高

Hadoop集群工作状态
集群的搭建原则

集群的网络拓扑
机架之间连接，机架之间连接

在云平台上部署服务

猜你喜欢

转载自blog.csdn.net/huangdxian/article/details/120734446

再度学习大数据技术与应用（厦门大学林子雨）

厦门大学林子雨开设的《大数据技术原理与应用》第七章 MapReduce

厦门大学林子雨开设的《大数据技术原理与应用》第六章云数据库

厦门大学林子雨开设的《大数据技术原理与应用》第五章NoSQL数据库笔记

厦门大学林子雨开设的《大数据技术原理与应用》第二章分布式文件系统HDFS笔记

厦门大学林子雨老师大数据实验环境搭建索引

厦门大学林子雨开设的《大数据技术原理与应用》第三章分布式数据库HBase数据库笔记

Hive学习（部分参考厦门大学林子雨老师的课程）

林子雨大数据技术原理总结

大数据技术原理与应用-林子雨课后（部分习题答案）

《大数据技术原理与应用》林子雨(第二版)--总结

期末救命-大数据技术原理及应用(林子雨版）（巧记知识点）

林子雨大数据java练习

spark厦门大学

厦门大学数据库实验室

大数据综合实验的踩坑总结（林子雨）

爬取厦门大学电费

厦门大学《信号与系统》考试大纲

2019厦门大学技术经济及管理专业考研分析

厦门大学903数据结构B 部分历年真题

厦门大学转专业数据分析（基于无向图）

2019厦门大学公共政策专业考研分析

2019厦门大学中国哲学专业考研分析

2019厦门大学桥梁与隧道工程专业考研分析

厦门大学智能语音实验室

厦门大学校园导游系统（图论）

matlab厦门大学第一讲笔记

厦门大学程序设计大赛月赛 A (dfs)

【python 自动操作，由厦门大学打卡系统衍生】

厦门大学计算机考研分析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)