（期末复习）大数据

其他 2020-02-20 15:19:02 阅读次数: 0

考点

判断（20）简答（20）问答（60）
三个公式的基本运用
不考太复杂的算法
系统部分：hadoop，spark，hiracks，spark streaming
去年题型：

结点扩容，如何使负载均衡
数字存储改为字符串存储
根据三个公式计算期望、方差和质量保证

算法（记忆）

亚线性空间算法

Morris算法

参考链接
在这里插入图片描述

FM算法（弗拉约利特-马丁算法）

参考链接
在这里插入图片描述

BJKST算法

在这里插入图片描述

Misra Gries算法（米斯拉·格里斯算法）

参考链接
在这里插入图片描述

Final Count Sketch算法

参考链接
在这里插入图片描述

AMS算法

参考链接
在这里插入图片描述

Bloom Filter

用于检索一个元素是否在一个集合中

亚线性时间算法

连通分量

在这里插入图片描述

最小生成（支撑）树

如何计算C⁽ⁱ⁾ ?
在这里插入图片描述

图的平均度

在这里插入图片描述

时间亚线性判定算法

e-远离
排序链表搜索：先抽样S，找p,q，再从原数据列表中从p搜到q。

全0数组判定：独立抽取s=2/e个位置上的元素进行检查。
数组有序判定：独立抽取q=2/e个，对qi的两边二分查找。
串相等判定：看成二进制数，n位上的n个数求和，判断是否相等。

大数据计算系统和管理系统

Hapdoop

调度：迭代执行机制

Hive

Spark

调度：DAG
Spark streaming


hadoop	磁盘IO开销大，延迟高，表达能力有限，在前一个任务执行完成前其他任务无法开始
spark	j基于MapReduce，还提供了多种数据集操作模型；提供内存计算；基于DAG的任务调度执行机制

spark生态系统

“一个软件栈实现不同应用需求”
spark可以部署在资源管理器YARN上
同时支持批处理、交互式查询和流数据处理

（资源虚拟化层、存储层、处理层，访问接口层）

spark 运行架构

RDD:分布式内存
DAG:有向无环图
将内存和磁盘共同作为存储设备，有效减少IO开销

spark 运行架构特点

利用多线程来执行具体的任务
运行过程与资源管理器无关
Task采用了数据本地性和推断执行等

RDD

只读的共享内存模型
粗粒度转换
高效

创建RDD

优点：管道化、不需要保存中间结果，惰性调用，避免同步等待，每次操作简单

Spark Streaming和Storm

基于实时数据处理

NoSQL

键值数据库、列族数据库、文档数据库和图数据库
ACID

原子性
一致性
隔离性
持久性

三大基石：CAP、最终一致性和BASE。

CAP：一致性、可用性和分区容忍性。只能三选二。
BASE：基本可用、软状态和最终一致性。

优化方法

在这里插入图片描述

不懂

在这里插入图片描述

天才程序媛

发布了96 篇原创文章 · 获赞 56 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/JAck_chen0309/article/details/103772694

（期末复习）大数据

大数据基础期末复习

大数据期末复习重点

大数据期末总结复习

大数据安全期末复习List

＜大数据技术原理与应用＞期末复习

大数据期末总复习知识点总结

大数据开发技术与实践期末复习（HITWH）

国科大数据挖掘期末复习——聚类分析

数据挖掘期末复习

数据库期末复习

数据结构期末复习

西南交大数据库原理及设计期末复习提纲

山科大数据结构练习题(期末复习)集合

华南农业大学2021春《Hadoop大数据处理技术》期末复习卷

大数据技术原理与应用期末复习习题-前两章大数据概述及Hadoop概述

大数据应用期末总评

大数据复习指导

大数据复习

大数据复习总结

华南农业大学2021春《云计算与大数据》期末考试复习卷

2023 hnust 湖南科技大学大数据技术与应用期末考试复习资料

数据库期末复习提纲

期末复习——数据结构部分

数据库系统期末复习

数据结构期末复习(二)

数据结构期末复习(三)

【期末复习】数据库系统

数据库期末复习（SQLserver）

数据结构期末复习资料

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)