海量数据的常用10大解决方案 - 代码天地

海量数据的常用10大解决方案

其他 2018-12-14 08:50:58 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_1018944104/article/details/84979545

教你如何迅速秒杀掉：99%的海量数据处理面试题：

https://blog.csdn.net/v_july_v/article/details/7382693

July：海量数据处理：

https://blog.csdn.net/u013074465/article/details/40504281

1、布隆过滤器

2、Hash散列

3、BitMap：降低内存的使用量。操作复杂度有所上升的。

位图

找出100G的数据中，出现次数为2次的元素并且给定的内存有限

要求出出现次数为3次的怎么做？

简化：

有一批数据，是从1-10000，请给我找出不存在的元素并且给定的内存有限

排序：计数排序

存在不存在用1位

0

1

1次 2次用2位

00

01

10

11

3次 4次 5次 6次用3位

000

001

010

011

100

101

110

111

4、堆

HDFS

hbase 布隆过滤器

es

kafka

mysql 的索引： B+树

5、双层桶划分

桶

hive的分区：手动建立，数据不一定是完美的分区的

hive的分桶：经过算法严格校验

6、数据库索引

索引：提高查询效率的

B+树二分查找

7、倒排索引

根据ID 找文档很容易

根据身份证编号找人容易

根据姓名找人身份证里面

现在有10本书

请找出编号为3的书

1 hadoop权威指南

2 算法导论

3 编程珠玑

.....

请找出书中有讨论hadoop的书

实现的复杂度很高

hadoop权威指南 hadoop(233) spark(44) flink(5)

算法导论 HDFS mapreduce hadoop(66)

编程珠玑 java hdfs

html1 key1 key2 key3 ...

html2 key2 key4 kye7

......

key1 html1

key2 html1 html2

HDFS 编程珠玑算法导论

hadoop hadoop权威指南(233) 算法导论(66) abc(20)

spark hadoop权威指南

flink hadoop权威指南

mapreduce 算法导论

java 编程珠玑

PageRank算法

大数据

从谷歌来的

hadoop 从三篇论文

nutch

lucene

es

hbase

hdfs

mapreduce

提高计算和存储效率

storm

mahout

ambari

sqoop

....

8、外排序

归并排序

两个效果：

1、合并

2、排序

本质原理：

把两个有序数组合并一个

把两个有序文件合并成一个文件

9、Trie树

字典树

10、分布式解决方案：MapReduce或者Spark

通用解决方案

求TopN

求交集

判断元素存在不存在

求元素出现不出现

求元素出现几次

.....

程序：

数据结构 + 算法

分布式场景中，最复杂的就是优化

猜你喜欢

转载自blog.csdn.net/qq_1018944104/article/details/84979545

海量数据的常用10大解决方案

WebGIS三大解决方案

海量数据的解决方案

海量数据解决方案

CDN加速的四大解决方案

使用pyinstalle进行打包 exe过大解决方案（五大解决方案）

海量数据解决方案Bitmap

海量账户大并发实时查询解决方案

跨域9大解决方案(超详细) 总结

海量数据存储 - 性能瓶颈 - 解决方案

上云迁移-海量数据迁移解决方案

DB - mysql海量数据的存储和访问解决方案

海量数据和高并发解决方案总结

海量数据和高并发解决方案

大型网站应用之海量数据解决方案

MyCat分片-海量数据存储解决方案

针对海量数据和高并发的主要解决方案

杉岩海量数据存储解决方案

HBase海量数据高效入仓解决方案

详解混合云数据安全传输两大解决方案

微信小程序setData数据太大解决方案

ThingsBoard Gateway：物联网设备数据采集与集成的强大解决方案

Mysql海量数据存储和解决方案之二----Mysql分表查询海量数据

以“智变”应万变，揭秘新华三数字化六大解决方案！

undotbs01.dbf文件太大解决方案

mac系统空间占用大解决方案

Linux下日志文件过大解决方案

自定义字体体积过大解决方案

海量处理问题的解决方案

Mysql海量数据存储和解决方案之一—分布式DB方案

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)