海量日志数据，提取出某日访问百度次数最多的那个IP - 代码天地

海量日志数据，提取出某日访问百度次数最多的那个IP

编程语言 2018-05-09 19:37:03 阅读次数: 4

问题：一个的日志文件中存放IP地址，按照访问量对IP地址取访问量最大的IP，内存大小4M

解答：

1.由于内存大小的限制，分而治之

2.IP地址，0.0.0.0 ~ 255.255.255.255 ，

255(10) = 11111111(2)
共 4*8 = 32 bit 表示一个IP地址
每位上共两种变化，所以共 2^32 个不同的IP地址

拆分为1024文件
2^32 / 2^10 = 2^22 = 4M，每份文件中最多存放4M个不同的IP地址

3.计算IP地址的HASH值

IP.hash % 1024 ，让IP地址落在不同的文件中

计算Hash值再取余，
类比HashMap ，
二次计算Hash值，即将key的hashCode 再进行计算，
是因为

4.在1024个小文件中，计算当前文件中的访问量最高的IP地址，可以使用HashMap的形式

5.再从得出的1024个结果中，选取访问量最高的IP地址

6.使用Hash(IP)%1024的原因
直接分配：即将大文件拆分成1024个小文件，平均分配，按照顺序依次将IP地址放入不同的文件中；缺点，大文件中IP地址是按照实际应用中的顺序存放的，可能存放在分配到不同的文件后，每个文件中都有相同的IP地址；而这些在不同文件中相同的IP地址，又可能不是改文件中数量最多的IP地址；
散列分配：能够保证把相同的IP地址分配到同一个文件中，不会出现统计遗漏的问题或混淆

博文参考：

如何从海量日志中提取访问最多的10个IP
10道Hadoop面试真题及解题思路

猜你喜欢

转载自mingyundezuoan.iteye.com/blog/2401315

海量日志数据，提取出某日访问百度次数最多的那个IP

百度面试题——海量日志数据，提取出某日访问百度次数最多的那个IP

1、(topK问题)海量日志数据，提取出某日访问百度次数最多的10个IP。

面试冲刺:25---海量日志数据，如何快速提取出某日访问网页次数最多的那个IP？

提取出某日访问网站次数最多的那K个IP

提取出某日访问网站次数最多的那K个IP之并发版

海量日志数据，找出出现次数最多的IP地址。

关于某日访问次数最多的IP的topK问题的三种解法

如何从海量日志中提取访问最多的10个IP

统计apache的访问日志中访问次数最多的五个IP

统计nginx/apache 访问日志中访问次数最多的IP

技术方案解决：海量日志数据__怎么在海量数据中找出重复次数最多的一个

统计nginx日志里访问次数最多的前十个IP

统计Apache或nginx日志里访问次数最多的前十个IP

如何从海量IP中提取访问最多的10个IP

linux 统计某个时段ip访问次数最多的 linux下使用awk命令按时间段筛选日志

超大文件（1TB）统计访问次数最多的来源IP及访问次数

如何找出某一天访问百度网站最多的 IP？

Linux awk统计日志中出现过的IP(或出现次数最多的N个IP)

python——取出列表中出现次数最多的元素

输出出现次数最多的那个数

获取List中出现次数最多的那个数

统计海量数据中访问最多的IP (略有扩展)

面试官：把访问P站次数最多的那个哥们儿给我找出来？

linux命令对日志文件的IP出现的次数进行统计并显示次数最多的前六名

上千万数据的IP取前100个出现次数最多的

日志分析取出访问最多的IP，URL，以及五分钟内的访问流量

BAT面试上机题从3亿个ip中找出访问次数最多的IP详解

有一个很大（4T）的文件，文件中存储的是ip 每行存储一个要求求出出现次数最多的那个ip

获取数组中出现次数最多的数据及出现次数

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)