有一个很大（4T）的文件，文件中存储的是ip 每行存储一个要求求出出现次数最多的那个ip - 代码天地

有一个很大（4T）的文件，文件中存储的是ip 每行存储一个要求求出出现次数最多的那个ip

其他 2020-07-26 11:41:42 阅读次数: 0

有一个很大（4T）的文件，文件中存储的是ip 每行存储一个要求求出出现次数最多的那个ip
分而治之的思想：
一个机器计算性能有限这个时候可以使用多台机器共同计算每台机器承担一部分计算量
最终实现：
1.先将这个足够大的文件进行切分切分成了多个小文件
2.将多个小文件分发给多个机器进行统计每个ip出现的次数每个求出出现次数最多的ip
3.合并求出最终的最大值
package day2;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.Map.Entry;
import java.util.SortedSet;
import java.util.TreeSet;

public class CalIP {
public static void main(String[] args) throws IOException {
Map<String,Integer> map=new HashMap<>();
SortedSet set =new TreeSet<>();
FileReader f=new FileReader(“D:/java/bigdate/day3/ip.txt”);
BufferedReader bf=new BufferedReader(f);
String line=null;
int value=1;
while((line=bf.readLine())!=null) {
if (map.containsKey(line)) {// �ж��Ƿ��
Iterator<Entry<String, Integer>> i = map.entrySet().iterator();
while (i.hasNext()) {
Entry<String, Integer> e = i.next();
if (e.getKey().equals(line)) {
value = e.getValue();
value++;
map.put(line, value);
break;
}
}
} else {
map.put(line, value);
}
set.add(value);
value = 1;
}
//��ip��
int count=set.last();//Ĭ��
Iterator<Entry<String, Integer>> j = map.entrySet().iterator();
String key="";
while(j.hasNext()) {
Entry<String, Integer> ff = j.next();
if(count==ff.getValue()){
key=ff.getKey();
System.out.println(“IP:”+key+":��ִ��"+count);
}
}
bf.close();
}
}

猜你喜欢

转载自blog.csdn.net/zwmonk/article/details/88601892

有一个很大（4T）的文件，文件中存储的是ip 每行存储一个要求求出出现次数最多的那个ip

【LeetCode】给出一个数组，求出现次数最多的那个数字及其出现次数

从一亿个ip找出出现次数最多的IP(分治法)

有一个文件ip.txt，每行一条ip记录，共若干行，下面哪个命令可以实现“统计出现次数最多的前3个ip及其次数

输出出一个数组中出现次数最多的数字以及它出现的次数

模拟实现atoi和itoa以及100G 的IP地址求出现次数最多的前K个IP

JAVA技巧(找出一个数组中出现次数最多的那个元素)

找出一个数组中出现次数最多的那个元素

找出一个数组中出现次数最多的那个元素。

如何从一个数组中找出出现次数最多且值最多的数字和它的出现次数

【python】从一个文件中，查找出现次数最多的5个词

出现次数最多的那个字母及次数，如有多个重复的则都求出

给定一个正整数组（最多1024个数，数组输入以0结束），求出现次数最多的数

Linux awk统计日志中出现过的IP(或出现次数最多的N个IP)

海量日志数据，找出出现次数最多的IP地址。

从HashMap中找出出现次数最多的键

如果有一个20g的日志文件，日志文件记录着用户访问过的url，每一行为一个url，给你一台512M的主机，找出出现次数最多的10个url？

上千万数据的IP取前100个出现次数最多的

Problem A: 零起点学算法91——找出一个数组中出现次数最多的那个元素

python ----遍历目录文件练习（生成一个大文件ips.txt,要求1200行每行随机为172.25.254.0/24段的ip;）

数组中寻找出现次数最多的一个数

用Java实现求一个数组中的出现次数最多的元素的个数

找出一个字符串中出现次数最多的字符，如果有多个出现次数相同的字符，那就找出最先出现的那个字符

#统计一个列表中出现次数最多的元素

寻找第一个出现次数最多的字符

C#实现获取一个集合数组中出现次数最多的元素

js查找字符串中出现次数最多的一个

python 返回一个列表中出现次数最多的元素

python返回一个列表中出现次数最多的元素

返回一个列表中出现次数最多的元素

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)