pyspark练习--进行日志提取IP并打印排行前五的访问次数的IP - 代码天地

pyspark练习--进行日志提取IP并打印排行前五的访问次数的IP

编程语言 2018-09-29 18:36:42 阅读次数: 0

拿到测试用日志文件并分析

27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET/static/image/common/faq.gif HTTP/1.1" 200 1127
110.52.250.126 - - [30/May/2013:17:38:20 +0800] "GET /data/cache/style_1_widthauto.css?y7a HTTP/1.1" 200 1292
27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/hot_1.gif HTTP/1.1" 200 680
27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/hot_2.gif HTTP/1.1" 200 682
27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/filetype/common.gif HTTP/1.1" 200 90
110.52.250.126 - - [30/May/2013:17:38:20 +0800] "GET /source/plugin/wsh_wx/img/wsh_zk.css HTTP/1.1" 200 1482
110.52.250.126 - - [30/May/2013:17:38:20 +0800] "GET /data/cache/style_1_forum_index.css?y7a HTTP/1.1" 200 2331

发现IP为每段日志开头并使用“ ”进行分割即可

利用本地IDE进行类wordcount开发
代码如下
import os
import sys
from pyspark import SparkConf, SparkContext
from operator import add

os.environ[‘PYSPARK_PYTHON’] = ‘/home/hadoop/app/python3/bin/python3’

if name == ‘main’:
if len(sys.argv) != 2:
print(‘Usage: TopN’, file=sys.stderr)
sys.exit(-1)
# 初始化
conf = SparkConf()
sc = SparkContext(conf=conf)

# ip
data = sc.textFile(sys.argv[1]).map(lambda x: x.split(' '))
# ip赋值为1
ip = data.map(lambda x: (x[0], 1))
# 同ip计数
count_ip = ip.reduceByKey(add)
# ip排序
sort = count_ip.map(lambda x: (x[1], x[0])).sortByKey(False).map(lambda x: (x[1], x[0]))
# 打印到控制台
print(sort.take(5))

sc.stop()

执行spark-submit指令

./spark-submit --master local[2] --name loganglice /home/hadoop/data/5/log.py hdfs:///test/access_2013_05_30.log

根据不同文件地址进行不同输入，此处为个人HDFS文件
等待输出结果
在这里插入图片描述
结果如下

可以发现IP 222.133.189.179访问次数最多,为29948次
其次是61.50.141.7为22836次，
第三为123.147.245.79为9999次，
第四为49.72.74.77为8879次，
第五为60.10.5.65为6341次

猜你喜欢

转载自blog.csdn.net/weixin_43267534/article/details/82833238

pyspark练习--进行日志提取IP并打印排行前五的访问次数的IP

海量日志数据，提取出某日访问百度次数最多的那个IP

MapReduce提取一条日志文件中的IP，并计算出访问的次数

统计apache的访问日志中访问次数最多的五个IP

1、(topK问题)海量日志数据，提取出某日访问百度次数最多的10个IP。

面试冲刺:25---海量日志数据，如何快速提取出某日访问网页次数最多的那个IP？

统计nginx访问ip，并按照访问次数进行排序

通过nginx日志统计一段时间内ip的访问次数进行排序&访问量统计

Linux分析Nginx日志统计IP访问次数的shell脚本

spark中ip归属地访问的次数练习

如何从海量日志中提取访问最多的10个IP

nginx IP访问次数统计

百度面试题——海量日志数据，提取出某日访问百度次数最多的那个IP

根据ngnix的访问日志进行自动封禁ip的功能

提取出某日访问网站次数最多的那K个IP之并发版

提取出某日访问网站次数最多的那K个IP

统计nginx/apache 访问日志中访问次数最多的IP

python统计apache、nginx访问日志IP访问次数并且排序（显示前20条）【转】

手把手教你分析IIS日志——IP访问次数,URI访问统计等

Django 统计网站访问次数、访问 ip 、访问端点及次数

使用python脚本实现统计日志文件中的ip访问次数

统计nginx日志里访问次数最多的前十个IP

IIS日志——统计IP访问次数的一种方法

统计Apache或nginx日志里访问次数最多的前十个IP

统计nginx日志访问ip

shell统计日志中ip出现次数

Java-根据IP统计访问次数

SpringBoot实现限制ip访问次数

使用redis限制ip访问次数

分ip统计网站的访问次数

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)