【数据处理】[python]提取某巨量文本中关键词及前N行字符串

企业开发 2023-05-05 17:15:31 阅读次数: 0

背景

之前的程序生成了300w行的日志，bug的地方有“error”字样，其他部分皆为正常日志，不用管，想看看error前面都发生了啥事，然而人眼硬看300w，即使有ctrl+f也很麻烦，于是打算写个程序，自动提取出崩溃的上面5行日志信息。
比如

start
init
running
running 
working 
deleting
error
start
init
error

想提取成

init
running
running 
working 
deleting
error
start
init
error

程序代码

def get_lines(file):
    for line in file:
        yield line


def extract_lines(input_file, output_file, window_size, markword):
    window = []
    for line in get_lines(input_file):
        window.append(line)
        if (len(window) > window_size):
            window = window[1:]
        if markword in line:
            for l in window:
                output_file.write(l)
            window = []


with open('log.txt', 'r', encoding='UTF-8') as input_file, open('output.txt', 'w',
                                                                         encoding='UTF-8') as output_file:
    extract_lines(input_file, output_file, 5, 'error')

运行结果

在这里插入图片描述
左图是输入，右图输出可以看到能正确完成任务。

注意事项和解释

你的文本用的什么编码自己在源代码处改，想提取多少行就把5改成几。
只要是文本行内有输出关键字（markword）就行，比如上面的例子，如果有一行是running with error xxx ，这行包括了error关键字，他以及上面几行也会被输出。
程序能跑大文件，因为用了yield关键字来流式处理文本，不会一次性读入所以数据。（300w行日志有3个g，这里就不放图了）
n行内容正序输出用的是滑动窗口的思想，详情请自行谷歌或读代码。

猜你喜欢

转载自blog.csdn.net/gongfpp/article/details/128631483

【数据处理】[python]提取某巨量文本中关键词及前N行字符串

Python re.findall()获取包含关键词的文本，可以自定义关键词，正则提取含有某关键词的描述

指定关键词，在一段文本中搜索并在关键词前后进行插入自定义字符串

提取文本关键词？很 easy 啊，用 Python 三行搞定

Python高亮文本中的关键词

Python TF-IDF 算法提取文本关键词

2、 python文本关键词提取实现（案例）

Excel批量提取文本中关键词2

python数据挖掘实战笔记——文本分析（6）：关键词提取

【python】文本处理：删除包含关键词的行、删除指定列、删除指定字符、替换关键字……

python中取文本中指定关键词的行并保存

文本关键词提取小结

文本关键词提取算法

文本关键词提取二三事

文本关键词提取方法综述

pandas处理数据textrank提取关键词

PHP 字符串内多个关键词替换

C语言----完成对输入的字符串中C关键词的查找统计。

中文自然语言处理--基于 LDA 主题模型进行中文文本中的关键词提取

中文自然语言处理--jieba基于 TextRank 算法进行中文文本中的关键词提取

如何使用Python提取社交媒体数据中的关键词

使用python将excel长文本中包含特定关键词的句子提取出来

关键词提取

python实现关键词提取

用Python提取中文关键词

【Python】通过pyhanlp提取关键词

python实现关键词提取内容

Python实现自动关键词提取

Python快速扫盲—— 字符串与数据处理

python数据处理——获得pandas dataframe中字符串里的数字 str.extract

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)