Python用re正则化模块在字符串查找特定字符串 - 代码天地

Python用re正则化模块在字符串查找特定字符串

编程语言 2018-07-09 21:24:17 阅读次数: 0

实验需要，在一个含有几亿个字符的txt文件中查找特定的字符串，首先用re模块进行查找

from time import clock
import re
start=clock()
label_file = open("/home/ying/data/google_streetview_train_test1/label.txt")
label_str = label_file.read()
label_file.close()
filename = "2_0_pitch_95_yaw_95_lat_41.8975137_lng_-87.6268723.jpg"
start=clock()
for match in re.finditer(filename, label_str):
s = match.start()
e = match.end()
print(s)
print(e)
end=clock()
print(end-start)

re.finditer(filename, label_str)可以在label_str中查找filename的位置，s=match.start()返回字符串开始的索引，e=match.end()，返回字符串结束的索引。程序运行的结果是

304091635
304091689
304096479
304096533
1.003844

耗时1s左右

同样的，由于txt文件中为一行一行的数据，可以用readlines进行遍历读取比较，程序如下

from time import clock
start=clock()
data_label="/home/ying/data/google_streetview_train_test1/label.txt"
filename = "2_0_pitch_95_yaw_95_lat_41.8975137_lng_-87.6268723.jpg"
file = open(data_label)
lines = file.readlines()
print(len(lines))
for line in lines:
cls = line.split()
fn = cls.pop(0)
if fn==filename:
break
end=clock()
print(end-start)

运行结果如下：

1
3.335657

可见耗时有3s多，用正则化模块要快的多

另外，由于label_str中存在1.2_0_pitch_95_yaw_95_lat_41.8975137_lng_-87.6268723.jpg，所以用re模块寻找时会返回两个结果，而用逐行读取的方式则返回一个值

猜你喜欢

转载自www.linuxidc.com/Linux/2017-09/147182.htm

Python用re正则化模块在字符串查找特定字符串

Python----使用正则re查找文本中特定中文字符串

Python----使用正则re取出文本中特定字符串X后面多少位的字符串；取特定字符串与其后多少位字符串

python正则表达式（re）基础：查找（find）所有匹配字符串

python使用re进行字符串查找和替换

Python-字符串解析-正则-re

Python-查找并保存特定字符串后面的字符串

Python使用re模块正则提取字符串中括号内的内容示例

Python学习——正则表达式与re模块实现字符串计算器

python3 re模块正则匹配字符串中的时间信息

re模块-字符串的提取

python中删除特定字符串

python的字符串模块

字符串查找

正则字符串

在特定的字符串中删去特定的的字符串

python正则表达式（re）基础：查找（search）第一个（first）匹配字符串

re模块替换字符串中的某些字符

notepad++ 正则表达式查找特定字符串

（转）用python正则提取字符串的方法

Python用正则实现计算字符串算式

python3进阶之正则表达式之re模块之切分字符串

Python入门基础篇（五）字符串的正则表达式re模块，全面解析！！！

【Python教程】正则表达式 re模块中，反斜杠 “\“分割字符串的正确操作方法

C++从文件中查找特定的字符串，并提取该字符串

查找某一字符串是否包含特定的字符串

查找当前目录下包含特定字符串的文件

查找当前目录下包含特定字符串的文件

正则表达式排除特定字符串

正则的进阶表达——找出（不）包含特定字符串

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)