爬虫(10)——re模块常用函数

1.re.findall()

text="A is $85,B is $9"
ret=re.findall('\$\d+',text)
print(ret)#返回列表

 

2.re.sub()

text="A is $85,B is $9"
ret=re.sub('\$\d+',"0",text,1)
print(ret)#返回列表

参数是正则表达式,替换成的字符串,需要替换的字符串,替换几个(默认为全部)


text="""<div class="job-detail">
        <p>工作职责:</p>
<p>1、负责平台类产品的开发和性能调优;</p>
<p>2、深入理解业务需求,提供具体问题的解决方案;</p>
<p>3、与产品经理配合,快速构建能够满足产品需求的平台,系统及网络基础结构;</p>
<p>任职资格:</p>
<p>1、本科及以上学历,1年以上Python独立开发经验;</p>
<p>2、熟悉至少一种Python的web开发框架(Flask、Django);</p>
<p>3、熟悉MySQL、Redis等数据库;</p>
<p>4、有独立分析和解决问题的能力,有良好的团队合作精神。</p>
<p>5、熟悉HTML、CSS、JavaScript等前端技术者优先;</p>
        </div>"""

ret=re.sub("<.+?>","",text)
print(ret)

可以使用sub函数将所有标签替换成字符串“”来获取文字信息

3.re.split函数

text="i&love you"
ret=re.split('[^a-z]',text)
print(ret)#返回列表

4.re.compile函数

text="A is 50.26"
r=re.compile('\d+\.?\d*')
ret=re.search(r,text)
print(ret.group())#返回列表

 

发布了35 篇原创文章 · 获赞 4 · 访问量 2338

猜你喜欢

转载自blog.csdn.net/devilangel2/article/details/105397361