Python网络爬虫之正则表达式（三）

（一）match()方法
1、最常规的匹配、泛化匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$', content)
print(result)
print(result.group())

^$表示字符串开始和结尾
\s表示空白字符包括换行符
.*表示匹配任意字符

2、匹配目标
使用括号（）把需要匹配的字符串提取出来

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$', content)
print(result)
print(result.group(1))

调用group(1)提取出第一个括号匹配的子串

3、贪婪模式和非贪婪模式
.* 尽可能的提取
.*?匹配尽可能少的字符

content = 'Hello 1234567 World_This is a Regex Demo'
#只能够提取到7  .*一直匹配到\s123456留最后一个数字给\d
result = re.match('^He.*(\d+).*Demo$', content)  
#.*?只匹配\s，遇到第一个数字就由\d来匹配
result = re.match('^He.*?(\d+).*Demo$', content)#提取到1234567

（二）research()方法
搜索整个字符串来匹配，返回第一个成功匹配的字符串

import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

search方法的第三个参数加上re.S，使得.*?可以匹配换行

（三）findall()
搜索字符串，以列表形式返回全部能匹配的子串。

（四）sub()
替换字符串中每一个匹配的子串后返回替换后的字符串。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('\d+', '', content)
print(content)

可以用来删除你不想要的字符串
配合findall，可以先将不需要的内容全部删除，然后再进行提取

#将html中的a标签的内容全部删除
html = re.sub('<a.*?>|</a>', '', html)
print(html)

import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
print(results)
for result in results:
    print(result.strip())

Python网络爬虫之正则表达式（三）

猜你喜欢