38 - 提取HTML页面中的URL

# 提取HTML 页面中所有的url,要求,这些url 都属于a 节点的href 属性

'''
1. 分析a节点的正则表达式
2. 利用分组提出href属性的值(url)
'''

import re

s = '<a href="https://geekori.com">极客起源</a> <a href="https://www.baidu.com">百度一下</a>'

result = re.findall('<a[^>]*href="([^>]*)">', s, re.I)
print(result)

for url in result:
    print(url)
['https://geekori.com', 'https://www.baidu.com']
https://geekori.com
https://www.baidu.com

持续更新中。。。。

发布了142 篇原创文章 · 获赞 148 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/qq_29339467/article/details/104527177
38