正则表达式,获取a href后面的数据

<div class="share-person-data-top">
  <a href="/share/home?uk=3924974212&suk=mOZidGjjyKS6Y6NecksgaQ" target="_blank" title="å»Taç
                                                                                           å享主页" class="share-
person-username global-ellipsis">ç¯å**å享</a>
  <a href="//yun.baidu.com/buy/center?tag=1&from=sicon" class="unvip-icon sicon">
  <em></em>
  </a>
</div>

如上:div下有<a href。我们需要获取href后的数据

 
首先正则获取div内的数据,response为返回内容,且以text输出,返回内容即上文html
 
tr_content = re.findall('<div class="share-person-data-top">(.*?)</div', response, re.S)[0]

打印tr_content

 然后正则获取href数据

td_content = re.findall('<a.*?href="(.+)".*?>(.*?)</a>', tr_content, re.S)#正则获取href值

打印td_content

 去掉最外面的"[]"

print(td_content[0])

 取出”3924974212“并打印

td_content = re.findall("\d+", td_content, re.S)
print(td_content[0])

猜你喜欢

转载自www.cnblogs.com/becks/p/12499345.html