python利用正则表达式去掉html标签的几种方法

import re

str = "<div class='_p2tml'>
       <span>喝战马</span>
       <span>就用东鹏</span>
        <div class='drink_name'>
         <span style="color:#77858">特饮</span>
         </div>"

# 第一种------直接匹配提取文本

pre = re.compile('>(.*)<')
retouve_str = ''.join(pre.findall(str))
print(retouve_str)   # 喝战马就用东鹏特饮

# 第二种--------去掉html标签

str_first = re.sub('<.*?>',"",str) #匹配所有html标签并用“”代替

str_enfin = str_first.replace('/n',"") #将换行符替换成空

猜你喜欢

转载自blog.csdn.net/weixin_40542507/article/details/88925779
今日推荐