Verwenden Sie Python, um reinen String-Inhalt aus Rich Text zu extrahieren

Kommen wir ohne weitere Umschweife direkt zum Code.

import html
import re
import emoji

content = "你的富文本字符串"
htmlContent = html.unescape(content)
regex = r'\>.*?\<'
listAll = re.findall(regex, htmlContent)
listToSave = [i[1:-1] for i in listAll if i != '><' and len(i) > 2]
strContent = '\n'.join(listToSave)
# 过滤掉表情
strContent = filter_emoji(strContent)
if strContent != "":
    listRichTestInfo.append((ticketId, fieldKey, '', strContent))

Die Implementierung der Funktion filter_emoji, um die Emoticon-Zeichen durch leere zu ersetzen

# filter_emoji 函数的实现方式,为了把表情字符替换为空
def filter_emoji(desstr, restr=''):
    # 过滤表情
    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
    except re.error:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

Tatsächlich gibt es nur eine begrenzte Anzahl von Codes. Jeder ist willkommen, zu kommunizieren.

Ich denke du magst

Origin blog.csdn.net/qq_33191599/article/details/126988562
Empfohlen
Rangfolge