清洗微博评论数据 - 代码天地

清洗微博评论数据

其他 2018-08-16 11:48:03 阅读次数: 0

0. 问题描述

抓取到的评论数据非常滴脏，其中有一些无用信息，所以目标就是只提取其中的中文文字内容
评论中会存在很多表情，如下所示
```
    不是很快就撤了吗？ <span class="url-icon"><img alt="[吃瓜]" src="//h5.sinaimg.cn/m/emoticon/icon/default/d_chigua-90cb948c34.png" style="width:1em; height:1em;"/>        </span>
```
实际上展现出的内容则是：
不是很快就撤了吗？

这一种类型的表情是微博特有的表情，还有一种是Emoji 表情，前者会在评论内容嵌入html代码，后者则是会已编码的方式呈现。
评论中的@符号: @符后也会跟随中文这些需要，用专门的代码过滤掉

1.解决思路

表情问题：
用正则表达式过滤，表达式如下
```
[\u4e00-\u9fa5，。！？?! ]{1,}
```
@问题：
经过观察 @的内容全部在a标签内，所以显而易见只需要把所有<a ... 之内的内容即可

2.代码实例

    #匹配中文的正则表达式
        self.pattern = re.compile(r"[\u4e00-\u9fa5，。！？?! ]{1,}")
    def remove_text_dirty(self,oldstr):
            logging.info("oldstr:" + oldstr)
            oldstr = oldstr.replace("\n", "")#去掉评论所有的换行符
            count = oldstr.count("<a")#统计评论中<a>标签的数量

            for i in range(0,count): # 对评论中<a>标签逐一进行处理
                if oldstr.count("<a") is 0: #如果评论中没有<a>标签
                    break
                font = oldstr.index("<a")
                tail = oldstr.index("</a>")
                dirty = oldstr[font:tail+4] #获取到评论中当前<a>标签的内容
                oldstr = oldstr.replace(dirty,"") #去除评论中当前<a>标签的内容
            logging.info("newstr:"+oldstr)
            match = self.pattern.match(oldstr)
            logging.info("match:"+str(match))
            if match:
                #返回匹配到的中文内容
                return match.group()
            else:
                #没有中文返回汉字
                return None

猜你喜欢

转载自www.cnblogs.com/freeyun/p/9486281.html

清洗微博评论数据

数据清洗之微博内容清洗

数据清洗之微博时间清洗

（pandas）评论数据清洗

Python爬虫之微博评论数据的爬取（十）

python爬取微博评论（无重复数据）

爬虫实战 - 微博评论数据可视化

微博评论的情感分析

Python爬取微博的评论人的微博网址

Python爬取新浪微博评论

JS特效实现微博评论逻辑

python抓取新浪微博评论并分析

python爬虫新浪微博评论、评论人信息

爬取豆瓣和微博《镇魂》评论进行数据分析

Python爬取微博评论数据，竟被反爬封号了！

用python爬取微博评论数据，爬虫之路，永无止境。。（附源码）

使用python实现微博评论分词与关键词提取（从MySQL数据库中读取数据）

微博数据挖掘

基于textcnn的微博评论文本分类情感分类研究付完整代码数据

设计类似于抖音、小红书、微博等方式的主题点赞与评论的数据库表

JavaEE实现微博项目（含注册、登录、发表微博、评论微博、关注博主、阅读排行榜、评论排行榜等功能）

Tensorflow实现微博的评论情感分类模型

Python微博评论进行情感分析

爬虫-微博移动端评论递归问题

python爬虫爬取微博评论案例详解

2020 年最新微博内容及评论爬虫

Web Scraper 抓取微博所有评论_2.9

python爬取微博评论（通过xpath解析的方式）

爬取新浪微博（搜索含关键词微博及其评论）

新浪微博开放平台研究-实现微博自动评论(上)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)