如何用Python爬取微博内容,进行文本情绪评分,实时通知女神的真实情绪

1、简述

很多人都是在朋友圈装死,微博上蹦迪。
微信朋友圈已经不是一个可以随意发表心情的地方了,微博才是!

在这里插入图片描述
所以你不要傻傻盯着女神的朋友圈发呆啦!

本文教你如何用Python自动通知女神微博情绪变化,从今天开始做一个贴心小棉袄。

为了及时获取这些消息,三步可以实现:
1、定时自动爬取微博内容
2、微博内容的情绪分析
3、邮件自动提醒

2、微博内容获取

首先是一些常规操作:
你需要注册一个微博账户,找到你微博账户的cookie
在这里插入图片描述

然后找到你需要关注的微博用户的id,下面以李荣浩为例:
在这里插入图片描述
或者直接去用户主页查看,进入指定用户主页,如李荣浩的主页 :

https://m.weibo.cn/u/1739046981?uid=1739046981&luicode=10000011&lfid=231093_-_selffollowed

其中1739046981就是uid。

先根据这些信息设置好自己的账号,由于最新的微博内容肯定在第一页,设置好首页微博内容的url

# 改成自己的user_id和cookie
user_id = YOUR_ID
cookie = {"Cookie": "YOUR_COOKIE"}
# url
url = 'http://weibo.cn/%d/profile?page=1'%user_id
# 获取初始url页面html内容,获取user_id和cookie(在返回的response header中)
html = requests.get(url, cookies = cookie).content
print ('user_id和cookie读入成功')

有了这些信息以后,我们就可以爬取微博内容啦,这里需要注意的是我们需要加一个第一条微博的判断。

# 根据用户uid获取该用户第一页的微博消息
page_num = 1
nickname = None
weibo = None
try:
    json = r.get(
        ('https://m.weibo.cn/api/container/getIndex?'
        'is_search[]=0&'
        'visible[]=0&'
        'is_all[]=1&'
        'is_tag[]=0&'
        'profile_ftype[]=1&'
        'page={0}&'
        'jumpfrom=weibocom&'
        'sudaref=weibo.com&'
        'type=uid&'
        'value={1}&'
        'containerid=107603{1}').format(page_num, uid),
        verify=False,
    ).json()
except:
    return None, None
if json['ok'] == 0:
    print('sth wrong')
    return None, None
else:
    for card in json['cards']:
        if card['card_type'] == 9:
            weibo = [
                card['mblog']['created_at'],
                BeautifulSoup(
                    card['mblog']['text'], 'lxml'
                ).text.replace(' \u200b\u200b\u200b', ''),
                *get_comments_from_one_weibo(
                    card['mblog']['id']),
            ]

这样的话我们就可以获取到女神的最新微博啦~下面要做的就是根据获取到的微博数据来分析情感内容。

3、微博内容情感

这部分仅对文本内容有效,如果是图片内容就直接通知你内容不做情感分析。
如果需要计算中文文本内容的情绪分,主要是三步:
1、情感字典及对应的分数
2、数据的分词处理
3、构建情绪分计算逻辑

这里主要介绍一下情绪分的计算逻辑,情感词典和完整的实现逻辑后台回复「 微博通知 」获取,下次再专门写一篇针对文本情绪评分的内容。

简化的情感分数计算逻辑:所有情感词语组的分数之和

定义一个情感词语组:
两情感词之间的所有否定词和程度副词与这两情感词中的后一情感词构成一个情感词组,即notWords + degreeWords + sentiWords,
例如不是很开心,其中不是为否定词,很为程度副词,开心为情感词,那么这个情感词语组的分数为:
finalSentiScore = (-1) ^ 1 * 1.25 * 3.546
其中1指的是一个否定词,1.25是程度副词的数值,3.546是开心的情感分数。

伪代码如下:
finalSentiScore = (-1) ^ (num of notWords) * degreeNum * sentiScore
finalScore = sum(finalSentiScore)

具体实现逻辑如下:

def scoreSent(senWord, notWord, degreeWord, segResult):
    W = 1
    score = 0
    # 存所有情感词的位置的列表
    senLoc = senWord.keys()
    notLoc = notWord.keys()
    degreeLoc = degreeWord.keys()
    senloc = -1
    # notloc = -1
    # degreeloc = -1

    # 遍历句中所有单词segResult,i为单词绝对位置
    for i in range(0, len(segResult)):
        # 如果该词为情感词
        if i in senLoc:
            # loc为情感词位置列表的序号
            senloc += 1
            # 直接添加该情感词分数
            score += W * float(senWord[i])
            # print "score = %f" % score
            if senloc < len(senLoc) - 1:
                # 判断该情感词与下一情感词之间是否有否定词或程度副词
                # j为绝对位置
                for j in range(senLoc[senloc], senLoc[senloc + 1]):
                    # 如果有否定词
                    if j in notLoc:
                        W *= -1
                    # 如果有程度副词
                    elif j in degreeLoc:
                        W *= float(degreeWord[j])
        # i定位至下一个情感词
        if senloc < len(senLoc) - 1:
            i = senLoc[senloc + 1]
    return score

通过这个计算逻辑最终输出整条微博的情绪评分,在做这个最重要的是要有好用的语料库,定义好正向情感词和负向情感词。

基础情感词典已经有整理好了的情感词典。使用的是大连理工大学的情感词汇本体库,停用词表使用哈工大的停用词表。

有关文本情感分析的参考:
https://blog.csdn.net/qq_22765745/article/details/70947728

3、邮件自动提醒

当我们获取到新的微博内容时,就需要将消息推送到我们的邮箱,这时候,我们需要添加判定条件,判断是否执行邮件提醒。这个判断条件与爬取最新微博的判断设置成一致。

python发邮件需要掌握两个模块的用法,smtplib和email,这俩模块是python自带的,只需import即可使用。smtplib模块主要负责发送邮件,email模块主要负责构造邮件。

smtplib模块主要负责发送邮件:是一个发送邮件的动作,连接邮箱服务器,登录邮箱,发送邮件(有发件人,收信人,邮件内容)。

email模块主要负责构造邮件:指的是邮箱页面显示的一些构造,如发件人,收件人,主题,正文,附件等。

导入我们需要用到的包

from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
from email.mime.image import MIMEImage
import smtplib

msg = MIMEMultipart()

在邮件中插入微博正文,同时将情绪分值添加到邮件正文里:

##在邮件中插入文本信息    
df_text="Hi!\n你的女神新发了一条微博,情绪分值只有 %s  \n快去看看吧!"% score
msgtext = MIMEText(df_text, 'plain', 'utf-8')
msg.attach(msgtext)

剩下的就是设置一些邮件参数来发送邮件:

#设置邮件信息常量
email_host= ''  # 服务器地址
sender = '' # 发件人
password ='' # 密码,如果是授权码就填授权码
receiver = '' # 收件人

发送邮件:

try:
    smtp = smtplib.SMTP(host=email_host)
    smtp.connect(email_host,port)
    smtp.starttls()
    smtp.login(sender, password)
    smtp.sendmail(sender, receiver.split(',') , msg.as_string())
    smtp.quit()
    print('发送成功')
except Exception: 
     print('发送失败')

具体邮件发送参数说明如下:

smtplib.SMTP():实例化SMTP()
connect(host,port):
email_host:指定连接的邮箱服务器。常用邮箱的smtp服务器地址如下:
新浪邮箱:smtp.sina.com
163网易邮箱:smtp.163.com。
port:指定连接服务器的端口号,默认为25
login(user,password):
sender:登录邮箱的用户名。
password:登录邮箱的密码(网易邮箱一般是网页版,需要用到客户端密码,需要在网页版的网易邮箱中设置授权码,该授权码即为客户端密码)
sendmail(from_addr,to_addrs,msg,…):
sender:邮件发送者地址
receiver:邮件接收者地址
msg:邮件内容
quit():用于结束SMTP会话

4、效果展示

运行程序结果如下:
运行效果图
如果你觉得文章还不错,请大家点赞分享下。你的肯定是我最大的鼓励和支持。

有任何问题,欢迎私信~

| 作者Info:

【作者】:A字头
【原创公众号】:数据札记倌(Data_Groom)
【简介】:这是一个坚持原创的技术公众号,每天坚持推送各种 Python 基础/进阶文章,数据分析,爬虫实战,机器学习算法,不定期分享各类学习资源。
【福利】:送你新人大礼包一份,关注微信公众号,后台回复:“CSDN” 即可获取!

发布了15 篇原创文章 · 获赞 430 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_43931438/article/details/103592626