python学习--采集弹幕信息

# -*- coding: utf-8 -*-
"""
Created on Mon Nov 4 12:00:12 2019

@author: DELL
"""

"""
https://comment.bilibili.com/92542241.xml
"""

import requests
from bs4 import BeautifulSoup

u = 'https://comment.bilibili.com/92542241.xml'

r = requests.get(u)

print(r)
#返回访问结果

print(r.encoding) #显示当前网址的编码格式,一般指中文
print(r.apparent_encoding) #不管是什么格式,使用apprent_encoding一定可以解决乱码,万金油方法


r.encoding = r.apparent_encoding #解决乱码
soup = BeautifulSoup(r.text,'lxml')
#解析网址让其变成可被识别的对象
print(type(soup))
r.text

print(soup.find('d')) #找到d的标签
soup.find_all('d')

dm_lst = soup.find_all('d') #定义一个弹幕列表
print(dm_lst[0]) #打印第一个弹幕

print(dm_lst[3])

扫描二维码关注公众号,回复: 7829138 查看本文章

print(dm_lst[:6])

dm1 = dm_lst[0]
dm1.text #获取弹幕内容
dm1['p'] #获取弹幕属性


lst=[] #定义一个列表
for i in dm_lst: #获取前面10条弹幕的内容
dic = {} #创建一个字典
dic['其他信息'] = i['p']
dic['弹幕信息'] = i.text
print(dic) #将识别的内容通过for循环一次输出
lst.append(dic)
print(lst)

import pandas as pd
df = pd.DataFrame(lst)
df.to_excel('C:\\Users\\DELL\\Desktop\\常用Excel文件\\1106.xlsx')

猜你喜欢

转载自www.cnblogs.com/xixirang/p/11840646.html