python学习--采集弹幕信息 - 代码天地

python学习--采集弹幕信息

其他 2019-11-12 11:34:11 阅读次数: 0

# -*- coding: utf-8 -*-
"""
Created on Mon Nov 4 12:00:12 2019

@author: DELL
"""

"""
https://comment.bilibili.com/92542241.xml
"""

import requests
from bs4 import BeautifulSoup

u = 'https://comment.bilibili.com/92542241.xml'

r = requests.get(u)

print(r)
#返回访问结果

print(r.encoding) #显示当前网址的编码格式，一般指中文
print(r.apparent_encoding) #不管是什么格式，使用apprent_encoding一定可以解决乱码，万金油方法

r.encoding = r.apparent_encoding #解决乱码
soup = BeautifulSoup(r.text,'lxml')
#解析网址让其变成可被识别的对象
print(type(soup))
r.text

print(soup.find('d')) #找到d的标签
soup.find_all('d')

dm_lst = soup.find_all('d') #定义一个弹幕列表
print(dm_lst[0]) #打印第一个弹幕

print(dm_lst[3])

扫描二维码关注公众号，回复： 7829138 查看本文章

print(dm_lst[:6])

dm1 = dm_lst[0]
dm1.text #获取弹幕内容
dm1['p'] #获取弹幕属性

lst=[] #定义一个列表
for i in dm_lst: #获取前面10条弹幕的内容
dic = {} #创建一个字典
dic['其他信息'] = i['p']
dic['弹幕信息'] = i.text
print(dic) #将识别的内容通过for循环一次输出
lst.append(dic)
print(lst)

import pandas as pd
df = pd.DataFrame(lst)
df.to_excel('C:\\Users\\DELL\\Desktop\\常用Excel文件\\1106.xlsx')

猜你喜欢

转载自www.cnblogs.com/xixirang/p/11840646.html

python学习--采集弹幕信息

【Python爬虫项目实战】Python爬虫采集弹幕数据

python获取企鹅电竞弹幕信息

python爬虫学习（二）搜索页信息采集

Python采集Yarn Queue信息

【Python实战】Python采集地震信息

【Python实战】Python采集高校信息

为了自动采集B站弹幕，我用Python开发了一个下载器

python采集火热弹幕数据并做词云图可视化分析

Python自动采集淘宝信息，了解下

python实现信息采集及命令操作

Python采集股票数据信息

python爬取B站弹幕学习笔记

BiliBili直播弹幕信息抓取

视频弹幕的Python实现

【Python实战】Python采集王者最低战力信息

Python requests+BeautifulSoup 采集安居客_新房信息

Python requests+BeautifulSoup 采集房天下_新房信息

Python3采集豆瓣用户的书籍评论信息

python采集链家二手房信息

利用python+selenium采集京东商品信息

Python采集Top 250信息，看看谁最受欢迎~

Python采集电商平台数据信息

汽车何其多，python真无敌，采集数据信息~

【Python】采集电商平台数据信息

Python采集本地房源信息，优质房源提前获取...

【Python爬虫】采集电商商品评价信息

深度学习基底-“影像信息采集管理系统” 技术分享

Python向B站直播视频中发送弹幕信息-python2.7和python3.7均可

python网络数据采集学习笔记

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)