如果利用Python爬取B站上千万数据？B站直播都是大屌萌妹吗？ - 代码天地

如果利用Python爬取B站上千万数据？B站直播都是大屌萌妹吗？

其他 2018-06-08 14:42:46 阅读次数: 2

粉丝独白

说起热门的B站相信很多喜欢玩动漫的，看最有创意的Up主的同学一定非常熟悉。我突发奇想学Python这么久了，为啥不用Python爬取B站中我关注的人，已经关注的人他们关注的人，看看全站里面热门的UP主都是是哪些。

要点：

- 爬取10万用户数据

- 数据存储

- 数据词云分析

1.准备阶段

写代码前先构思思路：既然我要爬取用户关注的用户，那我需要存储用户之间的关系，确定谁是主用户，谁是follower。

存储关系使用数据库最方便，也有利于后期的数据分析，我选择sqlite数据库，因为Python自带sqlite，sqlite在Python中使用起来也非常方便。

数据库中需要2个表，一个表存储用户的相互关注信息，另一个表存储用户的基本信息，在B站的用户体系中，一个用户的mid号是唯一的。

然后我还需要一个列表来存储所以已经爬取的用户，防止重复爬取，毕竟用户之间相互关注的现象也是存在的，列表中存用户的mid号就可以了。

2.新建数据库

先写建数据库的代码，数据库中放一个用户表，一个关系表：

3.爬取前5页的用户数据

我需要找到B站用户的关注列表的json接口，很快就找到了，地址是：

https://api.bilibili.com/x/relation/followings?vmid=2&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp7

其中vimd=后的参数就是用户的mid号

pn=1指用户的关注的第一面用户,一面显示20个用户

因为B站的隐私设置，一个人只能爬取其他人的前5页关注，共100人。

整个爬取页面的思路比较简单，首先设置header,用requests库进行API请求，获得关注的用户数据列表。

我们爬取前5页，每一页的数据进行简单的处理，然后转为字典数据进行获取mid,uname,sign3个维度的数据，最后save()函数存入db.

4.关于怎么快速学python，有什么方法，这个问题，想必大家都已经心中有数了，打算深入了解这个行业的朋友，欢迎加入到千人交流答疑群：125240963

猜你喜欢

转载自www.cnblogs.com/py1357/p/9155464.html

如果利用Python爬取B站上千万数据？B站直播都是大屌萌妹吗？

C# POST——爬取B站直播时的弹幕

利用Python爬取B站千万级数据，并对其进行简单的分析

利用python爬取实习僧网站上的数据

Python实现自动发送B站直播弹幕软件

python爬取B站千万级数据，发现了这些热门UP主的秘密！

python爬取B站主播直播信息

利用Python爬取B站摄影栏目的图片

Python 爬取 B 站 5000 条视频，揭秘为何千万人为它流泪！

通过Python五秒爬取四十万的数据！屌不屌？爬取并分析！

Python获取B站直播中的最新一条评论，复制内容发送到该直播间中

Python爬虫----爬取b站每日排行数据

Python3.5：爬取网站上电影数据

Python向B站直播视频中发送弹幕信息-python2.7和python3.7均可

B站直播间炸屏Python源代码，仅用于学习交流，外加视频教程！

python爬取B站视频

利用Python爬取几百万github数据！这些源码都是我的囊中之物！

python爬虫11 | 这次，将带你使用python爬取b站上的NBA形象大使蔡徐坤和他的球友们

python爬虫爬取斗鱼直播数据

如何利用Python快速爬取B站全站视频信息

利用python爬取b站弹幕和统计(附保存)

python爬虫11 | 这次，将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们

Python爬虫爬取网站上的图片

利用python对b站某GPT-4解说视频的近万条弹幕进行爬取、数据挖掘、数据分析、弹幕数量预测及情绪分类

Python爬虫实战：Scrapy爬取B站娱乐直播全部主播图片重命名下载到本地

9月18日韦东山老师B站直播答疑问题锦集

JS逆向-B站直播间弹幕protocbuf分析【10-24】

Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢

PYTHON爬取网站上面的数据很简单,但是如何爬取APP上面的数据呢

用xpath、bs4、re爬取B站python数据

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)