爬取B站全站日榜前20数据进行数据分析与可视化 - 代码天地

爬取B站全站日榜前20数据进行数据分析与可视化

其他 2020-04-22 01:34:12 阅读次数: 0

一、设计方案

1.主题式网络爬虫名称：爬取B站全站日榜前20数据进行数据分析与可视化
2.爬取内容与数据特征分析：爬取B站日榜排名前20数据包括排名、事件、热度，数据未呈一定规律排序。
3.设计方案概述：思路：首先打开目标网站，运用工具查看源代码，寻找数据标签，通过写爬虫代码爬取所要的数据，将数据保存为csv文件，读取csv文件对数据进行整理、可视化操作。
难点：网站数据的实时更新；寻找数据标签；对数据整理、可视化等代码的掌握程度较低。
二、主题页面的结构特征分析
1.主题页面的结构与特征：爬取数据分布于a标签中，热度标签为td。
2.Htmls页面解析

3.节点（标签）查找方法与遍历方法：通过re模块的findall方法进行查找。
三、程序设计
1.数据爬取与采集

import re
import requests
import pandas as pd

url = 'https://tophub.today/n/74KvxwokxM' #网站数据
headers = {'user-Agent':""} #伪装爬虫
response=requests.get(url,headers=headers,timeout=30) #设置延迟
response = requests.get(url,headers = headers) #请求页面
#爬取内容
html = response.text 
titles = re.findall('<a href=".*?">.*?(.*?)</a>',html)[4:24]
heat = re.findall('<td>(.*?)</td>',html)[0:20] 
   
x = {'标题':titles,'热度':heat}
y = pd.DataFrame(x)
data=[] #创建空列表
for i in range(20):
    data.append([i+1,titles[i],heat[i][:]]) #拷贝数据

file=pd.DataFrame(data,columns=['排名','bilibili热榜','热度'])
print(file)
file.to_csv('D:\\bbc\\bilibili热榜.csv') #保存文件

2.对数据进行清洗和处理

#读取csv文件
df = pd.DataFrame(pd.read_csv('bilibili热榜.csv'))
df.head()

#删除无效行列
df.drop('bilibili热榜',axis=1,inplace=True)
df.head

#缺失值处理
df.isnull().head() #True为缺失值，False为存在值

#空值处理
df.isnull().sum() #0表示无空值

#查找重复值
df.duplicated() #显示表示已经删除重复值

猜你喜欢

转载自www.cnblogs.com/fxc0210/p/12726282.html

爬取B站全站日榜前20数据进行数据分析与可视化

微博热搜榜前20信息数据爬取进行数据分析与可视化

爬取数据并进行数据分析及可视化

爬取知乎热度并且进行数据分析和可视化

爬取微博热搜数据进行数据分析与可视化处理

python爬取电影历史票房Top480并进行数据分析及其可视化

爬取拉勾网关于python职位并进行数据分析和可视化

利用Python进行数据分析——可视化

爬取百度热搜榜及数据分析与可视化处理

python数据分析与可视化实训--对 Excel 小费数据集进行数据的分析与可视化

python爬取中国天气网站数据并对其进行数据可视化

python如何爬取网站数据并进行数据可视化

B站视频评论及回复数据爬取详解及数据可视化

利用Python爬取淘宝商品信息并进行数据可视化

python爬取歌曲评论并进行数据可视化

利用python进行数据分析之数据可视化(一)

【数据分析可视化】通过apply进行数据预处理

【数据分析可视化】通过去重进行数据清洗

Python数据分析实战：使用pyecharts进行数据可视化

数据可视化｜用散点图进行数据分析

Python数据分析中如何更好地进行数据可视化？

Impala：数据驱动的业务决策：使用Impala进行数据分析和可视化

Python爬虫以及数据可视化分析之某站热搜排行榜信息爬取分析

[学习笔记]PowerBI数据分析与可视化-B站数据大白

用Python爬取拉勾网数据分析职位及数据可视化

Python 爬取前程无忧最新招聘数据 matplotlib数据分析与可视化

【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】

《利用Python进行数据分析》第8章绘图和可视化笔记

Matplotlib-利用pandas进行数据分析并作可视化展示

利用Python进行数据分析——绘图和可视化 xticks-学习笔记

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)