爬虫入门五：练习爬取汽车之家新闻阅读量信息 - 代码天地

爬虫入门五：练习爬取汽车之家新闻阅读量信息

其他 2019-10-24 14:55:16 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/qq_18505209/article/details/99883942

爬虫入门五（练习）

入门练习

分享一个pyecharts学习网址：
Python：数据可视化pyecharts的使用.

爬取汽车之家新闻阅读量信息

python

import requests
from bs4 import BeautifulSoup
from pyecharts import Page, Pie, Bar
url = "https://www.autohome.com.cn/news/"
response = requests.get(url)
#print(response.content.decode('utf-8'))
#gbk2313解码
soup = BeautifulSoup(response.content.decode('gb2312'), 'lxml')
#print(soup)
all_news = soup.find('div', id = "auto-channel-lazyload-article")
#print(all_news)
#用于存储新闻信息
all_news_info = []
for each_news in all_news.find_all('a'):
    news = each_news.find('h3').text
    bandc = each_news.find_all('em')
    time = each_news.find('span', class_ = "fn-left")
    #上万阅读量转换
    if '万' not in bandc[0].text:
        browse = bandc[0].text
    else:
        browse = int(float(bandc[0].text.replace('万', ''))*10000)
    comment = bandc[1].text
    time = time.text
    #print(news,browse,comment,time)
    #一天前的不要
    if '天' not in time:
        all_news_info.append({'name': news, 'browse': browse, 'time': time})
#阅读量排序
sort_by_browse = sorted(all_news_info, key = lambda x: int(x['browse']))
#print(sort_by_browse)
#提取前十新闻
ten_news = []
ten_news = sort_by_browse[len(sort_by_browse)-10: len(sort_by_browse)]
#print(ten_news)
names = [i['name'] for i in ten_news]
browse = [i['browse'] for i in ten_news]
#准备展示数据
browse_rank = Bar('24小时内新闻的阅读量TOP10')
browse_rank.add('阅读量', names, browse, is_convert=True, is_label_show=True, label_pos='right')
#browse_rank
#存储到browse_rank.html中
browse_rank.render()

效果展示：

猜你喜欢

转载自blog.csdn.net/qq_18505209/article/details/99883942

爬虫入门五：练习爬取汽车之家新闻阅读量信息

python爬虫——爬取汽车之家新闻

爬取汽车之家新闻

爬取汽车之家新闻图片的python爬虫代码

Python项目实战:爬取汽车之家新闻信息

Python 定向爬虫爬取汽车之家

python入门-----爬取汽车之家新闻,---自动登录抽屉并点赞,

爬取IT之家新闻

爬取汽车之家

Webmagic 爬虫框架爬取马蜂窝、携程旅游、汽车之家游记信息

WebMagic爬虫入门教程（三）爬取汽车之家的实例-品牌车系车型结构等

Python爬取最新反爬虫汽车之家口碑

python爬虫实战爬取汽车之家上车型价格

汽车之家网站为例-爬虫的编写，爬取图片

Python爬虫汽车之家新闻消息

python爬虫集合 python爬虫入门一：爬虫基本原理 python爬虫入门三：requests库 python爬虫入门四：BeautifulSoup库(转) python爬虫入门六：Selenium库 python爬虫入门七：pymysql库 python爬虫入门八：多进程/多线程爬虫练习一：爬取睿奢图片爬虫练习二：爬取智联招聘职位信息爬虫练习三：爬取链家二手房信息爬虫练习四：爬取b站番剧字幕爬虫练习五：多进程爬取股市通股票数据爬虫练习六：爬取拉勾招聘信息爬虫小功能实现

爬取IT之家业界新闻

爬虫2 requests+bs4爬汽车之家新闻, bs4的使用(遍历文档树和查找文档树), 搭一个免费的代理池, 验证码破解(超级鹰), 爬取糗事百科段子自动通过微信发给好友, 爬取(拉钩职位, cnblogs新闻, 红楼梦小说写入txt, 肯德基餐厅信息), 爬取博客园写入mysql

scrapy汽车之家车型的简单爬取

线程池爬取汽车之家.py

进程池爬取汽车之家.py

《汽车之家》字体反爬之论坛、问答、文章(新闻、车家号）及其评论爬取

python网络爬虫爬取汽车之家的最新资讯和照片

python3爬虫系列16之多线程爬取汽车之家批量下载图片

python爬虫利用Scrapy框架爬取汽车之家奔驰图片--实战

python实战之网络爬虫（爬取新闻内文信息）

爬取汽车之家北京二手车信息

爬取汽车之家汽车品牌型号系列数据

爬虫应用：爬取新闻

python 学习 - 爬虫入门练习爬取链家网二手房信息

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)