新浪新闻标题爬取 - 代码天地

新浪新闻标题爬取

其他 2020-04-30 06:56:06 阅读次数: 0

先说一下自己进行网络爬虫的经过吧，我首先是跟着嵩天教授的《Python网络爬虫与信息提取》课程先对爬虫的基本知识进行学习了解，在学习的过程中，我会跟着视频中讲解的实例自己手头也进行编码，虽然是跟着视频一起编写但是还是会总出现错误，

就是会出现一直爬取失败的现象，但反复地看视频并进行修改，最终也能爬取成功。

在了解了基本知识后，我选择了使用requests库和beautifulsoup库对新浪新闻标题进行爬取，开始爬取的时候也遇到了很多问题，从网上搜索和看教学视频后终于能爬取下来：

import requests
from bs4 import BeautifulSoup
a=requests.get("https://news.sina.com.cn/")
a.encoding="utf-8"
b=BeautifulSoup(a.text,"html.parser")
for i in b.select("ul.list_14>li>a"):
print(i.text)

得到的结果是

这只是其中的一部分，我在看到很长的结果后原本是打算只输出前20个，但是因本人能力有限不能有效改写编码，所以输出的仍然是全部标题。

因个人水平实在有限，只能爬到这个程度，如有不当之处，还请多批评指正。

猜你喜欢

转载自www.cnblogs.com/123mi/p/12806293.html

新浪新闻标题爬取

python-----爬新浪新闻标题链接

scrapy爬取新浪网站全栈新闻标题内容，并且分类存入文件夹中

爬取新浪、网易、今日头条、UC四大网站新闻标题及内容

爬取多个页面的新闻标题

多线程爬取新闻标题和链接

数据采集（二）：腾讯新闻网，新闻标题和内容爬取

爬取新浪新闻

python2爬取虎扑NBA的新闻标题和内容(入门勿喷)

Scrapy框架入门之爬取虎扑体育的新闻标题

网络爬虫百度新闻标题及链接爬取

网易首页新闻标题加二级页面新闻内容爬取工具：python+xpath

python爬取新浪新闻

爬虫任务一：使用httpclient去爬取百度新闻首页的新闻标题和url，编码是utf-8

Java截取新闻标题

python 爬取网页新浪新闻

BeautifulSoup语法笔记（爬取新浪新闻）

使用scrapy爬取新浪新闻

Python爬虫爬取新浪新闻内容

简单python爬虫爬取新浪新闻

爬虫：新浪详情新闻爬取总结

Webdriver 爬取新浪滚动新闻

python：爬取新浪新闻的内容

python爬虫：爬取新浪新闻数据

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

第三十四节新闻标题练习

CSS---浮动练习---新闻标题

Java教程:Java截取新闻标题

爬取百度新闻以及各省市新闻标题存进文本，并对文本处理，可视化前十个最高词频。

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)