利用Python简单的爬取百度新闻

前言

要抓取新闻,首先得有新闻源,也就是抓取的目标网站。国内的新闻网站,从中央到地方,从综合到垂直行业,大大小小有几千家新闻网站。百度新闻收录的大约两千多家。那么我们先从百度新闻入手。

基本环境配置

版本:Python3

系统:Windows

相关模块:

import re

import time

import requests

import tldextract

流程比较简单:

完整代码

简单解释一下上面的代码:

1. 使用requests下载百度新闻首页;

2. 先用正则表达式提取a标签的href属性,也就是网页中的链接;然后找出新闻的链接,方法是:假定非百度的外链都是新闻链接;

3. 逐个下载找到的所有新闻链接并保存到数据库;保存到数据库的函数暂时用打印相关信息代替。

4. 每隔300秒重复1-3步,以抓取更新的新闻。

以上代码能工作,但也仅仅是能工作,槽点多得也不是一点半点。

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/88795888