Scrapy爬取简单百度页面

其他 2018-12-08 19:58:02 阅读次数: 0

Scrapy爬取百度页面

------------------------------------------

spiders-baiduspider.py

 1 '''
 2 要求导入scrapy
 3 所有类一般是XXXSpider命名
 4 所有爬虫类是scrapy.Spider的子类
 5 scrapy爬取百度
 6 关闭配置的机器人协议
 7 '''
 8 
 9 import scrapy
10 
11 class BaiduSpider(scrapy.Spider):
12 
13     # name是爬虫的名称
14     name = "baidu"
15 
16     # 起始url列表
17     start_urls = ['http://www.baidu.com']
18 
19 
20     # 负责分析downloader下载得到的结果
21     def parse(self, response):
22         '''
23         只是保存网页即可
24         :param response:
25         :return:
26         '''
27         with open('baidu.html', 'w', encoding='utf-8')  as f:
28             f.write(response.body.decode('utf-8'))

===========================

start_urls = xxxxxxxxxxxxxxxxxxxx 起始地址

parse函数分析网页：网页已经被downloader下来了，重写spider的parse函数

scrapy crawl baidu 终端下运行(name = "baidu")

猜你喜欢

转载自www.cnblogs.com/xuxaut-558/p/10088767.html

Scrapy爬取简单百度页面

Scrapy爬取百度百聘动态页面

scrapy 试用爬取百度首页

经典爬虫：用Scrapy爬取百度股票

Scrapy 爬取百度贴吧全站图片

urllib爬取百度贴吧贴子页面

practice之Python爬取百度翻译页面

简单爬取百度mp3

简单的爬取百度图片，一页

利用Python简单的爬取百度新闻

简单爬取百度贴吧图片

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

scrapy 爬百度图片

【Python真的很强大】使用scrapy爬取百度贴吧-上海吧

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

scrapy+lxml.etree爬取百度贴吧

scrapy爬取百度图片，解决ajax+json的异步问题

用Scrapy爬取百度小说吧内容

利用scrapy框架爬取百度阅读书籍信息

Python3+Scrapy爬取百度音乐排行榜

使用scrapy框架爬取百度首页————小实例

Python爬取百度图片

Python 爬取百度音乐

爬取百度图片

爬取百度地图

python——百度文库爬取

Python 爬取百度图片

百度地图爬取数据

爬取百度翻译接口

爬取百度翻译

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)