爬虫第一天——爬baidu.com主页 - 代码天地

爬虫第一天——爬baidu.com主页

其他 2018-05-24 21:01:45 阅读次数: 4

工具：python

目标：www.baidu.com

工作流程：

1）反爬虫第一步：抓包工具fiddler抓取页面请求信息，得到User-Agent的值，用于重构urllib.request.Request()。

2）爬取数据

3）存储数据　　

# 在python3中，urllib.request等价于urllib2
import urllib.request

# 重构Request（）函数
ua_header = {

"User-Agent": "Mozilla/5.0 (Windows NT 9.0; WOW32) AppleWebKit/532.36 (KHTML, like Gecko) Chrome/66.0.3359.171 Safari/537.34"
}
requset = urllib.request.Request("http://www.baidu.com", headers=ua_headers)

# 发送url地址到指定的服务器，有data参数是post，没有data就是get请求，response接受服务器返回的响应
response = url.request.urlopen(request)

# response是一个类文件对象，支持python文件对象的操作方法
html = response.read()

# 我把他们写在了一个文件中，方便读取
f.open("baidu.txt", "w")
f.write(str(html))
f.close()

猜你喜欢

转载自www.cnblogs.com/gaoquanquan/p/9084982.html

爬虫第一天——爬baidu.com主页

爬虫笔记第一天

python爬虫第一天

爬虫第一天

初级爬虫第一天

学习爬虫的第一天

爬爬崽的第一天

15天学会爬虫第一天

python爬图第一天

linux爬坑第一天

Python爬虫记录第一天

Python爬虫学习第一天--环境准备

python爬虫自学第一天，全新的开始！

爬虫苦训第一天！！！

Python爬虫学习第一天

爬虫学习笔记第一天

记录我的爬虫第一天

python 爬虫的第一天（认识 requests 库）

1爬虫第一天xpath

学习python爬虫第一天

Python 学习爬虫的第一天工具安装

Scrapy 知识补充 + 第一个Scrapy项目(baidu.com)

第一天......

第一天

第一天...

第一天-

Python爬虫学习第一天--利用正则表达式爬取图片

四小时学python爬虫爬取信息系列（第一天）（全是干货）

爬虫苦训第一天，我的第一个爬虫！！！

baidu.com直接指向

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)