爬虫入门学习 - 代码天地

爬虫入门学习

其他 2019-02-22 12:44:45 阅读次数: 0

在python3中将urllib3重构后变为urllib.requesr使用，网页在抓取之后要指定decode解码。

通常为了通过服务器的检测，会更改请求头的部分数据，以伪装成浏览器来访问。

此时User-Agent,设置为浏览器模式尤为重要，尽量不要设置支持gzip压缩方式接收数据

 1 import urllib.request
 2 
 3 url="http://www.hao123.com/"
 4 ua_headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"}
 5 
 6 # 构造一个待访问链接对象
 7 request=urllib.request.Request(url=url,headers=ua_headers)
 8 # 构造一个请求访问对象
 9 response=urllib.request.urlopen(request)
10 
11 html=response.read()
12 
13 print(html.decode("utf-8"))
14 
15 print(response.getcode(),response.geturl())

猜你喜欢

转载自www.cnblogs.com/wen-kang/p/10417621.html

爬虫学习---入门

爬虫学习-简单入门

爬虫入门学习

网络爬虫入门学习

爬虫学习-入门

爬虫入门学习综述

python爬虫入门学习方案

【爬虫】Requests 库的入门学习

python的爬虫入门学习2

python的爬虫入门学习1

Python爬虫入门学习笔记

python网络爬虫学习笔记之一爬虫基础入门

爬虫学习之scrapy框架入门

爬虫入门之Requests模块学习(四)

python爬虫学习系列——入门篇

Python爬虫入门学习笔记.md

python3.6。爬虫学习入门笔记

爬虫入门-HTML基础标签学习分享

使用 Node.js爬虫入门学习

爬虫入门-HTML高级标签学习分享

Python爬虫入门学习实战项目（二）

Python爬虫入门学习实战项目（一）

快速python网络爬虫入门（学习目录）

Python学习爬虫（3）——BeautifulSoup入门介绍

Python爬虫学习（一）Requests库入门

Python入门学习笔记11：原生爬虫

Python爬虫入门基础学习（二）

Python爬虫入门基础学习（一）

Python爬虫入门基础学习（四）

Python爬虫入门基础学习（三）

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

面试爱奇艺，竟然挂在第5轮……

scala方法和函数的区别

NYIST--2018大一新生第一次周赛题解

java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口

RabbitMQ 队列类型

2018-2019-1 20165311 20165329 20165334 实验一开发环境的熟悉

iOS打包工具配置相应的文件路径一键打包到指定位置

【每日一题】替换空格

【转载】FPGA配置方式

旅行青蛙

每日归档

更多

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)