Python极简教程之八：网络爬虫入门 - 代码天地

Python极简教程之八：网络爬虫入门

其他 2018-11-29 20:31:33 阅读次数: 0

读取网页

下载后使用gbk解码。

import urllib2

url = 'http://www.domain.com/domestic'
# download
resp = urllib2.urlopen(url).read()
# decode
resp = resp.decode('gbk')
# print
print(resp)

传入参数

传参调用，针对?后面的查询字符串。

import urllib
import urllib2
 
url = 'http://www.domain.com/domestic'
# prepare request
req = urllib2.Request(url)
data = urllib.urlencode({'typeId': 123})
# download
resp = urllib2.urlopen(req, data).read()
# decode
resp.decode('gbk')
# print
print(resp)

GZIP 解析

部分站点的网页开启了gzip压缩，这样我们下载之后得到的页面需要解压之后才可以看到具体的内容。

import gzip
import StringIO
import urllib2
 
# download
resp = urllib2.urlopen('http://www.domain.com/domestic').read()
# decode
resp = gzip.GzipFile(fileobj=StringIO.StringIO(resp)).read()
# print
print(resp)

下载图片

此处以下载百度logo为例。

import urllib2
 
url = 'http://www.baidu.com/img/bd_logo1.png'
name = url.split('/').pop()
# open file
with open(name, 'wb') as code:
    # download
    b = urllib2.urlopen(url).read()
    # save to local
    code.write(b)

批量调用

从一个文本文件中读取Url数据集。

import urllib2
 
# read url collection
f = open('urls.txt', 'r')
url_arr = f.readlines()
f.close()
# invoke
i = 0
for url in url_arr:
    # index
    i += 1
    print i
    # load url
    html = urllib2.urlopen(url).read()
    # print
    print(html)

猜你喜欢

转载自blog.csdn.net/lpw_cn/article/details/84559707

Python极简教程之八：网络爬虫入门

Python 从入门到爬虫极简教程

Python极简入门教程

Python极简教程之六：集合之排序（sorted）

Python极简教程！

python爬虫极简教程（一）：windows下环境安装

Qt入门极简教程

ROS入门极简教程

极简Python学习教程-----Flask-----简单入门

极简 python virtualenv 教程

SpringCloud极简入门(八)Hystrix Dashboard

爬虫 scrapy 框架极简入门

Python极简教程之七：数据格式化（format）

TensorFlow极简入门教程

Github教程极简极速入门

CUDA编程入门极简教程

TensorFlow入门极简教程（二）

Nginx 极简入门教程！

Scratch-快速入门极简教程

Nginx 极简教程（快速入门）

Nginx 极简入门教程！（转）

CUDA编程入门极简教程（转）

极简jupyter notebook入门教程

Qt入门极简教程(三)

Qt入门极简教程(二)

bash极简入门教程

【CUDA编程入门极简教程】

Java入门教程之图书管理系统（由简入繁）(八)

Python极简入门01 Hello Python！

Python 基础 - 极简教程（五）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)