爬取页面的封装函数 - 代码天地

爬取页面的封装函数

其他 2018-09-03 00:11:19 阅读次数: 0

from urllib import request,parse
from urllib.error import HTTPError,URLError

def get(url, headers=None):
    return urlrequests(url, headers=headers)

def post(url, from, headers=None):
    return urlrequests(url, from, headers=headers)

def urlrequests(url, form=None, headers=None):
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

    if headers == None:
        headers = {
            'User-Agent':user_agent
        }
    html_bytes = b''
    
    try:
        if from:
            form_str = parse.urlencode(form)
            form_bytes = form_str.encode('utf-8')
            req = request.Request(url,data=form_bytes,headers=headers)
        else:
            req = request.Request(url,headers=headers)
        
        response = request.urlopen(req)
        html_bytes = response.read()
    
    except HTTPError as e:
        print(e)
    
    except URLError as e:
        print(e)
    return html_bytes

if __name__ == '__main__':
    url = 'http://www.baidu.com'
    html_byte = get(url)
    print(html_byte)

猜你喜欢

转载自blog.csdn.net/zhan9le/article/details/81638404

爬取页面的封装函数2

爬取页面的封装函数

爬取多个页面的数据

爬取多个页面的新闻标题

requests笔记1之页面的爬取

记爬取汽车之家车型配置页面的经历

python爬取异步加载的页面的信息

requests实例1：京东商品页面的爬取

网络爬虫-京东商品页面的爬取

轻松上手nodeJs爬取想要页面的数据

简单爬取html页面的表格中的数据

Python爬取网址中多个页面的信息

Python编程学习之爬取网站页面的域名

scrapy(四): 爬取二级页面的内容

爬取伯乐在线文章（三）爬取所有页面的文章

把get和post方式爬取网页进行函数封装

java爬取页面源码并批量下载多个页面的指定格式文件

爬取页面

页面爬取

爬虫学习之16：爬取简书网用户动态信息（异步加载页面的爬取）

python爬虫从小白到高手 Day2 动态页面的爬取

【爬虫】使用 Scrapy + Selenium 爬取动态加载页面的内容

利用python 爬取动态页面的图片(以百度图片为例)

使用selenium和phantomjs解决爬虫中对渲染页面的爬取

python爬取www.mzitu.com性感页面的图片

利用Selenium实现动态渲染页面的爬取------Selenium的使用

利用Selenium实现动态渲染页面的爬取------Selenium的安装与使用

Selenium+python --使用正则表达式爬取页面的URL链接

python面向对象多线程爬虫爬取搜狐页面的实例代码

第7章动态渲染页面的爬取---1、Selenium的使用

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)