python爬虫入门(一)——爬取整个网页的源码

一、源码

利用第三方库requests爬取网页

import requests
# encoding:utf-8  #默认格式utf-8

def get_html(url): #爬取源码函数
    headers = {
    
    
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

r = get_html('https://www.baidu.com/')
print(r) #打印网页源码

二、代码分析

题外话

python语言之所以受到很大的欢迎就是因为它简单,并且有大量的第三方库。如何你有编程基础那么就可以很好的理解python语言的思想。如果没有最好去买本书学习一下,推荐《Python编程从入门到实践》,我和我室友都是买的这本书。

1、导入模块

import requests

import语句可以让我们打开requests模块并在接下来的代码中使用模块中的方法,当然前提是你已经安装了requests模块。request库的作者是Kenneth Reitz,附上他的 GitHub requests库链接,大神的思想和代码风格可以参考一下。

2、函数

def get_html(url): #爬取源码函数
    headers = {
    
    
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

利用request库的get方法获取网页源代码。当然这里的源代码就是真正的源代码,如果想要得到你想要的信息需要经过其他的处理。

三、requests库的介绍

点击我的 GitHub python爬虫笔记 ~持续更新中

猜你喜欢

转载自blog.csdn.net/Bob_ganxin/article/details/108720602