python网页爬虫 - 代码天地

python网页爬虫

编程语言 2019-04-13 18:04:35 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weixin_40722661/article/details/88022626

网页Dev

Element
Network

网络爬虫主要看在网页的检查元素的这两个页面（Element、Network）
Element ：index页面的源代码（并且能进行快速的查找）
Network：查找客户端和服务端之间的各种流

python Code

python里面含有多种框架使得对网页内容进行爬取简单而有效。

requests

import requests
response = requests.get("http://www.baidu.com")#return response (object)
print(response.status_code)  # 打印状态码
print(response.url)          # 打印请求url



print(response.headers)      # 打印头信息
print(response.cookies)      # 打印cookie信息
print(response.text)  #以文本形式打印网页源码
print(response.content) #以字节流形式打印

一般来说我们会自己加入header(有时候也会有参数)

import requests
#url
url = "http://www.baidu.com"
#Custom Headers
headers = {
	"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36"
}
#Passing Paramters in URLs
payload = {'key1': 'value1', 'key2': 'value2'}

page = requests.get(url=url, headers = headers, param = payload)

#使用BeautifulSoup来对文档进行解析

from bs4 import BeautifulSoup	

soup = BeautifulSoup(page.content, 'html.parser')
list = soup.find_all("div", class_="col-xs-6") # return a list

猜你喜欢

转载自blog.csdn.net/weixin_40722661/article/details/88022626

Python 爬虫网页

Python 网页爬虫

python网页爬虫

Python 简单网页爬虫

python 爬虫网页信息

Python网页爬虫代码

Python 爬虫爬取网页

python爬虫简单网页图片

Python爬虫网页的列表页

Python爬虫之解析网页

基于python的批量网页爬虫

python初体验-网页爬虫

Python爬虫 - 获取网页编码

基于Python的网页图片爬虫

Python爬虫对网页URL的分析

Python 网页爬虫的原理是怎样的？

python爬虫.1.简单的网页爬虫

python 爬虫应对网页反爬虫的设置

使用Python爬虫爬取简单网页（Python爬虫入门）

python爬虫.3.下载网页图片

python : selenium 网页爬虫 unittest 传参数

爬虫基础：python获取网页内容

Python 爬虫教程 4 - 网页的构成

python爬虫爬取淘宝网页

Python爬虫1：简单抓取网页

python学习之爬虫网页练习

Python3+Scrapy实现网页爬虫

Python爬虫之网页图片抓取

Python爬虫：使用lxml解析网页内容

python爬虫基础--获取并解析网页

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)