用Python抓取网页HTML文档 - 代码天地

用Python抓取网页HTML文档

其他 2020-02-13 17:51:47 阅读次数: 0

基本代码

import urllib.request #导入request模块

url = 'http://192.168.60.129' #指定url

res = urllib.request.urlopen(url) #调用urlopen（）从服务器获取响应界面

html = res.read().decode('utf-8') #对返回的响应数据解码，并赋值给html

print(html) #打印web源码

查看网页的头部信息以确定网页的编码方式：

import urllib.request

res = urllib.request.urlopen('http://www.163.com')

print(res.info()) #info()方法用来获取网页头部

respond包内添加头部（绕过服务器拦截伪装成浏览器）

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36

最终代码：

import urllib.request

url = 'http://192.168.60.129/'

headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}

req = urllib.request.Request(url=url,headers=headers)

res = urllib.request.urlopen(req)

html = res.read().decode('utf-8')

print(html)

就成功地爬到了靶机HTML文本

Alexz__

发布了25 篇原创文章 · 获赞 27 · 访问量 4145

私信关注

猜你喜欢

转载自blog.csdn.net/Alexz__/article/details/100834300

用Python抓取网页HTML文档

用python抓取网页的图片

python(二)：用python抓取指定网页

Python写爬虫——抓取网页并解析HTML

抓取网页并解析HTML

Python3爬虫抓取网页的html 保存

怎么用Python写爬虫抓取网页数据

怎么用Python写爬虫抓取网页数据！

Python抓取网页内容

python网页信息抓取

python 抓取网页元素

python_抓取网页视频

python 网页抓取信息

Python 抓取网页tag操作

python抓取网页存入mysql

使用 Python 进行网页抓取

python 实现网页抓取的代码

C#抓取网页HTML内容

Python实现抓取HTML网页并以PDF文件形式保存的方法

HTML：文档和网页的结构

Jsoup解析网页html文档

用nodejs抓取并存储网页内容

爬虫入门（一）：用Python爬取静态HTML网页

Python读取网页的文档

直接爬取gzip压缩过的网页，用decode（“utf-8“）无法读取html文档

用python抓取图片代码

用HTML做登录网页

网页用html还是php

Python网页解析库：用requests-html爬取网页

Python抓取网页并保存为PDF

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)