Python爬虫1-获取指定网页源码

其他 2018-12-07 01:21:33 阅读次数: 0

1、任务简介

前段时间一直在学习Python基础知识，故未更新博客，近段时间学习了一些关于爬虫的知识，我会分为多篇博客对所学知识进行更新，今天分享的是获取指定网页源码的方法，只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单，我在Java中使用了38行代码才获取了网页源码（大概是学艺不精），而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包，具体代码如下：

import urllib.request        #导入urllib.request库
b = str(input("请输入："))   #提示用户输入信息，并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()              #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)                  #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下：
在这里插入图片描述

3、总结

这篇博客介绍的方法较为简单，其实有的网站会“反爬虫”，这时就需要我们使用User-Agent或者代理，这些东西都会在后面的博客中进行更新，我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识，由于刚开始学习爬虫，水平有限，请大家多多包涵。

猜你喜欢

转载自blog.csdn.net/lsylsy726/article/details/83279217

Python爬虫1-获取指定网页源码

爬虫基础：获取网页中的指定内容

python爬虫入门（1）简单爬取网页源码

Python爬虫 - 获取网页编码

Python网络数据采集（1）——获取网页源码

菠菜源码-下载[Python数据分析] 1-数据获取

python学习笔记之爬虫 -1- 初识爬虫

爬虫实战1-批量获取公开政策文本

python爬虫.1.简单的网页爬虫

python学习笔记1-统计指定路径文件大小

爬虫基础：python获取网页内容

python爬虫基础--获取并解析网页

python 爬虫 selenuim获取动态网页

python爬虫获取网页源代码

python3获取指定网页，指定保存位置

Python3爬虫1-请求库

python数据采集1-初见爬虫

Python爬虫的小白学习笔记1-批量下载图片

Python爬虫获取网页编码为“ISO-8859-1”，中文乱码

Python爬虫——利用爬虫从网页获取视频资源

Python爬虫1：简单抓取网页

python网络爬虫（1）静态网页抓取

Python爬虫学习之路（1）——静态网页

Python爬虫-1——爬取网页

Linux获取网页源码的几种方法 linux爬虫程序

[Java爬虫-WebMagic]-02-获取网页源码

Python源码剖析1-整数对象PyIntObject

1-كۇن python ءتىلىن نەگە ۇيرەنەمىز؟

Python获取网页指定内容(BeautifulSoup工具的使用方法)

python 动态指定header获取网页源代码的函数

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)