python简单爬虫，爬取整个页面 - 代码天地

python简单爬虫，爬取整个页面

企业开发 2020-10-28 10:05:13 阅读次数: 0

简单的爬虫，爬取整个页面，修改代码中的url可爬取指定网站。

import urllib.request  # 导入包


def getHtml(url):  # 获取html的内容
    html = urllib.request.urlopen(url).read()  # bytes 如果不用read()html会是一个↓
    return html                                # http.client.HTTPResponse的变量


def saveHtml(fileName, fileContent):
    with open(fileName, "wb") as f:  # 以wb打开文件
        f.write(fileContent)  # 写入


def main():
    url = "https://www.zhihuishu.com/"  # url
    html = getHtml(url)  # 调用函数获取bytes
    saveHtml("theHtml.html", html)  # 保存
    print("保存网页完成")  # 提示语


if __name__ == "__main__":  # 主函数
    main()

遗留问题：有不少网站有反爬虫机制，导致爬到的文件并非是想要的文件。

猜你喜欢

转载自blog.csdn.net/weixin_51343683/article/details/109295084

python简单爬虫，爬取整个页面

python爬虫-基础入门-爬取整个网站《1》

python爬虫-基础入门-爬取整个网站《2》

python爬虫-基础入门-爬取整个网站《3》

python爬虫入门（一）——爬取整个网页的源码

Python爬虫_有道翻译_为什么爬取有道时爬到的不是结果、是整个页面

python爬虫--打开爬取页面

Python 爬虫 ——爬取Web页面图片

Python爬虫笔记：爬取单个页面

简单python爬虫爬取新浪新闻

python爬虫-简单的图片爬取实现

python爬虫-爬取简单的图片

使用Python爬虫爬取简单网页（Python爬虫入门）

python梳理爬虫思路：静态页面爬取 +动态页面爬取 + 需要登陆的页面爬取（实战应用）

Python爬虫实战——爬取新闻数据（简单的深度爬虫）

用Python爬取整个学院MM的电话和QQ，爬虫这也太牛了！

Python爬虫实战：爬取JS组成的页面

Python爬虫之爬取动态页面数据

python网络爬虫《爬取get请求的页面数据》

Python爬虫《爬取get请求的页面数据》

Python爬虫爬取搜狗搜索到的内容页面

【python爬虫笔记】动态渲染页面爬取

Python爬取整个网页的数据

Python爬虫爬取ajax动态加载页面——证监会法规爬取

【Python爬虫】之爬取页面内容、图片以及用selenium爬取

python3爬虫爬取网页图片简单示例

用PYTHON爬虫简单爬取网络小说

python之简单爬虫（爬取豆瓣出版社）

python爬虫（一）简单爬取文字写入txt

python爬虫入门（1）简单爬取网页源码

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)