爬取百度贴吧html网页HTML代码，爬虫案例 - 代码天地

爬取百度贴吧html网页HTML代码，爬虫案例

编程语言 2018-10-25 19:48:24 阅读次数: 0

版权声明：如有侵权,请联系作者删除该文件! https://blog.csdn.net/Programmer_huangtao/article/details/83217196

from urllib.request import Request,urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent
#导入相应的库文件
def get_html(url):
    headers={
        'User-Agent': UserAgent().chrome
    }
    #加入请求头
    request = Request(url,headers=headers)
    #请求网页
    response = urlopen(request)
    #返回内容
    print(response.read().decode())
    #打印内容
    return response.read()
    #重新读取内容


def save_html(filename,html_bytes):
    #保存网页，文件名，html
    with open("filename","wb") as f:
        f.write(html_bytes)


def main():
    content = input('请输入要下载的内容:')
    num = input('请输入要下载多少页:')
    base_url = 'http://tieba.baidu.com/f?ie=utf-8&{}'
    #构造网页地址url
    for pn in range(int(num)):
    #循环定义页数
        args = {
           "pn":pn*50,
           "kw":content
        }
        #贴吧url构造为前面的页号，再加搜索内容
        filename = "第" + str(pn) + "页.html"
        #给下载的页面起一个名字
        args = urlencode(args)
        print("正在下载" +filename)
        html_bytes = get_html(base_url.format(args))
        #网页url构造为前面的base_url,再加后面构造的页数，和搜索的东西
        save_html(filename,html_bytes)
        #保存新的网址url

if __name__=='__main__':

    main()
    #主程序入口

猜你喜欢

转载自blog.csdn.net/Programmer_huangtao/article/details/83217196

爬取百度贴吧html网页HTML代码，爬虫案例

实现对任意百度贴吧的html爬取

Python爬虫实战，简单的爬虫案例，以及爬取百度贴吧网页原码和360翻译

Python爬虫小程序，爬取百度贴吧网页文件，新手练手的好案例

利用爬虫爬取百度贴吧内容

python爬虫爬取百度贴吧图片

爬虫学习（五）————百度贴吧的爬取

python爬虫爬取百度贴吧帖子

爬虫实战--爬取百度贴吧

爬虫实现百度贴吧的图片爬取

ulrlib案例-爬取百度贴吧

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

经典爬虫学习（一）-百度贴吧爬取案例

03 爬虫案例之爬取百度贴吧

爬虫百度贴吧下载20页html

爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

PHP爬虫-爬取百度贴吧首页违规主题贴

学习笔记（爬虫）：爬取百度贴吧，美女吧图片

爬虫---实现爬取百度贴吧（海贼王吧）

分享一个能爬取所有百度贴吧图片的爬虫代码

芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子

python 爬虫（一）爬取百度贴吧图片

Python3爬虫爬取百度贴吧

[Python爬虫之路2]爬取百度贴吧内容

Python爬虫系列之百度贴吧爬取

python爬虫爬取百度贴吧（入门练习）

实战python 爬虫爬取百度贴吧图片

Python爬虫【实战篇】百度贴吧爬取页面存到本地

爬虫小程序之爬取百度贴吧图片

Python爬虫之简单的爬取百度贴吧数据

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)