简单的爬取贴吧案例 - 代码天地

简单的爬取贴吧案例

其他 2018-10-19 11:06:25 阅读次数: 0

思路：用循环爬取n（任意数字）页代码，然后保存在文件里
一共三个函数：

get_html函数是用来爬取页面
save_html函数用来把爬取来的页面代码保存在文件中
main作为主函数
代码如下：

from urllib.request import urlopen,Request
from urllib.parse import urlencode

def get_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    }
    request = Request(url, headers=headers)
    response = urlopen(request)
    info = response.read()
    print(info.decode())
    return info
def save_html(filename,html_bytes):
    with open(filename,"wb") as f:
        f.write(html_bytes)

def main():
    content=input("要下载的内容:")
    num=input('下载的页数:')
    base_url="http://tieba.baidu.com/f?ie=utf-8{}"
    for pn in range(int(num)):
        args={
            "pn":pn*50,
            "kw":content
        }
        filename="第"+str(pn+1)+"页.html"
        url=base_url.format(urlencode(args))
        print("正在下载"+filename)
        html_bytes=get_html(url)
        save_html(filename,html_bytes)

if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/qq_41386300/article/details/82988204

简单的爬取贴吧案例

爬虫（四）：简单爬取贴吧

爬取贴吧

贴吧爬取

ulrlib案例-爬取百度贴吧

爬取贴吧页面

爬取贴吧图片

爬取贴吧数据

简单爬取百度贴吧图片

Python爬虫实战，简单的爬虫案例，以及爬取百度贴吧网页原码和360翻译

用python爬取贴吧数据

Python实现爬取贴吧图片

爬取贴吧小项目

urllib:爬取贴吧静态数据

爬虫Spider--爬取贴吧

python爬取贴吧图片

爬取贴吧热议榜

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

爬取百度贴吧html网页HTML代码，爬虫案例

经典爬虫学习（一）-百度贴吧爬取案例

案例关于python百度贴吧图片爬取教程！

03 爬虫案例之爬取百度贴吧

Python爬取百度贴吧回帖中的微信号（基于简单http请求）

Python 基础语法+简单地爬取百度贴吧内容

Python爬虫之简单的爬取百度贴吧数据

python：爬取贴吧的某个吧的网页信息

爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

Python爬虫小程序，爬取百度贴吧网页文件，新手练手的好案例

1.4举个栗子——爬起lol贴吧网页源码（可以修改爬取贴吧名字）

Python爬取贴吧内容-南华大学贴吧为例

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)