python爬虫完整代码 - 代码天地

python爬虫完整代码

其他 2019-03-25 13:33:36 阅读次数: 0

复制粘贴，拿来直接跑就行，url之类的都不用改。

import urllib.request
import urllib.parse
import re
import os
#添加header，其中Referer是必须的,否则会返回403错误，User-Agent是必须的，这样才可以伪装成浏览器进行访问
header=\
{
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
     "referer":"https://image.baidu.com"
    }
url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={pageNum}&rn=30&gsm=1e00000000001e&1490169411926="
keyword = input("请输入搜索关键字：")
#转码
keyword = urllib.parse.quote(keyword,'utf-8')

n = 0
j = 0

while(n<3000):
    error = 0
    n+=30
    #url
    url1 = url.format(word=keyword,pageNum=str(n))
    #获取请求
    rep = urllib.request.Request(url1,headers=header)
    #打开网页
    rep = urllib.request.urlopen(rep)
    #获取网页内容
    try:
        html = rep.read().decode('utf-8')
        # print(html)
    except:
        print("出错了！")
        error = 1
        print("出错页数："+str(n))
    if error == 1:
        continue
    #正则匹配
    p = re.compile("thumbURL.*?\.jpg")
    #获取正则匹配到的结果，返回list
    s = p.findall(html)
    if os.path.isdir(r"C:\Users\87419\Desktop\Pa") != True:
        os.makedirs(r"C:\Users\87419\Desktop\Pa")
    with open("testpic.txt","a") as f:
        #获取图片
        for i in s:
            print(i)
            i = i.replace('thumbURL":"','')
            print(i)
            f.write(i)
            f.write("\n")
            #保存图片
            urllib.request.urlretrieve(i,r"C:\Users\87419\Desktop\Pa/pic{num}.jpg".format(num=j))
            j+=1
        f.close()
print("总共爬取图片数为："+str(j))

猜你喜欢

转载自blog.csdn.net/qq_39938666/article/details/88675485

python爬虫完整代码

Python爬虫完整代码模版

Python爬虫完整代码拿走不谢

python爬虫的时候得不到完整的html代码

Python爬虫：BeautifulSoup解析静态HTML页面【附完整代码】

python爬虫，一段完整的python爬虫批量下载网站图片资源的代码

python：异常捕获完整代码

Python双色球完整代码

Python爬虫代码框架

python 爬虫代码：

python爬虫学习代码

python 爬虫代码

Python 爬虫常用代码

Python网页爬虫代码

用python爬荣耀皮肤图片（爬虫最基础题，python爬虫教程，超详细+完整代码）

Python 爬虫获取豆瓣读书top250（含完整代码）

一段完整的批量下载网站视频资源的python爬虫代码（附注解）

python爬虫手把手教你抓取微博评论（完整代码）

python爬虫-网页解析-正则实战-美团商家信息爬取（完整代码）

Python爬虫：Selenium+BeautifulSoup解析动态HTML页面【附完整代码】

python爬虫获取试题（仅提供逻辑和部分代码，不提供完整实例）

Python爬虫完整代码，一人一份，随便拿~

Python爬虫实战(进阶篇)—6获取微某博信息(附完整代码)

Python爬虫实战(基础篇)—5获取xx小说(附完整代码)

Python爬虫实战(基础篇)—4获取古诗词给孩子学习(附完整代码)

Python爬虫实战(高级篇)—3百度翻译网页版爬虫(附完整代码)

爬虫（二）豆瓣音乐评论爬虫文末附完整代码

爬虫（一）豆瓣影评爬虫文末附完整代码

Python模拟京东登录（附完整代码）

Python010__异常完整代码

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)