爬虫----代码段总结 - 代码天地

爬虫----代码段总结

其他 2018-08-04 15:56:19 阅读次数: 0

图片下载

response=requests.get(url,headers=headers)
if response.status_code==200:
    with open('123.jpg','wb') as f:
        f.write(response.content)
    print('ok')

图片下载 —scrapy

pipelines.py:

from scrapy.pipelines.images import ImagesPipeline
from scrapy.utils.project import get_project_settings
import os
#保存图片
class ImagePipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        image_path = item["nick_image"]
        yield scrapy.Request(image_path)

    #重命名
    def item_completed(self, results, item, info):
    iamge_path = [x["path"] for ok, x in results if ok]
    old_image_name = self.IMAGES_STORE+"/"+iamge_path[0]
    new_image_name = self.IMAGES_STORE+"/"+item['nick_name']+".jpg"
    os.rename(old_image_name,new_image_name)
    item["image_path"] = new_image_name

    return item

在setting中创建image目录: IMAGES_STORE = ‘./Image’

scrapy爬虫parse()回调实现下一页

    if self.offset < int(position_numbers):
        self.offset += 10
    new_url = self.url + str(self.offset) + "#a"
    yield scrapy.Request(new_url,callback=self.parse)

猜你喜欢

转载自blog.csdn.net/qq_39926957/article/details/80350232

爬虫----代码段总结

一段Python爬虫代码的分析

几个实用的CSS代码段总结

《超实用的JavaScript代码段》—— 读后总结

java编写的一段简单的爬虫demo代码

关于详解一段爬虫代码（原创，启发自一段与师兄的对话）

python爬虫，一段完整的python爬虫批量下载网站图片资源的代码

Python常用爬虫代码总结方便查询

代码段

一段Spring代码引起的调用绑定总结

VS中常用C#代码段快速输入总结

PHP一个简单的无需刷新爬虫thinkphp官网代码段

一段完整的批量下载网站视频资源的python爬虫代码（附注解）

数据段，代码段，bss段

代码段/数据段/堆栈段

代码段、数据段、bss段

【项目总结】雪球爬虫完结（附Snowball模块代码）

数据段、代码段、BSS段、堆栈段

数据段、代码段、堆栈段、BSS段学习整理

数据段、代码段、堆栈段、BSS段的区别

爬虫突破的手段

爬虫总结

C段错误总结

段错误问题总结

段错误总结

2019.8.1阶段总结

traits代码段

优质代码段

Xcode 常用代码段

JavaScript实用的代码段

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)