Scrapy代码分享（初学） - 代码天地

Scrapy代码分享（初学）

其他 2020-02-07 14:16:01 阅读次数: 0

今天学习Scrapy，尝试用框架爬取糗事百科，但是糗事百科似乎关停，尝试用不同的网站代替。选择“段子网”进行段子爬取。
由于之前建立项目是用糗事百科命名，所以代码变量还是选择的糗事百科，如果有看到这篇博文的同学还请体谅这一点,如果试图运行代码，还请在一开始搭建了scrapy框架，并且项目名称按下图标注。
这是项目的截图
在上图中标蓝的qsbk_spider.py文件下的代码如下：

import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList

class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['ishuo.cn']
    start_urls = ['https://ishuo.cn/']

    def parse(self, response):
        duanzidivs=response.xpath("//div[@id='list']/ul/li")
        index=0
        for duanzidiv in duanzidivs:
            author=duanzidiv.xpath(".//div[@class='info']/a/text()").get()
            content=duanzidiv.xpath(".//div[@class='content']//text() ").getall()
            content="".join(content).strip()
            index=index+1
            print(index)
            print("*"*20)
            print(author)
            print(content)
            print("*" * 20)

细心的你一定发现了除开这个qsbk_spider.py文件，与原始框架相比还多了一个start.py的文件，这个文件是用来替代复杂的cmd操作的，这样就不要我们每次都进入到命令行去运行这个项目，代码如下：

from scrapy import cmdline
#在pycharm中运行cmd指令
cmdline.execute('scrspy crawl qsbk_spider'.split())

然后我们运行scrapy项目的时候就不用每次都去命令行啦，只需运行这个start文件就好了（本项目执行于2019/10/27，晚8点）

Hello_Bye

发布了7 篇原创文章 · 获赞 0 · 访问量 1243

私信关注

猜你喜欢

转载自blog.csdn.net/Hello_Bye/article/details/102770495

Scrapy代码分享（初学）

python scrapy 爬虫初学

comsol初学经验分享

分享《精通Python爬虫框架Scrapy》中文PDF+英文PDF+源代码

分享给前端初学者编写更好代码的 3 个原则

初学scrapy框架遇到的坑（下）

python scrapy学习demo分享

scrapy代码案例

Scrapy Shell调试代码

scrapy—items的代码写法

Scrapy代码实战

scrapy 常用代码

scrapy常用代码段

PHP初学代码

scrapy 抓取数据核心代码

AI专家分享：深度学习初学解惑

小升初学习英语的几个技巧分享

Vue 2.0初学后个人总结及分享

安卓初学者的经验分享

分享给初学者的学习心得

Maxwell个人初学经验及资料分享

【第三天】Python学习：初学scrapy框架

Python之Scrapy初学问题集中（一）

基础的轮播代码，个人初学！

初学者表格代码

初识Python,简单初学代码

【爬虫】（Scrapy）初学 Scrapy 过程中的知识和问题整理

Scrapy研究探索（三）——Scrapy核心架构与代码运行分析

Scrapy研究探索（三）——Scrapy核心架构与代码执行分析

关于写代码的分享

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)