scrapy抓取网站 - 代码天地

scrapy抓取网站

企业开发 2018-05-13 07:49:23 阅读次数: 0

1. 安装
easy install pip
pip install scrapy

2. Items, spider, itempipline 基本概念
scrapy startproject tutorial

vim items.py

 
class DmozItem(Item):
       
  #  define the fields for your item here like:
    name = Field()
    title = Field()
    link = Field()
    desc = Field()
class TorrentItem(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

vim spiders/dmoz_spider.py

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector 
from tutorial.items import DmozItem
class DmozSpider(BaseSpider):
    name = 'dmoz'
    allowed_domains = ['dmoz.org']
    start_urls = ["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
        ]   
    def parse(self, response):
        sel = HtmlXPathSelector(response)
        sites = sel.select('//ul/li')
        items = []
        for site in sites:
            item = DmozItem()
            item['title'] = site.select('a/text()').extract()
            item['link'] = site.select('a/@href').extract()
            item['desc'] = site.select('text()').extract()
            items.append(item)
        return items

scrapy crawl dmoz -o items.json -t json

3常见问题
a. spider的name不能与项目名字相同

猜你喜欢

转载自josephgao.iteye.com/blog/1969722

scrapy抓取网站

使用scrapy抓取sinanew网站

【爬虫】Scrapy 抓取网站数据

Scrapy抓取360网站图片

scrapy抓取所有网站域名

Scrapy(抓取)

使用Scrapy抓取数据

scrapy抓取cnblog新闻

scrapy抓取dmoz内容

笔记——scrapy 抓取图片

scrapy初探（抓取图片）

scrapy网页抓取项目

scrapy——抓取知乎

scrapy 抓取拉钩 ajax

scrapy抓取淘宝女郎

【Scrapy 五分钟撸网站】[科技行业新闻]Scrapy实战快科技全站数据抓取

【Scrapy 五分钟撸网站】[科技行业新闻]Scrapy实战36氪全站数据抓取

【Scrapy 五分钟撸网站】[各省市新闻信息]Scrapy实战中国甘肃网全站数据抓取

【Scrapy 五分钟撸网站】[健康行业新闻]Scrapy实战99健康网全站数据抓取

【Scrapy 五分钟撸网站】[健康行业新闻]Scrapy实战39健康网全站数据抓取

直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy

使用scrapy 模拟登陆网站后抓取会员中心相关信息

scrapy抓取某些网站出现AttributeError_ object has no attribute 的解决办法的代码.txt

【Scrapy 五分钟撸网站】数据抓取项目框架通用模板

Scrapy:抓取返回数据格式为JSON的网站内容

scrapy实战多级页面抓取

scrapy定时执行抓取任务

Scrapy 在shell下抓取图片

scrapy实现全站抓取数据

scrapy抓取校花网图片

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)