scrapy爬虫框架(一)

其他 2020-02-16 22:17:26 阅读次数: 0

scrapy爬虫框架(一)

创建项目

scrapy startproject 项目名

创建爬虫文件

此前要进入爬虫文件夹，使用cd命令

scrapy genspider 爬虫名 网站域名

修改配置文件Settings.py

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}


# Obey robots.txt rules
ROBOTSTXT_OBEY = False

第一个实例

爬取糗事百科

# -*- coding: utf-8 -*-
import scrapy


class QsbkSpider(scrapy.Spider):
    name = 'qsbk'
    allowed_domains = ['www.yicommunity.com']
    start_urls = ['http://www.yicommunity.com/']

    def parse(self, response):
        print("="*80)
        contents = response.xpath('//div[@class="col1"]/div')
        print(contents)
        print("="*80)
        for content in contents:

            author = content.xpath("./div[@class='author']/text()").get()
            word = content.xpath("./div[@class='content']/text()").get()
            print(author,word)

运行cmd命令

scrapy crawl qsbk

mark

pycharm中运行

在pyvenv.cfg同目录下创建start.py文件

from scrapy import cmdline

cmdline.execute("scrapy crawl qsbk".split())

猜你喜欢

转载自www.cnblogs.com/senup/p/12319005.html

一爬虫框架(scrapy)

scrapy爬虫框架(一)

scrapy爬虫框架（一）：scrapy框架简介

爬虫框架Scrapy 之(一) --- scrapy初识

Python 爬虫（一）scrapy框架

爬虫框架Scrapy学习（一）

爬虫框架scrapy入门（一）

python 爬虫 scrapy框架（一）

爬虫Scrapy框架学习（一）

爬虫框架之Scrapy(一)

Scrapy爬虫框架学习一

scrapy爬虫框架（二）：创建一个scrapy爬虫

Python使用Scrapy框架爬虫（一）

Python爬虫框架Scrapy实例（一）

python 爬虫 scrapy框架的使用一

Python Scrapy 爬虫框架实例（一）

scrapy爬虫框架简单入门实例（一）

一、用Scrapy框架开发爬虫

python爬虫攻略（一）：Scrapy框架

基于scrapy框架的爬虫项目（一）

爬虫毕设（一）：Scrapy框架

Python爬虫-Scrapy框架（一）- Scrapy环境安装

scrapy爬虫框架学习（一）scrapy的配置和项目创建

Python爬虫框架Scrapy入门（一）Scrapy安装及基本使用

[爬虫框架scrapy]scrapy的安装

爬虫框架之Scrapy

scrapy爬虫框架

Scrapy框架爬虫案例

爬虫框架Scrapy

爬虫Scrapy框架详解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)