利用scrapy框架爬取网易新闻排行榜 - 代码天地

利用scrapy框架爬取网易新闻排行榜

编程语言 2018-08-27 12:47:28 阅读次数: 0

wyxw.py中代码

# -*- coding: utf-8 -*-
import scrapy
from ..items import WyxwItem

class WyxwSpider(scrapy.Spider):
    name = 'wyxw'
    allowed_domains = ['news.163.com']
    start_urls = ['http://news.163.com/special/0001386F/rank_whole.html']

    def parse(self, response):


        item = WyxwItem()
        xq_title = response.xpath('//table/tr/td[1]/a/text()').extract()
        item['title'] = xq_title

        print(xq_title)
        xq_url = response.xpath('//table/tr/td[1]/a/@href').extract()
        item['xq_url'] = xq_url
        print(xq_url)
        xq_djl = response.xpath('//table/tr/td[2]/text()').extract()
        print(xq_djl)
        item['dj'] = xq_djl
        for i in range(0, len(xq_title)):

            item['title'] = xq_title[i]
            item['xq_url'] = xq_url[i]
            item['dj'] = xq_djl[i]
            yield item

items.py文件代码

class WyxwItem(scrapy.Item):
    title = scrapy.Field()
    xq_url = scrapy.Field()
    dj = scrapy.Field()
    def get_insert_sql(self):
        sql = 'insert into wyxw_test(title,xq_url,dj) values (%s,%s,%s)'
        data = (self['title'],self['xq_url'],self['dj'])
        return (sql,data)

pipelines.py代码

class MysqlProjectPipeline(object):
    def process_item(self, item, spider):
        (insert_sql,data) = item.get_insert_sql()
        myhelper = MysqlHelper()
        myhelper.execute_modify_sql(insert_sql,data)

其他文件配置看scrapy框架基本设置

猜你喜欢

转载自blog.csdn.net/majiexiong/article/details/82108025

利用scrapy框架爬取网易新闻排行榜

python 爬虫爬取网易新闻网易排行榜

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

scrapy框架爬取斗鱼女主播照片,依据颜值排行榜

scrapy爬取猫眼电影排行榜

利用BeautifulSoup爬取豆瓣高分电影排行榜

使用seleinum爬取网易云音乐中iframe嵌入式框架内的排行榜的音乐

【scrapy】scrapy爬取豆瓣电影排行榜并写入数据库

豆瓣电影排行榜爬取

爬取猫眼电影排行榜

requests爬取猫眼排行榜

[Python爬虫]Scrapy框架爬取网易国内新闻

爬取网易云听歌排行榜歌单制作云词

Python爬取网易云音乐热歌排行榜Top200音乐

Python3+Scrapy爬取百度音乐排行榜

爬取360影视排行榜-总榜

python爬虫爬取酷狗音乐排行榜

python — 定时爬取猫眼电影排行榜

爬取起点小说总排行榜

Python爬虫实战：爬取全站小说排行榜

爬取豆瓣电影排行榜前250

python爬取酷狗音乐排行榜

python爬取b站排行榜

使用xpath爬取猫眼电影排行榜

爬取豆瓣网电影排行榜

爬取中国大学排行榜

中国最好大学排行榜爬取

爬取微博热搜排行榜

爬取时代周报排行榜前十

Python爬取虾米音乐排行榜

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)