Scrapy爬取豆瓣图书保存MySQL实验 - 代码天地

Scrapy爬取豆瓣图书保存MySQL实验

其他 2018-05-17 13:21:44 阅读次数: 2

一、任务描述

本实验任务主要对Scrapy爬取进行一些基本操作，通过完成本实验任务，要求学生熟练掌握数据爬取保存MySQL的操作，并对数据保存至MySQL的基本操作进行整理并填写工作任务报告。

二、任务目标

1、掌握Scrapy爬虫的原理

2、掌握MySQL基本操作

三、任务环境

Ubuntu16.04、Python2.7

四、任务分析

Scrapy
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

MySQL数据库
MySQL是一种开放源代码的关系型数据库管理系统（RDBMS），MySQL数据库系统使用最常用的数据库管理语言–结构化查询语言（SQL）进行数据库管理。

五、任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面，从弹出菜单中选择【Open in Terminal】命令打开终端。

通过【cd /home】切换到home目录下。【ls】查看该目录下的所有内容。

图1 切换目录

【mkdir scrapy】在home目录下创建scrapy文件夹。

图2 创建文件夹

步骤2、数据爬取

【cd scrapy】切换至scrapy目录下，【scrapy startproject douban】创建爬取的scrapy项目，【ll】查看创建成功的scrapy项目。

图3 创建Scrapy项目

打开浏览器，输入豆瓣图书的地址https://read.douban.com/kind/114,可以看到，每本书的属性有：书名，作者，类别，评分，评价人数，图书介绍。

图4 URL

【cd douban】切换至项目内，【scrapy genspider doubanspider https://read.douban.com】会自动在spiders目录下生成一个doubanspider.py,这就是爬虫的代码模块。

图5 生成爬虫文件

爬取的数据项。

【cd douban】再次切换至目录下，【vim items.py】创建爬取的数据项。

图6 编辑item.py

回车后进入编辑框内，按键盘【i】进入编辑状态，输入如下程序。

图7 编辑item.py

编辑完毕后，按【esc】退出编辑状态，【:wq】保存并退出编辑框。

步骤3、网站结构分析

不同的网站有不同的结构，爬虫要爬取哪个网站，就要分析一下对应的网站结构，在浏览器中右键选择【Inspect Element(Q)】。

可以看到，每本图书的信息都保存在一个class=”info”的div里面，其对应的xpath路径为’//div[@class=”info”]’

图8 图书信息分析

书名在class=”title”的div下面的一个a标签里面，其对应的xpath路径为’.//div[@class=”title”]/a/text()’

图9 书名分析

作者在class=”labeled-text”的span下面的一个a标签里面，其对应的xpath路径为’.//span[@class=”labeled-text”]/a/text()’

图10 作者分析

类别在itemprop=”genre”的一个span里面，其对应的xpath路径为’.//span[@itemprop=”genre”]/text()’

图11 类别分析

评分在class=”rating-average”的一个span里面，其对应的xpath路径为’.//span[@class=”rating-average”]/text()’

图12 评分分析

评分人数在class=”ratings-links”的a下面的一个span标签里面，其对应的xpath路径为’.//a[@class=”ratings-link”]/span/text()’

图13 评分人数分析

图书介绍在class=”article-desc-brief”的一个div里面，其对应的xpath路径为’.//div[@class=”article-brief”]/text()’

图14 图书介绍分析

下一页的连接在class=”next”的li下面的一个a标签里面的href属性里面，其对应的xpath路径为’//li[@class=”next”]/a/@href’

图15 下一页分析

步骤4、豆瓣爬虫

【cd spiders】切换至spiders目录下，【vim doubanspider.py】编辑创建的爬虫文件。

图16 编辑Python文件

回车后进入编辑框内，按键盘【i】进入编辑状态，修改并输入如下程序。

导入要爬取的数据项，构建爬虫所需的name、URL及爬取的内容。

图17 编辑Python文件

在parse函数内通过for循环依次得到每一项的数据。

图18 parse函数

编辑完毕后，按【esc】退出编辑状态，【:wq】保存并退出编辑框。

【cd ..】返回上一级目录，【vim settings.py】编辑设置文件。

图19 编辑setting文件

回车后进入编辑框内，按键盘【i】进入编辑状态，修改如下数据。

图20 编辑文件

编辑完毕后，按【esc】退出编辑状态，【:wq】保存并退出编辑框。

【cd ..】返回上一级目录，【scrapy crawl doubanspider -o doubanread.csv】运行Scrapy项目并将结果保存至doubanread.csv文件

图21 运行Scrapy项目

【cat doubanread.csv】查看爬取的内容。

图22 查看爬取内容

步骤5、创建数据库

【mysql -u root -p】回车后在Enter password:后输入密码root。回车后进入MySQL数据库。

图23 登录MySQL

【show databases】显示所有的数据库，【create database douban】创建名为douban的数据库。

图24 创建数据库

【use douban】使用数据库，

【CREATE TABLE doubanread(

id int(11) NOT NULL AUTO_INCREMENT,

book_name varchar(255) DEFAULT NULL,

author varchar(255) DEFAULT NULL,

class_ varchar(255) DEFAULT NULL,

grade varchar(255) DEFAULT NULL,

count int(11) DEFAULT NULL,

introduction varchar(255) DEFAULT NULL,

PRIMARY KEY (id)

) ENGINE=InnoDB AUTO_INCREMENT=1409 DEFAULT CHARSET=utf8;】创建表。

图25 创建表

【exit;】退出数据库。

图26 退出数据库

【cd douban】切换目录，【vim pipelines.py】编辑pipelines.py文件。

图27 编辑pupelines文件

回车后进入编辑框内，按键盘【i】进入编辑状态，修改如下数据

导入MySQLdb数据库，配置数据库相关的信息。

图28 连接MySQL

得到爬取的每一项，通过SQL语句将数据添加进入。

图29 获取爬取的每一项

编辑完毕后，按【esc】退出编辑状态，【:wq】保存并退出编辑框。

【vim setting.py】编辑setting.py文件

图30 编辑setting文件

回车后进入编辑框内，按键盘【i】进入编辑状态，修改如下数据

图31 编辑文件

编辑完毕后，按【esc】退出编辑状态，【:wq】保存并退出编辑框。

【cd ..】返回上一级目录，【scrapy crawl doubanspider】运行scrapy项目。

图32 运行Scrapy项目

进入MySQL数据库；【use douban】使用数据库。

图33 使用数据库

【select * from doubanread】查看爬取的数据保存至MySQL数据库，使用Navicat等工具查看效果更好。

图34 查看数据

【select count(*) from doubanread 】查看数据库内共有285条数据。

图35 查看数据

猜你喜欢

转载自www.cnblogs.com/yu-1104/p/9050477.html

Scrapy爬取豆瓣图书保存MySQL实验

Scrapy爬取豆瓣图书数据并写入MySQL

scrapy 爬取豆瓣互联网图书

Scrapy爬取豆瓣

Python Scrapy爬取并保存到Mysql

scrapy爬取豆瓣电影

Python入门学习记录04--Scrapy爬取豆瓣Top250图书(可翻页)

爬取豆瓣图书TOP250

爬虫之爬取豆瓣图书的评论

豆瓣爬取图书标签

requests+beautifulsoup爬取豆瓣图书

爬取豆瓣的最新推荐图书

爬取豆瓣电影Top250和和豆瓣图书

Scrapy爬取豆瓣小组图片

scrapy爬取豆瓣电影信息

scrapy爬取豆瓣电影教程

scrapy框架之爬取豆瓣电影

利用Scrapy爬取豆瓣电影

scrapy 爬取数据保存到mysql的基本配置

scrapy爬取数据保存csv、mysql、mongodb、json

scrapy爬取数据保存到mysql数据库

scrapy 爬取当当网信息并保存mysql

爬取豆瓣图书首页的图书信息

python 利用scrapy爬取豆瓣TOP250部电影信息分别保存为csv、json、存入mysql、下载海报图片

scrapy-redis---------------------------直取豆瓣图书“狗头”

Scrapy爬取豆瓣电影并存入MySQL数据库

Python3 + Scrapy 爬取豆瓣评分数据存入Mysql与MongoDB数据库。

scrapy爬取豆瓣top250并插入到MySQL数据库（入门级）

Python爬取豆瓣网图书评论

Python爬取豆瓣图书信息学习记录

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)