RuiJi Scraper 网页数据提取插件快速上手 - 代码天地

RuiJi Scraper 网页数据提取插件快速上手

其他 2020-03-25 10:24:46 阅读次数: 0

RuiJi Scraper网页数据提取插件快速上手

RuiJi Scraper网页数据提取工具支持目前大部分主流浏览器。

例如以谷歌为内核开发的谷歌浏览器、腾讯浏览器、猎豹浏览器、百度浏览器、360极速浏览器，以及火狐浏览器、微软最新的Edge浏览器。

因为谷歌浏览器应用商店在国内有墙的限制，今天我们就使用火狐浏览器为大家演示如何快速上手RuiJi Scraper来采集数据。

1.打开火狐浏览器附加组件管理器，搜索RuiJi Scraper并安装。

2.登录RuiJi Scraper，如果没有账号可以用邮箱注册（注册直接送7天会员哦，如果有推荐码还额外赠送7天）。

3.打开想要提取的界面，点击RuiJi按钮打开提取面板。

4.我们首先能看到公共规则面板，点击大拇指可以点赞，点击五角星可以收藏。点开收藏面板，可以看到我们刚刚收藏的规则。

5.点击查看按钮，可以按照当前规则进行查看能选中哪些元素。

6.点击抽取按钮，进行实际抽取，抽取后可进入工作簿查看抽取的内容。我们可以看到RuiJi Scraper将所有图片的描述信息和地址提取出来了。

7.打开工作簿可以选择导出自己想要的格式化文件，我们以csv格式的excel表格为例。检测地址可以检测出可以下载的页面、图片、视频、音频等进行打包下载。

8.可以通过点击公共规则的编辑按钮或者右上角的+按钮进入，创建私有规则的界面。

9.编辑私有规则，首先为规则添加一个名称，指定通配符（标识这个规则适用于哪些地址，*代表多个任意字符，?代表一个任意字符），指定域。

10.选定一个块选区域，指定需要提取网页哪个部分的信息，填写可增加精确度。（可忽略）

11.选定一个片选区域，需要提取哪些重复片中的信息。

12.首先我们提取一个商品名称，指定好要提取的标签元素特征，再指定提取元素下的text文本即可。

13.我们再来提取链接，方法同上，但是链接一般都在a标签中，所以为了精确性需要2步执行。

14.再来提取店名，方法同商品名称。

15.最后我们提取价格，同样为了准确性我们需要两步来筛选，去掉人民币符号。还要注意我们提取的价格是浮点小数，所以将提取结果指定为double，而不是字符串的str。编辑后保存。

16.使用我的规则进行抽取，抽取结果在工作簿查看。（还可看到之前公共规则测试提取的所有图片）

17.按价格排序，然后导出数据。

以上就是快速上手RuiJi Scraper网页信息提取工具的方法，详细深入使用可参考其他文章。如实在有不明白的或者有建议，请发邮件至[email protected]邮箱中，一定及时回复。希望得到大家的支持，我们会越做越好。

lx_6666

发布了4 篇原创文章 · 获赞 4 · 访问量 1345

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_42852371/article/details/84308145

RuiJi Scraper 网页数据提取插件快速上手

RuiJi Scraper 快速上手

RuiJi Scraper 网页视觉识别

RuiJi Scraper 分页抽取

RuiJi Scraper 选择器

RuiJi Scraper基础 – RuiJi表达式模型

使用RuiJi Scraper将文章导入WordPress

RuiJi Scraper 选择器函数

网页数据抓取工具（谷歌插件 web Scraper）

【Web Scraper教程04】Web Scraper插件的selector理解

【Web Scraper教程02】安装Web Scraper插件

【Web Scraper教程05】(含视频演示)Web Scraper爬虫爬取"58同城数据"

web scraper 抓取网页数据的几个常见问题

【Web Scraper教程01】理解网页数据抓取的原理（含演示）

简易数据分析 11 | Web Scraper 抓取表格数据

web scraper 抓取数据并做简单数据分析

简易数据分析 07 | Web Scraper 抓取多条内容

Web Scraper与Apache CouchDB让数据有规律_3.2

Web Scraper——轻量数据爬取利器

【Web Scraper教程03】(含动画演示)Web Scraper爬虫爬取"p2p数据平台"

简易数据分析 09 | Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器

web scraper 抓取分页数据和二级页面内容

1分钟轻松爬数据（web scraper插件使用教程）

RuiJi.Net RuiJi 表达式选择器

RuiJi.Net RuiJi 表达式进阶

RuiJi.Net RuiJi 表达式介绍

RuiJi.Net 抽取模型

简易数据分析 06 | 如何导入别人已经写好的 Web Scraper 爬虫

简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页

简易数据分析 13 | Web Scraper 高级用法——抓取二级页面

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)