Web Scraper 性能测试 (-_-) - 代码天地

Web Scraper 性能测试 (-_-)

其他 2020-03-22 18:17:28 阅读次数: 0

刚在研究 Python 爬虫的时候，看到了个小白工具，叫 Web Scraper，于是来测试下好不好用。

Web Scraper 是什么？

它是一个谷歌浏览器的插件，
用于批量抓去网页信息，
主要特点为，小白操作，快速上手

安装方法

去 Google WebStore 里面搜，Web Scraper，然后点击安装就行了！

使用方法

自己上网搜吧，太多了！

测试结果

首先，它适用的范围是，网页的可见范围；就是页面上能看到的，都可以抓取。
- 所以，工作范围有限；例如，当你有一个 Excel，里面有 50 只股票的名字，要找到股价，这时这个工具就做不了了。因为股票代码，在Excel里，不在网页上
- 这种情况，需要用 Python 自己写个小爬虫，来完成！
然后，测试了抓取的精准度
1. 发现，抓取的时候，插件不会把网页往下拉。
  - 在测试抓去一个页面的，70多个视频标题，的时候，不知为何只能抓取出20多个
  - 可能是因为，这个页面每次久显示20个，然后当手动拉到最底端的时候，才会再 Load 例外20个。而，这个 Scraper，好像不会去拉动页面，只是打开就抓取，所以页面其实只 Load 了20个视频。
  - 这是插件的局限性么？
2. 再者，若是一个页面有很多信息要抓取时，会很不准确。
  - 如果一个页面，只有一个 Selector，只抓取一个 Element，会相对准确
  - 例如，当一个人网页有大量新闻的时候，需要抓取所有的，标题，作者，时间；
  - 这样需要在一个页面上，同时建立3个 Selector，来抓取3列数据。测试结果，抓去数据严重不全，基本没用。
  - 而当一个页面，只有一个 Selector，只抓取一个 Element 的时候，就会比较精确。

最后总结

测试结果差不多就这么多，遇到了我这样的用户，这软件基本被扒了层皮。
觉得，这个插件更适合，小白，和相对简单的抓取任务。

猜你喜欢

转载自www.cnblogs.com/bitssea/p/12547328.html

Web Scraper 性能测试 (-_-)

web scraper——安装【一】

【Web Scraper教程02】安装Web Scraper插件

【Web Scraper教程04】Web Scraper插件的selector理解

Python Hacking Tools - Web Scraper

Web Scraper_2_使用

Web Scraper环境配置_1.1

Web Scraper_0_介绍

Iron Web Scraper 2023.4.13 Crack

web scraper——多页爬取

不写代码也能爬虫Web Scraper

不用写代码的爬虫Web Scraper

Python Web Scraper - Simple Url Request

使用web scraper抓取分页内容

Web Scraper_3_其他技巧

Web Scraper_1_基础知识

Web Scraper链家循环分页_2.11

Web Scraper基本使用和概念_1.2

【Web Scraper教程05】(含视频演示)Web Scraper爬虫爬取"58同城数据"

Web Scraper-牛逼的东西就在身边

网页数据抓取工具（谷歌插件 web Scraper）

简易数据分析 07 | Web Scraper 抓取多条内容

简易数据分析 11 | Web Scraper 抓取表格数据

web scraper 抓取数据并做简单数据分析

介绍一款好用又易学的爬虫工具：web scraper

Web Scraper有反爬虫的网站如何抓取_3.5

Web Scraper与Apache CouchDB让数据有规律_3.2

Web Scraper的windows下CouchDB的安装使用_3.3

Web Scraper 统计58同城房屋信息_2.5

Web Scraper爬取批量获取图片素材_2.3

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)