不用写代码的爬虫课

1、插件安装    链接: webscraper插件  提取码:t6ex

2、打开

1. windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
2. mac: Cmd+Opt+I, 或者 Tools / Developer tools
3. 或者:右键——> 审查元素

使用步骤(通⽤用)
step1:打开软件
step2:创建 sitemap

Sitemap(站点地图)是一种文件,站长可通过该文件列出网站上的网页,将网站内容的组织结构告知搜索引擎。
神马等搜索引擎网页抓取工具会读取此文件,以便更加智能地抓取网站内容

step3:添加 selector(核心) (Element preview:查看选中元素、Data preview:预览抓取数据、Multiple:抓取多条记录

Delay:延时、确保数据加载成功(2000~5000ms)

如上图,我们按照标号来挨个看。

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
  2. 选择 “Type”,此处选择Element scroll down
  3. 点击 “Select” 进行元素抓取
  4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
  5. 点击第一个帖子
  6. 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!"
  7. 勾选 “Multiple”
  8. 输入 Delay(延迟时间,意思是等待多长时间后,再进行抓取,建议填 2000)
  9. 点击”Save Selector“


step4:开始抓取   Scrape
step5:导出到本地电脑  到处csv

牢记:Element 选择器器必须创建⼦子选择器器!!

子选择器,不用延时  select graph 选择预览

多页:URL规律

相关资料:https://www.jianshu.com/p/cd5124ac0871

可以用来娱乐哈!

猜你喜欢

转载自blog.csdn.net/sinat_23880167/article/details/83211925