网络爬虫入门教程（一）：概述 - 代码天地

网络爬虫入门教程（一）：概述

编程语言 2018-05-10 10:34:02 阅读次数: 0

爬虫基础：

编写神箭手爬虫, 需要具备以下技能:

爬虫采用JavaScript编写

从网页中抽取数据需要用XPath

(后面会开放支持CSS选择器)

很多情况下都会用到正则表达式

在某些情况下, 你可能还需要用到JsonPath

Chrome的开发者工具

是神器, 很多AJAX请求需要用它来分析

第一个demo

爬虫采用JavaScript编写, 下面以糗事百科为例, 来看一下我们的爬虫长什么样子:

    var configs = {

    // configs对象的成员domains, scanUrls, contentUrlRegexes和fields

    domains: ["www.qiushibaike.com"],

    scanUrls: ["http://www.qiushibaike.com/"],

    contentUrlRegexes: ["http://www\\.qiushibaike\\.com/article/\\d+"],

    fields: [

    {

    name: "content", // fields成员中第一个field对象的name

    selector: "//*[@id='single-next-link']", // fields成员中第一个field对象的selector

    required: true // fields成员中第一个field对象的required

    },

    {

    name: "author", // fields成员中第二个field对象的name

    selector: "//div[contains(@class,'author')]//h2" // fields成员中第二个field对象的selector

    }

    ]

    };

    // 向爬虫任务中添加configs配置，并启动爬虫

    var crawler = new Crawler(configs);

    crawler.start();

爬虫的整体框架就是这样, 首先定义了一个configs对象, 里面设置了待爬网站的一些信息, 然后通过调用var crawler = new Crawler(configs);和crawler.start();来配置并启动爬虫.

configs对象如何定义, 后面会作详细介绍。

参考资料：http://doc.shenjianshou.cn/

神箭手云爬虫官网地址：http://www.shenjianshou.cn/

爬虫demo源码分享：https://github.com/ShenJianShou/crawler_samples

猜你喜欢

转载自2879835984.iteye.com/blog/2306914

网络爬虫入门教程（一）：概述

爬虫的概述及简单实践练习|python入门教程

网络爬虫入门教程（二）：configs详解

无废话SharePoint入门教程一[SharePoint概述]

爬虫入门教程 —— 3

爬虫入门教程 —— 2

爬虫入门教程 —— 1

GooSeeker爬虫入门教程

Scrapy爬虫入门教程一安装和基本使用

Python爬虫入门教程一：环境准备

python爬虫入门教程--快速理解HTTP协议（一）

Python爬虫入门教程：初识爬虫

【良心教程】保姆级Python爬虫入门教程（一）——爬虫之初见

Postman入门教程(概述、下载、使用)

区块链入门教程(1)--概述

最详细的Python爬虫入门教程, 一篇文章入门爬虫不是儿戏!

最详细的Python爬虫入门教程，一篇文章入门爬虫不是儿戏！

scrapy入门教程()部署爬虫项目

python很全的爬虫入门教程

Scrapy入门教程 python 爬虫

pyquery 爬虫神器入门教程

Python爬虫入门教程导航帖

WebMagic 实现爬虫入门教程

python爬虫入门教程(一)：开始爬虫前的准备工作

python爬虫入门教程(二)：开始一个简单的爬虫

Python爬虫入门教程 68-100 一招解决爬虫程序卡死问题

Java EE入门教程系列（一）——第一章Java EE的概述（1）

Python网络爬虫快速上手！零基础入门教程！

JavaFx入门教程（一）

Shader入门教程（一）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)