比Python更狠毒的一种爬虫!

爬虫:一段自动抓取互联网信息的程序,从互联网抓取对我们有价值的信息!

说起爬虫,可能你首先想起的就是Python,因为Python在爬虫方面是出了名的。但是希望你不要被误导,不只是Python可以写爬虫程序,其他高级语言也是可以的,比如Java。
在这里插入图片描述
那么,今天我们来讲一个比Python更狠毒的爬虫。它不是Java,也不是其他高级语言。这时候,你只需要默默的打开Kali Linux即可。我将开始新的爬虫之旅~

打开Kali之后,我们需要用到工具httrack。由于Kali本身不自带该工具,所以我们需要安装它,下面我一步一步来操作!

一、打开Kali,安装httrack

首先我们更新一下列表:

apt-get update

在这里插入图片描述
安装httrack:

apt-get install httrack

在这里插入图片描述
完成安装!

二、开始使用httrack爬取信息

首先我们可以创建一个目录用于存放爬取的信息。
在这里插入图片描述
接着我就拿我的个人网站来爬取一下信息:

httrack URL

在这里插入图片描述
上图显示正在爬取,将网站信息保存到本地。

完成之后,就如下图所示:
在这里插入图片描述
接着我们查看一下爬取的信息:
在这里插入图片描述
因为我个人网站没有动态页面,所以不会产生cookies.txt文件,等一下我将列出爬取的信息都包含什么。

我们先来看一下orgloft.com目录,这里存放的是网站源码、图片等信息。
在这里插入图片描述
在这里插入图片描述
要注意的是,蓝色字体的都是目录,即这些目录下包含的有文件,白色字体的是文件,可以直接使用vim打开。

我们打开一个源码文件看一下:
在这里插入图片描述
在这里插入图片描述
满满的源码展示在你眼前!

使用httrack爬取网站,我们能得到以下信息:

  • 网页源码

  • 网站所有图片

  • 所有下载文件

  • cookies.txt文件,包含用于下载站点的cookie信息

  • hts-cache目录包含由爬虫检测到的文件列表,这是httrack所处理的文件列表

  • hts-log.txt文件包含错误、警告和其他在爬取站点时的信息

除此之外,httrack还有许多其它选项可以使用,让我们自定义它的行为来完成我们的需求:

  • -rN : 将爬取的链接深度设置为N

  • -%eN: 设置外部链接的深度界限

  • -F[user-agent]: 用于下载站点的UA即浏览器标识符

三、除httrack之外的wget

我们已经知道,httrack可以爬取网站的信息。httrack直接将网站的所有内容都可以爬取到本地,但是我们只需要部分信息的时候呢?该怎么办?

这时候就需要wget,wget是kali自带的一种工具,所以你无需安装,直接打开终端使用即可。

下面还是以我个人网站为事例:

wget http://orgloft.com/

看这种情况和刚才的httrack有什么不同之处。
在这里插入图片描述
仔细看,在url最后我加了 / ,这是一个很重要的符号,有了 / ,就代表只需要爬取当前的页面信息,而不是全站点信息!
在这里插入图片描述
这时候你很容易发现跟刚才的httrack有着很大的区别,这时候就只爬取了主页面一个文件 index.html。

依据此原理,你可以转到其他页面后面加一个 / 。这时就只爬取该一页内容。如果没有 / ,那么爬取的将是所有内容。

注意:在使用wget时,它会自动将爬取的内容存放在当前目录下。当然,你也可以指定目录

wget -P 目录/ URL

这里参数 -P 就代表着允许设置目录并且文件存放在该目录里。

wget的另外一些参数:

  • -r : 该参数是将站点所有信息遍历爬取到本地。

  • -l : 在该参数后面我们可以加上遍历深度值,以便让其爬取有个界限

  • -k : 该参数能够指向本地文件,将你爬取的站点信息在本地浏览

  • -p : 爬取该站点所有图像

本篇爬虫到此就结束了,在你安装httrack时,可能会遇到一些问题,不要慌。你可以来找我咨询,公众号内可联系我,我帮你解答。如果你还没有Kali ,你可以在公众号内回复 Kali 获取。

温馨提示:各位在使用爬虫时,请注意自己的行为。不要触及法律规定的内容,不随意爬取别人的隐私,更不能贩卖数据!有句话说得好:

爬虫玩的好,监狱进的早;数据玩的溜,牢饭吃个够!

请文明使用爬虫!Over!

查看原文请关注公众号【Honker】,更多有关黑客知识送给你!
在这里插入图片描述

发布了56 篇原创文章 · 获赞 54 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_43729943/article/details/104223432