网页死链检测方法

 

了解测试方法之前,先了解下死链、链接的相关概念

  • 死链的种类
  1. 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,
    常见的如404、403、503状态等。
  2. 内容死链:服务器返回状态是正常的,
    但内容已经变更
    为不存在、已删除或需要权限等与原内容无关的信息页面。
  • 死链出现的原因
  1. 网站目录更换。
  2. 服务器里某个文件移动了位置或者删除。
  3. 网站服务器设置错误。
  4. 动态链接在数据库不再支持的条件下。
  • 死链的影响
  1. 影响功能、用户体验。
  2. 减少搜索引擎的收录页面数量,降低网站在搜索引擎中的权重。
  3. 影响网站加载速度。
  4. 损伤网站的整体形象。
  • 链接的HTML 链接语法

a标签
通过使用 href 属性 - 创建指向另一个文档的链接;
<a href="url">Link text</a>
通过使用 name 属性 - 创建文档内的书签。
<a name="label">锚(显示在页面上的文本)</a>

  • 链接可以是文本、图像,可以通过点击来跳转到新的目标。

    目标:

  1. 另一个网页;
  2. 相同网页上的不同位置;
  3. 图片、电子邮件地址、文件;
  4. 应用程序。

网页死链检测 是日常网页测试中的一个基本测试点,相关的测试方法记录如下:

【方法一】点点点

在手动的人工功能中去测试相关的链接是否正常。判断网页中属于链接的部分,点击并观察链接目标的正确性。

缺点:

  • 效率低:需要排除页面中的其他干扰项(非链接的文本、图片、按钮等),需要人工点击等待后判断,耗时耗力;
  • 人为失误:测试人员对经常迭代的常规测试项目容易形成思维定势,或者开发人员给出的改动范围并不全面,会导致死链被漏测。

【方法二】网页式的检测工具:站长工具

进入检测工具的网页,输入待检测网站的链接,点击查询。

优点:

  • 简单易用。

缺点:

  • 仅对线上环境有效;
  • 仅进行url的检测,不涉及其他网站元素、资源;
  • 仅可检测出协议死链;
  • 遍历检测的层数较浅,深度不够,子页面下的链接未继续检测。

【方法三】软件式的检测工具:Xenu工具

下载检测工具,输入待检测网站的链接(测试环境、线上环境均可),设置检测相关的设置,点击查询。

优点:

  • 全面:从待测网站的根目录开始搜索所有的网页文件并读取其中的所有的超级链接、图片文件、包含文件、CSS文件、页面内部链接等;
  • 高效:最大支持100线程,检测速度非常快;
  • 记录网站内文件不存在、指定文件链接不存在或者是指定页面不存在
    的问题链接和处于其所处的具体位置;
  • 可输出测试报告、设置邮件通知;
  • 有重新检查失败链接的功能。

检查报告中的状态分类:

  • 链接正常:ok、mail host ok;
  • 访问超时、无法访问:timeout、no connection、no such host;
  • 没有找到,即空链接:not found;
  • 没有对象返回,即空页面:no info to return;
  • 没有对象数据,常见于访问服务器出现400错误等访问出错情况:no object data。

缺点:

  • 不开源

【方法四】编程

如果用编程的手段来实现死链检测,你的实现思路会是怎样的?

[思路一] 爬虫思维

先遍历抓取所有相关链接,再判断链接有效性。

相关样例:

  • 【Python】多线程网站死链检测工具

     [项目地址](https://github.com/Flowerowl/pylinktester)
    

    思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测(基于python2)。

        设计点:
        1. 考虑设置线程数、爬取深度;
        2. 处理链接超时,设置超时访问次数;
        3. 保存爬取链接集合,检测时设置未访问链接集合,不重复检测;
        4. 记录日志,生成文件;
        5. 爬虫线程,采用广度优先算法。
    
  • 站点链接有效性检查的python脚本

     [项目地址](https://github.com/TronGeek/CheckLinks-Python)
    

    思路:根据response内的a标签,遍历获取所有页面链接,包括图片、js、css链接,检测返回值是否为200(基于python3)。

        设计点:
        1. 缺点:单线程和未设置爬取深度导致程序运行效率低且可能无法自行结束循环遍历;
        2. 输出csv日志表格文件;
        3. 考虑检测url,以及图片、js、css链接;
        4. 进行链接分类,过滤掉站外链接;
        5. 可设置登录配置;
        6. 可设置邮件通知。
    

[思路二] 逆向思维

先列举事先规定要检测的链接,再判断链接有效性。
思路:先配置好需要检测的网页资源,再进行检测,检测网页能否正常打开以及里面的资源是否记载正常。

      设计点:
      1. 通过添加需要检测的网页来快速检测特点的网页,针对性强(前提是你知道需要事先知道并配置好待检测网页的具体url)。

结论

以上的死链检测方法,各有优缺点,可以视具体的测试场景灵活使用。

发布了11 篇原创文章 · 获赞 7 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/sinat_16683257/article/details/82911148