Web Scraper有反爬虫的网站如何抓取_3.5

  1. 现象:网页上的代码无法选中
  2. html源码分析
<h2 class="ContentItem-title"><a href="//zhuanlan.zhihu.com/p/122475168" target="_blank" rel="noopener noreferrer" data-za-detail-view-element_name="Title">冷冷心得丨在人际关系上吃了太多亏,才想明白这两点</a></h2>
  1. 而抓取标题后,得到的是:h2.ContentItem-title a
  2. 格式

外标签.class值
外标签.class值 内标签

  1. 使用格式就可以获取到需要抓取的模块,所以可以抓取无法选中的网页
  2. 注意
    抓取内容不要用于商业,个人数据需要授权,没有被搜索引擎收录的不能乱爬。
    参见robots.txt哪些内容是不应被搜索引擎的漫游器获取
发布了52 篇原创文章 · 获赞 3 · 访问量 2208

猜你喜欢

转载自blog.csdn.net/qq_42907800/article/details/105269300
今日推荐