- 现象:网页上的代码无法选中
- html源码分析
<h2 class="ContentItem-title"><a href="//zhuanlan.zhihu.com/p/122475168" target="_blank" rel="noopener noreferrer" data-za-detail-view-element_name="Title">冷冷心得丨在人际关系上吃了太多亏,才想明白这两点</a></h2>
- 而抓取标题后,得到的是:h2.ContentItem-title a
- 格式
外标签.class值
外标签.class值 内标签
- 使用格式就可以获取到需要抓取的模块,所以可以抓取无法选中的网页
- 注意
抓取内容不要用于商业,个人数据需要授权,没有被搜索引擎收录的不能乱爬。
参见robots.txt哪些内容是不应被搜索引擎的漫游器获取