关于查看网页源代码和F12内容不一致的问题

最近想开发个用于信息收集的小工具,在爬取网页时出现查看网页源代码和F12中内容不一致的问题,查资料了解一下。

查看网页源代码:就是别人服务器发送到浏览器的原封不动的代码,也是爬虫获得的代码。

F12:在源码中找不到的代码(元素),是在浏览器执行js时动态生成的,通过F12看到的就是浏览器处理过的最终的html代码。

解决办法:

1.直接从JavaScript中采集加载的数据,用json模块处理;

2.直接采集浏览器中已经加载好的数据,借助工具PhantomJS。

参考:https://www.cnblogs.com/yuantup/p/9761534.html

猜你喜欢

转载自www.cnblogs.com/wkzb/p/12327867.html