爬虫是个非常大的搜索引擎

爬虫:按照一定的规则自动抓取网络信息,

反爬虫:User_Agent ,Referer,验证码

单位时间访问次数,访问量的限制

关键信息图片混淆

异步加载

爬取网页内容,,但是抓取的只是空壳,因为采取的异步加载

GoogleChrome/puppeteer

https://github.com/GoogleChrome/puppeteer/blob/v1.7.0/docs/api.md这是爬取行为的配置文件,是根据用户的行为,进行爬取的

老师源码地址:https://github.com/Samaritan89?tab=repositories

猜你喜欢

转载自blog.csdn.net/qq_41153478/article/details/81870006