Headless Chrome入门,原来还有这样的工具。

版权声明:本文为博主原创文章,未经博主允许不得转载。博主地址:http://blog.csdn.net/freewebsys https://blog.csdn.net/freewebsys/article/details/84609078

前言


本文的原文连接是: https://blog.csdn.net/freewebsys/article/details/81665552
未经博主允许不得转载。
博主地址是:http://blog.csdn.net/freewebsys

1,关于Headless Chrome


Puppeteer 是一个控制 headless Chrome 的 Node.js API 。它是一个 Node.js 库,通过 DevTools 协议提供了一个高级的 API 来控制 headless Chrome。它还可以配置为使用完整的(非 headless)Chrome。

在浏览器中手动完成的大多数事情都可以通过使用 Puppeteer 完成,下面是一些入门的例子:

生成屏幕截图和 PDF 页面
检索 SPA 并生成预渲染内容(即“SSR”)
从网站上爬取内容

自动提交表单,UI测试,键盘输入等

创建一个最新的自动测试环境。使用最新的 JavaScript 和浏览器功能,在最新版本的 Chrome 中直接运行测试

捕获网站的时间线跟踪,以帮助诊断性能问题。

项目地址:
https://github.com/GoogleChrome/puppeteer

2,使用


写的很详细:
https://developers.google.com/web/updates/2017/04/headless-chrome
有翻译:
https://www.jianshu.com/p/aec4b1216011

执行alias:

alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome"
chrome --headless --disable-gpu --dump-dom https://www.sogou.com/

和直接查看页面当中的html还是不一样的。是动态加载的呢。
这个在爬虫进行数据抓取的是还是非常的好用的。
同时可以使用。puppeteer 进行编程,让自动化抓取程序。
这个可是真正的浏览器的agent呢。

还能进行pdf打印呢:

chrome --headless --disable-gpu --print-to-pdf https://www.sogou.com/

在这里插入图片描述

3,总结


技术的更新还是非常快的。
在进行数据抓取的时候。可以使用chrome 的headless 模式,用程序抓取。
是渲染后的 html js 代码呢。还可以通过 puppeteer 进行编程。

本文的原文连接是:
https://blog.csdn.net/freewebsys/article/details/81665552

博主地址是:http://blog.csdn.net/freewebsys

猜你喜欢

转载自blog.csdn.net/freewebsys/article/details/84609078