Headless Chrome入门，原来还有这样的工具。

编程语言 2018-11-29 08:30:49 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。博主地址：http://blog.csdn.net/freewebsys https://blog.csdn.net/freewebsys/article/details/84609078

前言

本文的原文连接是: https://blog.csdn.net/freewebsys/article/details/81665552
未经博主允许不得转载。
博主地址是：http://blog.csdn.net/freewebsys

1，关于Headless Chrome

Puppeteer 是一个控制 headless Chrome 的 Node.js API 。它是一个 Node.js 库，通过 DevTools 协议提供了一个高级的 API 来控制 headless Chrome。它还可以配置为使用完整的（非 headless）Chrome。

在浏览器中手动完成的大多数事情都可以通过使用 Puppeteer 完成，下面是一些入门的例子：

生成屏幕截图和 PDF 页面
检索 SPA 并生成预渲染内容（即“SSR”）
从网站上爬取内容

自动提交表单，UI测试，键盘输入等

创建一个最新的自动测试环境。使用最新的 JavaScript 和浏览器功能，在最新版本的 Chrome 中直接运行测试

捕获网站的时间线跟踪，以帮助诊断性能问题。

项目地址：
https://github.com/GoogleChrome/puppeteer

2，使用

写的很详细：
https://developers.google.com/web/updates/2017/04/headless-chrome
有翻译：
https://www.jianshu.com/p/aec4b1216011

执行alias：

alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome"
chrome --headless --disable-gpu --dump-dom https://www.sogou.com/

和直接查看页面当中的html还是不一样的。是动态加载的呢。
这个在爬虫进行数据抓取的是还是非常的好用的。
同时可以使用。puppeteer 进行编程，让自动化抓取程序。
这个可是真正的浏览器的agent呢。

还能进行pdf打印呢：

chrome --headless --disable-gpu --print-to-pdf https://www.sogou.com/

在这里插入图片描述

3，总结

技术的更新还是非常快的。
在进行数据抓取的时候。可以使用chrome 的headless 模式，用程序抓取。
是渲染后的 html js 代码呢。还可以通过 puppeteer 进行编程。

本文的原文连接是:
https://blog.csdn.net/freewebsys/article/details/81665552

博主地址是：http://blog.csdn.net/freewebsys

猜你喜欢

转载自blog.csdn.net/freewebsys/article/details/84609078

Headless Chrome入门，原来还有这样的工具。

Chrome headless 模式

headless chrome爬虫实现

Chrome headless模式

Chrome Headless模式(一)

chrome-headless

检测Chrome headless的技巧

headless

使用 headless chrome进行测试

安装Chrome Headless遇到的问题

selenium使用chrome-headless

笔记-selenium+chrome headless

Python 爬虫杂记 - Chrome Headless

chrome的无头（headless）模式

Python Selenium Headless：以 Headless 模式打开 Chrome 浏览器

chrome无界面模式headless配置

python selenium 用法和 Chrome headless

golang使用chrome headless获取网页内容

如何使用Google Chrome Headless模式

Chrome与Firefox的headless 模式与selenium对接

Selenium及Headless Chrome抓取动态HTML页面

python爬虫——Chrome Headless的使用及安装

爬虫第5篇-chrome headless 初试

Headless Chrome long image capture issue

Puppeteer 2.0 发布，headless Chrome Node 库

selenium chrome headless无界面引擎

PhantomJS和Headless Chrome性能对比

Python Selenium Chrome Headless 爬取企查查数据

Scrapy和Headless Chrome采集动态网站数据

使用 Headless Chrome 进行自动化测试

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)