浏览器的运行原理和网络爬虫

其他 2019-02-19 15:01:19 阅读次数: 0

浏览器的运行原理

用户界面

－包括地址栏、后退/前进按钮、书签目录等，也就是你所看到的除了用来显示你所请求页面的主窗口之外的其他部分

浏览器引擎

－用来查询及操作渲染引擎的接口

渲染引擎

－用来显示请求的内容，例如，如果请求内容为html，它负责解析html及css，并将解析后的结果显示出来

网络

－用来完成网络调用，例如http请求，它具有平台无关的接口，可以在不同平台上工作

UI 后端

－用来绘制类似组合选择框及对话框等基本组件，具有不特定于某个平台的通用接口，底层使用操作系统的用户接口

JS解释器

－用来解释执行JS代码

数据存储

－属于持久层，浏览器需要在硬盘中保存类似cookie的各种数据，HTML5定义了web database技术，这是一种轻量级完整的客户端

image.png

网络爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份

爬虫的基本框架

在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。

1.控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。
2.解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。
3.资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索引。

猜你喜欢

转载自blog.csdn.net/weixin_34318272/article/details/87214115

浏览器的运行原理和网络爬虫

浏览器运行原理

浏览器的运行原理

Python网络爬虫:伪装浏览器

python网络爬虫--浏览器伪装

浏览器运行原理浅析

浅谈浏览器运行原理

Python 和 Selenium 的浏览器爬虫

python网络爬虫学习笔记之四 Selenium操作元素和浏览器

浏览器的原理

浏览器原理

java 网络编程-爬虫+模拟浏览器

前端进阶（一）浏览器运行原理

浏览器的组成部分及运行原理

浏览器的工作原理：新式网络浏览器幕后揭秘

网络、浏览器专题重点知识（含原理）

Scrapy爬虫：模拟浏览器和使用代理

Python爬虫：Fiddler的使用和浏览器伪装技术

React项目运行默认打开Chrome浏览器和取消打开浏览器

浏览器是如何运行的

浏览器运行过程

python爬虫之selenium库，浏览器访问搜索页面并提取信息，及隐藏浏览器运行

【爬虫】Chrome 浏览器爬虫插件

浏览器的构成和运行机制

浏览器的组成和运行机制

Python爬虫第一课：了解爬虫与浏览器原理

浏览器-工作原理

浏览器的工作原理

浏览器缓存原理

浏览器渲染原理

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)