百度如何能实时检索到15分钟前新生成的网页 - 代码天地

百度如何能实时检索到15分钟前新生成的网页

编程语言 2018-05-09 18:16:58 阅读次数: 3

百度为何能实时检索出15分钟之前新出的新闻？58同城为何能实时检索出1秒钟之前发布的帖子？搜索引擎的实时性架构，是本文将要讨论的问题。

二、实时搜索引擎架构

大数据量、高并发量情况下的搜索引擎为了保证实时性，架构设计上的两个要点：

（1）索引分级

（2）dump&merge

索引分级

《深入浅出搜索架构（上篇）》介绍了搜索引擎的底层原理，在数据量非常大的情况下，为了保证倒排索引的高效检索效率，任何对数据的更新，并不会实时修改索引，一旦产生碎片，会大大降低检索效率。

既然索引数据不能实时修改，如何保证最新的网页能够被索引到呢？

索引分为全量库、日增量库、小时增量库。

如下图所述：

（1）300亿数据在全量索引库中

（2）1000万1天内修改过的数据在天库中

（3）50万1小时内修改过的数据在小时库中

当有修改请求发生时，只会操作最低级别的索引，例如小时库。

当有查询请求发生时，会同时查询各个级别的索引，将结果合并，得到最新的数据：

（1）全量库是紧密存储的索引，无碎片，速度快

（2）天库是紧密存储，速度快

（3）小时库数据量小，速度也快

数据的写入和读取都是实时的，所以58同城能够检索到1秒钟之前发布的帖子，即使全量库有300亿的数据。

新的问题来了：小时库数据何时反映到天库中，天库中的数据何时反映到全量库中呢？

dump&merge

这是由两个异步的工具完成的：

dumper：将在线的数据导出

merger：将离线的数据合并到高一级别的索引中去

小时库，一小时一次，合并到天库中去；

天库，一天一次，合并到全量库中去；

这样就保证了小时库和天库的数据量都不会特别大；

如果数据量和并发量更大，还能增加星期库，月库来缓冲。

三、总结

超大数据量，超高并发量，实时搜索引擎的两个架构要点：

（1）索引分级

（2）dump&merge

from http://mp.weixin.qq.com/s?__biz=MjM5ODYxMDA5OQ==&mid=2651959949&idx=1&sn=83f78cf6293714bd1fd97a11ff7c2c35&chksm=bd2d07518a5a8e47e6fce9fc03cddec1d8a43f2b4ac67cfbbf73a55143593da8a132da7a0815&scene=21#wechat_redirect

猜你喜欢

转载自aoyouzi.iteye.com/blog/2393684

百度如何能实时检索到15分钟前新生成的网页

如何能够让博客被百度等搜索到

百度paddlefluid90分钟入门

如何让时间戳的15分钟前使用BigQuery ?

让网站被百度10分钟收录的三大决窍

1分钟学会百度网盘不限速教程，简单易懂

153分钟学会Rpdf 百度云盘

交通-城市规划专业常用——10分钟步行圈（百度API）

百度大佬10分钟教会你是前端bug还是后端bug

30分钟使用百度EasyDL实现健康码/行程码智能识别

BifroMQ：五分钟了解百度开源旗下消息中间件

30分钟使用百度EasyDL实现烟雾检测

阿里、腾讯内部10G大神PPT，10分钟从PPT菜鸟到大神百度网盘下载

5分钟“调教”一只机器狗，百度飞桨已经简单到这地步了吗？

在百度云上免费搭建个人网站，小白2分钟学会，10分钟建成！　---杜凯杰

2分钟就能学会的【Google/百度搜索大法】了解一下？

C# 10分钟完成百度人脸识别——入门篇

10分钟教你用Python获取百度地图各点的经纬度信息

16分钟优化mRNA疫苗稳定性! 百度AI算法LinearDesign问世

阿里，百度。腾讯大佬三分钟快速搞懂Java的桥接方法和实例

Python(15)_爬区百度网页并保存

【Python综合应用】-Python抓取百度搜索前10页网页，获取内容，生成词云

Bash 15分钟

将百度地图插入到网页中

将百度地图引入到自己的网页中

如何隐藏百度首页右侧的实时热点？

html 导入百度地图网页中如何导入百度地图

百度地图API 重新生成点聚合的功能

如何在网页中嵌入百度地图

1分钟链圈 | 百度正式推出“超级链”，打造区块链开发者生态！中国区块链企业超1.6万...

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)