蘑菇街搜索与推荐架构

转载：https://blog.csdn.net/hu948162999/article/details/78862573

搜索架构的探索之当前现状

蘑菇街搜索当前架构

如上图，是蘑菇街当前搜索架构，分为在线和离线两部分。在线部分主要职责是处理在线的搜索请求。离线部分的主要职责是处理数据流。

在线请求链路

如上图，是整个在线请求链路，主要分为topn->qr->引擎->精排->透出五个环节。

第一步，请求首先进入topn系统，做ab配置/业务请求链路配置。

第二步，请求进入QR改写系统做切词，同义词扩展，类目相关性，插件化等。

第三步，进入UPS用户个性化数据存储系统。

第四步，投放层得到UPS和QR两部分的数据后，放入搜索引擎做召回。搜索主要会经过一轮海选，海选的依据是文本相关性和商品质量，这样做是为确保召回的商品质量大致可靠。之后会经过多轮初选，过程中会应用到更复杂的算法模型，对海选的结果进行排序。搜索引擎得到粗排的结果约千级别。

第五步，粗排结果进入到精排系统，精排系统主要通过算法，做个性化排序、实时预测，精排和引擎类似，也支持多轮排序。经过精排系统之后，最终把结果透出给业务层。

蘑菇街统一引擎系统

如上图，左侧红色框内是蘑菇街统一引擎系统，包含用户个性化存储系统、精排存储、商品引擎、广告引擎等。由于这样的形式维护成本特别高，故做了右图这个统一的Zindex内核架构。这个架构的最底层是共享内存分配器，再上层是可支持不同数据结构的各种引擎，再上层是索引管理。基于这个架构，不同的引擎可根据各自需求去创建自己的索引。

跟这个架构相关的，就是我们的运维平台，是基于公司Docker虚拟化技术做的一个运维平台，能够非常快的支持索引创建，包括创建之后整个索引数据的管理。还有就是排序平台，用来提供算法配置变更服务。

搜索架构离线部分的数据流程

如上图，是离线的数据流程的情况，主要职责是数据流的处理，完整的索引数据分为算法数据和业务数据。

算法数据参与排序，整个链路从最前端ACM打点、再落到整个数据仓库、经过清洗之后，在数据平台上跑训练脚本，得出的特征导到特征平台，再同步到线上。

业务数据的主要来源就是DB，DB中主要存储商品、店铺之间的数据，业务变更主要基于mysql bin-log事件监听，变更之后做全量和增量。全量每天定时索引操作、增量会流到MQ，再通过业务拼装推到线上。

搜索架构的探索之演变历程

蘑菇街搜索架构主要经历导购时期（~2013.11）、电商初期（2013.11~2014.11）、Solr主搜（2015.4~2016.3）、C++主搜（2015.8~2016.11）、平台化（2017.1~now）五大阶段。

蘑菇街搜索架构现状简化版

为了更清晰直观进行对比，我把当前搜索架构简化成如上图所示的业务、投放、排序、召回、数据流五大层。接下来我们来看看，我们从最早期，都经历哪些演变，一步步走到现在。

蘑菇街搜索架构导购时期架构

如上图，是~2013.11导购时期的架构，有用到放在PHP代码里的业务+投放、用Java搜索引擎Solr做的召回+排序和数据流三层。这个时期，排序需求不是很迫切，更多侧重的是商品整体的丰富度和新颖度。简单理解，热销排序等于喜欢乘10加上收藏乘50，基于Solr的改造来实现。

在电商转型初期（2013.11~2014.11），由于卖自己的商品，流量变得更值钱了，工程师会想法设法去提升流量的效率。同时用户行为也在增加，产生更多的数据。还有增量管理复杂，数据量大、Optimaize风险大、导购、广告和搭配等多类型商品透出等等。其中最明显挑战就是排序特征变多、数据变大、次数频繁。

蘑菇街搜索架构转型初期架构

面对这些挑战，当时的思路是把算法独立成单独Java工程做算分，但百万商品百种排序，算法排序达G级别，这些排序数据需要作用于搜索引擎，快速生效，问题是用增量的方式会引来索引碎片的增加，会给线上引擎稳定性带来波动。故另辟蹊径，用在Solr进程中设置堆外内存来管理这部分排序数据。

总结来说，转型初期整体的解决方案就是把算法独立出来单独去做，把部分分数尽快同步到引擎，进行生效。这样的方法，当时线上效果很显著，但随时间推移又有新问题出来：

规则排毒->LTR，算法排序需求多；
排序灵活性制约：计算好的分数离线推送到Solr；
Solr内存压力：GC/段合并；
静态分，相关性差；
大促相关性问题：搜索“雨伞”，雨伞图案的连衣裙会排在前面；

Solr主搜整体架构

针对这些新问题，（2015.4）Solr主搜改造，支持Rank插件（Ranker->Scorer）,配置化+动态化，整体架构如上图。应对相关性问题，新增QR系统、应对内存压力，做Solr升级（Docvalues），算法分走动态字段增量，同时投放方式也渐渐形成Topn系统，对外对接不同的搜索场景。

Solr架构解决相关性、算法变更线上排序等问题，但新问题在于虽用机器学习的排序做法，但那个时期主要是爆款模型，有很多个性化需求模型同时对不同人要有不同的排序结果，还有一些重排序或打散等更加复杂的需求。因Solr实现机制的限制，只能做一轮排序，想要改动比较难。另外，Solr整个索引结构非常复杂，二次开发成本高，内存、性能上也慢慢地暴露出很多问题，同时还有Java的GC也是不可逾越的鸿沟。

当时多轮排序的需求，除了做一些文本相关性，还相对商品做品牌加权，如想扶持某些品牌、做类目打散等，这些在单轮排序内做不到，原来的方式只能把多轮融合在一个排序中搞定，但效果会很差。

C++主搜架构

如上图，是C++主搜架构（2015.8~2016.11）上线，在整个性能和排序方面做了定制，可支持多轮排序、整个内存采用内存方式，由排序体系支撑。这个阶段整体来看，相对是完善的，每层，整个系统都成型，可数据流环节又出现了三个问题：

全量无调度，都要依靠流程制约
增量带来算法分数不可比，会带来一些线上排序的抖动
业务数据增量对服务接口压力过大（促销故障）

全量的整个链路

如上图，是全量的整个链路，算法序列的整个链路靠时间约定，数据容灾机制弱。所以大促时，前置任务延迟全量做不了，线上内存几乎撑爆，经常性全量延时，必须手动去处理。还有算法误导排序分，导致线上错乱，增量恢复时间长。

要解决这个问题，我们首要引入一个基于Zookeeper的调度系统，把整个数据流驱动起来同时支持错误报警。容灾部分的思路就是增加排序SOS字段、基于HBase定期生成全量快照，快速回档、单算法字段修复等。

两次算法增量分数不可比，增量生效特别慢。如时刻1算出商品是90分，时刻2是60分，就会引起线上排序抖动，主要因算法两次序列导致整个数据分布不同，特别到大促时期，不同时段成交数据变化特别快，商品排序的波动非常明显，增量数据同一批正常，但两次见就会出错。当0点大家在疯狂购物的时候，变更非常频繁，会导致排序错乱。算法数据出错后，生效时间也会比较慢。