1. 查询串为纯汉字，查询出被拆分为单个字，然后使用全文检索，尽可能找出包含所有查询串的 POI，查找范围为POI拥有的所有文本信息。

例如搜索 “顺轩”，返回结果为：

http://www.dianping.com/search/keyword/1/0_%E9%A1%BA%E8%BD%A9，

而搜索“轩顺”，返回结果为：

http://www.dianping.com/search/keyword/1/0_%E8%BD%A9%E9%A1%BA

两个搜索返回的结果是一致的 --- 包含查询串的POIs；返回列表的排序规则可以总结为：

a. POI中查询出是否按照查询串中的顺序连续全部出现

b. 名称包含优先于地址包含

c. 匹配发生在名称，标签，地址等

2. 查询串为纯拼音 ，不对查询串（拼音串）进行任何拆分

例子1，shuguang

http://www.dianping.com/search/keyword/1/0_shuguang

例子2，shuguan

http://www.dianping.com/search/keyword/1/0_shuguan

两个搜索返回的结果基本一致，并且同时出现提示 -- 你要找的是不是曙光书馆

例子3，caguan

http://www.dianping.com/search/keyword/1/0_caguan

你要找的是不是茶馆

例子4，canguan(餐馆)

http://www.dianping.com/search/keyword/1/0_canguan

上海站全部商户中，没有找到"canguan"(0)

例子5，cacanting

http://www.dianping.com/search/keyword/1/0_cacanting

你要找的是不是查餐厅茶餐厅

例子6，xijiaobailian(西郊百联)

http://www.dianping.com/search/keyword/1/0_xijiaobailian

你要找的是不是西郊百联

例子7，xijiaobalian

http://www.dianping.com/search/keyword/1/0_xijiaobalian

你要找的是不是西郊百联

例子8，xijiaoblian

http://www.dianping.com/search/keyword/1/0_xijiaoblian

上海站全部商户中，没有找到"xijiaoblian"(0)

由上面的例子，可以大概推测如下：

a. 内部有一个 pre-defined 词典，保存了词和拼音映射关系，

b. 首先使用拼音进行匹配搜索，匹配策略可能是：

b1. 精准匹配

b2. 包含匹配

b3. 模糊匹配(最小编辑距离 < 某个阙值，比如2，参考例子6,7,8，读者可自行尝试其他组合)

b4. 没有找到任何匹配，即返回空，参考例子4.（canguan竟然没有，很让人费解）

c. 利用拼音映射到的汉字，转到第一条中的纯汉字搜索

d. 匹配发生在名称，标签，地址等

另外，

例子9，jiaoda

http://www.dianping.com/search/keyword/1/0_jiaoda

你要找的是不是交大

例子10，jiada

http://www.dianping.com/search/keyword/1/0_jiada

你要找的是不是佳达

例子11，jiaod

http://www.dianping.com/search/keyword/1/0_jiaod

上海站全部商户中，没有找到"jiaod"(0)

例子12，shangda

http://www.dianping.com/search/keyword/1/0_shangda

你要找的是不是散打上大杉达

例子13，shangd

http://www.dianping.com/search/keyword/1/0_shangd

上海站全部商户中，没有找到"shangd"(0)

例子14，sangda

http://www.dianping.com/search/keyword/1/0_sangda

你要找的是不是散打上大杉达

例子15，suguang

http://www.dianping.com/search/keyword/1/0_suguang

你要找的是不是曙光书馆

由上面的例子可以推测， b3 和 b2 的描述可能是不正确的 （例子9,11不符合 b3 最小编辑距离匹配，b2 可以使用口音近似进行解释），应该加入了口音的考虑（对比例子15 与前面的例子1,2，以及例子3 的提示）：

<1> 不同的口音，相同的拼音，存在不同的发音，考虑了同一个拼音，近似发音的匹配

<2> 不同的口音，不同的拼音，存在近似的发音，

但模糊近似发音库是不完善的，例如 “niu肉”和“liu肉”

后续有新发现，继续补充

3. 查询串为汉字+拼音

例子16，属guang

http://www.dianping.com/search/keyword/1/0_%E5%B1%9Eguang

你要找的是不是曙光书馆

例子25，素guang

http://www.dianping.com/search/keyword/1/0_%E7%B4%A0guang

你要找的是不是曙光书馆

例子17，属guan

http://www.dianping.com/search/keyword/1/0_%E5%B1%9Eguan

你要找的是不是曙光书馆

例子18，shu光

http://www.dianping.com/search/keyword/1/0_shu%E5%85%89

你要找的是不是曙光书馆

例子19，shu广

http://www.dianping.com/search/keyword/1/0_shu%E5%B9%BF

例子20，shang大

http://www.dianping.com/search/keyword/1/0_shang%E5%A4%A7

例子21，shang大lei

http://www.dianping.com/search/keyword/1/0_shang%E5%A4%A7lei

例子22，shanglei大

http://www.dianping.com/search/keyword/1/0_shanglei%E5%A4%A7

上海站全部商户中，没有找到"shanglei大"(0)

例子23，上da

http://www.dianping.com/search/keyword/1/0_%E4%B8%8Ada

例子24，西jiaobailian

http://www.dianping.com/search/keyword/1/0_%E8%A5%BFjiaobailian

你要找的是不是西郊百联

a. 首先不区分拼音汉字，进行全文检索 ，找到包含整个串的POI，不考虑查找单元的顺序

a1. 连续的拼音视为一个查找单元，单个汉子视为查找单元，参考例子20,21,22

a2. 查找不到包含所有查找单元的 POI系统，转到 b

b. 汉字映射为拼音，转为第二条纯拼音搜索 ，注意例子17,25

对某点评网搜索策略的一些理解

上海站全部商户中，没有找到"canguan"(0)

上海站全部商户中，没有找到"xijiaoblian"(0)

上海站全部商户中，没有找到"jiaod"(0)

上海站全部商户中，没有找到"shangd"(0)

上海站全部商户中，没有找到"shanglei大"(0)

猜你喜欢

对某点评网 搜索策略 的一些理解

上海站全部商户中，没有找到"canguan"(0)

上海站全部商户中，没有找到"xijiaoblian"(0)

上海站全部商户中，没有找到"jiaod"(0)

上海站全部商户中，没有找到"shangd"(0)

上海站全部商户中，没有找到"shanglei大"(0)

猜你喜欢

对某点评网搜索策略的一些理解