搜索引擎的相关词提示

好的搜索引擎应该就用户当前的检索词提示出与之相关的其他关键词供用户参考。当 前多数搜索引擎采用的基本方式是从其它用户常用的检索词中选出切词后有包含关系的词作为相关词,并选出其中检索量或搜索结果数最大的显示出来进行提示。显 示的地方有两处:一是当用户在搜索框输入检索词时根据检索词动态提示相关词,同时显示出对应的结果数,二是完成搜索后,在搜索结果页面上方或下方显示出相 关词。

例如在慧聪网 搜索“陶瓷 ”产品后的相关搜索提示为:氧化铝陶瓷、蜂窝陶瓷、陶瓷轴、鲍尔环、工程陶瓷、化工陶瓷、氧化锆珠、开孔瓷球、搪瓷釉、陶瓷衬砖。

如何判断两个关键词彼此相关,我归纳为以下几类:

1、同义词或近义词。例如“西服”与“西装”,“北科大”与“北京科技大学”,“集成电路”与“IC”。这样的相关关系对于系统来说比较难于自动判断,往往需要人工维护别名表。
2、相随词。例如“中国”与“北京”,“Thinkpad”与“IBM”,“Nokia”与“手机”。这样的词往往总是同时相伴出现在同一篇文章中,计算机可以通过大量的数据统计自动维护相随词表。
3、包含词。例如“慧聪”与“慧聪网”、“慧聪商情”、“慧聪发发”。后面几个词与第一个词是包含关系。包含词是最方便计算机自动处理的。
4、行为相随词。这主要指对用户的搜索或点击行为进行跟踪统计,例如跟踪统计搜索“慧聪”的用户同时还搜索过的别的词,在这些词中可能“阿里巴巴”的频度最高,因此“慧聪”与“阿里巴巴”属于行为相随词。这往往用在图书类B2C网站中,由此为用户推荐出他最喜欢的图书。

对于电子商务网站的搜索引擎,可以采用下面的较为简单可行的规则为用户提示相关关键词:

1、记录每一次的搜索关键词,并按月记录每个关键词的搜索次数。
2、维护一个别名表,就自己网站的常用产品的名称对应的别名进行维护。
3、维护一个屏蔽词表,屏蔽与自己网站内容无关的但搜索量又可能很大的关键词。
4、对每一个关键词在搜索时,首先显示该词对应的别名,再从全部搜索关键词表中找出与当前搜索关键词有包含关系的关键词,需与别名排重,并用屏蔽词表进行过滤。

有包含关系的相关词数量可能很多,在选择时应该按一定规则排序,取前面几个。可以按如下方式进行排序:

1、首先选出包含全部当前检索词(含切词后)的关键词,当然要与当前检索词不相同。然后按搜索量排序。一般来说字数越少的关键词搜索量越大,因此排在前面都是差不多恰好包含当前检索词的关键词,往往是对检索词增加了少量的补充。
2、如果上面一步找出的关键词个数较少,可能是因为当前检索词太长,这时再找包含部分当前检索词(切词后)的关键词,并先按包含部分由多到少,再按搜索量由高到低排序。

如此规则提示相关搜索词,质量不会太差,系统也还能承受。

转自:http://hi.baidu.com/lakepoet/blog/item/e16a82262afd9d1f8a82a1aa.html

猜你喜欢

转载自yeshuqiang.iteye.com/blog/650503