[源码和文档分享]基于新闻的高级中文搜索引擎

摘 要

随着大数据时代来临,互联网信息量海量倍增, 浏览网络新闻也已经成为大家了解社会动态的一个重要渠道。搜索引擎为用户提供了一个找海量新闻信息的快速入口,然而,随着信息搜索技术的不断发展,用户对信息搜索的要求也在不断提高。通用搜索技术已经满足不了人们更加个性化的查询请求。因此,提供更高级的搜索功能将有助于为用户提供感兴趣的新闻服务,增强用户的体验性,增加用户的粘性。

本文旨在设计并实现一个基于新闻的高级中文搜索引擎。我们通过从网易新闻、腾讯新闻、新浪新闻、凤凰新闻、今日头条、搜狐新闻6个网站获得8个分类的新闻,分类包括军事、体育、科技、娱乐、社会、国际、国内、数码。然后使用最大概率分词对新闻进行分词,用VOLSUNGA进行词性标注,并为新闻建立倒排索引,最后使用TF-IDF对检索结果进行排序,为用户提供个性化的新闻搜索服务。

关键词:新闻;高级中文搜索引擎;最大概率分词;倒排索引;TF-IDF;VOLSUNGA

参考文档和完整的文档和源码下载地址:

https://www.write-bug.com/article/2333.html

猜你喜欢

转载自blog.csdn.net/demongwc/article/details/88975541