资讯类网站-关键词标签处理

起因:帮朋友做一个娱乐资讯类的站,涉及到文章标签,考虑如何实现根据文章内容自动获取文章tag,tag表的表结构设计等。

问题1:获取文章关键词的算法

解决方案:这里是使用了腾讯的自然语言处理api,当然也可以用百度或者阿里等都差不多,收费标准也不一样。

    因为用的yii2框架,直接composer更新下就好,文档也有调用方法。(腾讯的api Region参数好像只支持广州)

问题2:tag表结构设计

解决方案:


简化了下

article表

id,title,content

art_tag表

id,a_id(文章id),t_id(tagID)

tag表

id,tag_name

问题3:获取的关键词存在一些没有意义的常用词诸如“我的”、“或者”、“一个”等词,会出现在结果里面。

解决方案:需要一个“停用词表”来帮我们过滤结果。表在这里https://blog.csdn.net/dorisi_h_n_q/article/details/82114913

z

猜你喜欢

转载自www.cnblogs.com/xiaolele1/p/12025234.html
今日推荐