起因:帮朋友做一个娱乐资讯类的站,涉及到文章标签,考虑如何实现根据文章内容自动获取文章tag,tag表的表结构设计等。
问题1:获取文章关键词的算法
解决方案:这里是使用了腾讯的自然语言处理api,当然也可以用百度或者阿里等都差不多,收费标准也不一样。
因为用的yii2框架,直接composer更新下就好,文档也有调用方法。(腾讯的api Region参数好像只支持广州)
问题2:tag表结构设计
解决方案:
简化了下
article表
id,title,content
art_tag表
id,a_id(文章id),t_id(tagID)
tag表
id,tag_name
问题3:获取的关键词存在一些没有意义的常用词诸如“我的”、“或者”、“一个”等词,会出现在结果里面。
解决方案:需要一个“停用词表”来帮我们过滤结果。表在这里https://blog.csdn.net/dorisi_h_n_q/article/details/82114913
z