创新实训(1)——小组成员初步讨论,进行小组分工,明确项目范围项目范围

小组讨论

1.小组成员通过qq群语音已经qq群分享屏幕的方式进行了几天的讨论:明确了项目的范围,项目需要完成的模块以及可能会使用到的技术细节。然后通过对每个人对相关技术的掌握,分配相应的工作。通过技术细节可以分析项目的可行性以及项目大概的工作量,好规划项目的时间,保证项目能按质量完成。

2.经过详细讨论,最终我负责:
(1)对通过rss抓取获的到的内容进行进一步的数据清洗(包括博客主要内容的提取,博客标签的提取,通过标签进行博客的分类,以及相关博客摘要的生成),设计数据清洗的一整套流程,保证数据从rss抓取到进行一系列的数据清洗过程之后,可以直接输入正式的数据库,进行使用。(具体的实现细节要根据数据的情况进行决定)
(2)基于博客内容的摘要生成,我会与小组另一个同学学习使用简单算法以及深度学习算法进行博客主题的提取以及摘要的生成工作。以及可能会涉及到索引的建立,最后进行博客内容的搜索工作。
(3)设计博客具体的推荐算法,目前准备做基于流行度和新鲜度的推荐;基于博客标签的协同过滤进行推荐了;基于用户浏览内容的协同过滤推荐;以及基于文本内容相似度的推荐。
推荐算法将于项目的后端在一起即成,所以我会负责有关博客推荐模块的后端设计。
(4)最后进行数据分析,生成最后的用户画像,以及数据的统计工作。

3.使用的工具
(1)有关人工智能模型的训练准备使用python语言,
(2)对博客内容的清洗和标签处理可能会用python进行适当的分析,然后在使用java进行数据清洗逻辑的实现,集成到后端项目中
(3)有关博客的推荐算法准备使用java语言实现相关的推荐算法,或者直接采用mahout库提供的相关推荐算法 。进一步的备选方案时使用spark进行推荐模型的构建以及计算任务。
(4)有关用户画像的构建,暂时还没有想法,等待进一步的确认。

之后会搭建相关的使用环境。

猜你喜欢

转载自blog.csdn.net/baidu_41871794/article/details/106608227