今日头条算法原理（全）

个人总结：

今日头条新闻资讯类推荐，主要使用基于资讯内容和要用户标签进行的推荐，同时也使用了协同过滤算法，

因为资讯类的时效性，存在冷启动的问题，对文本语义特征的挖掘和用户标签的挖掘，可以解决这个问题，

今日头条通过不同算法组合，构建了推荐模型，和召回策略，对一个用户，先用其兴趣等标签，过滤候选资讯，然后对召回的资讯调用推荐模型计算得分进行推荐。

今日头条的文本特征分为语义挖掘和隐式的语义特征，语义挖掘主要是得到文章的分类，主题等，是为了文章的分类、用户兴趣表达等用途使用，隐式的语义特征主要是利用NLP技术，提取特征词，关键词等，隐式特征可以很好的帮助推荐且难度较小，但是显示的挖掘基于上述原因也是必不可少的。今日头条的文章分类算法采用的是逐层分类的方式，每个分类器根据分类问题的特点和难度是异构的，基本分类器主要有：SVM、CNN、RNN

用户标签，主要是根据文本的语义挖掘结果进行处理，并且加入了一些策略，如时间衰减、热度惩罚、未点击惩罚等

同时模型评估对一个模型的优化很重要。对内容的安全控制是一个红线。

主要收获：

1）对于新闻资讯类内容推荐，因为实时性较强，存在冷启动问题，协同类特征无法使用，所以需要文本特征

2）内容分析和用户标签是两大基石

3）推荐的本质是解决用户、环境和资讯的匹配

4）召回模型的使用，先用召回模型缩小资讯范围，再使用推荐模型计算是否推荐和得分

5）典型的推荐特征

6）层次化的文本分类方式：层次化+异构

7）用户标签的构建策略：时效衰减、热度惩罚、未点击惩罚、噪声过滤、全局指标计算

8）模型评价：无法评价就无法优化

9）内容安全管控

https://mp.weixin.qq.com/s?__biz=MjM5ODEyOTAyMA==&mid=2661911706&idx=1&sn=6a7954d2c33acaff8ceea5c424e9475b&chksm=bd9250898ae5d99fe9aebe6ffb4537beeaeaed97711c97ce059f77c85bb2be947cdc3a08418b&scene=0&key=c72aa5a27cc11845f4e11a407f9858f5c5b7d084abad5ab654300e58848029aac38652394c69feb419300b6ed4ba4422a41d62259af11b3fb1a6b38e520e870aee7c003742325b943ae125c7d4cacacf&ascene=0&uin=OTc5MTg0NTgx&devicetype=iMac+MacBookPro14%2C1+OSX+OSX+10.12.5+build(16F2073)&version=12020810&nettype=WIFI&lang=zh_CN&fontScale=100&pass_ticket=jvoWvMRVU%2BYHiDejcgEmd1GUFu2Q2n1fDkx3UkGD76QJZlqopG9SiXfMtvAA96e8

————详细介绍了今日头条的推荐算法架构

今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root，下面第一层的分类是像科技、体育、财经、娱乐，体育这样的大类，再下面细分足球、篮球、乒乓球、网球、田径、游泳等，足球再细分国际足球、中国足球，中国足球又细分中甲、中超、国家队等，相比单独的分类器，利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是，如果要提高召回，可以看到我们连接了一些飞线。这套架构通用，但根据不同的问题难度，每个元分类器可以异构，像有些分类SVM效果很好，有些要结合CNN，有些要结合RNN再处理一下。

今日头条算法原理（全）

猜你喜欢