Instagram 是如何利用AI深度学习进行内容推荐的

1.强如Instagram和Facebook,资源也是受限的

与一些人倾向于按时间顺序显示摘要不同,“浏览”选项仍需要通过算法来驱动。但是理解图片社交网络上发生的事情并向人们推荐新内容是一个非常困难的过程。

如果相关企业有充足的能力与时间,那么他们可能会在解决此类问题上做出一些成果。但事实上,这些企业在短时间内需要为数亿人提供服务,这意味着需要庞大的数据资源。

2.全部与账户有关,而与帖子本身无关

如此海量的信息发布到Instagram上,单独跟踪并推荐每张照片几乎是不可能做到的。与之相比,跟踪作者帐户显然更简单且更高效,因为同一个账户里的内容通常具有共同性,或者有一个共同的话题,比如“旅游”。

用户喜欢某个账号中的一条帖子并不一定意味着这位用户会喜欢该账号中的其他内容,但这至少可以表明用户对该账号的主题感兴趣。

3.复杂的用户习惯完善了算法

值得注意的是,Instagram不仅使用图像功能来确定哪些账户是按主题链接的,他们也会根据你的行为进行判断。

例如,当你连续喜欢几个帖子时,即使Instagram的算法看不太清楚,它们也更有可能以某种方式连接起来:

如果一个人在同一会话中与一系列账户交互,那么与来自各种Instagram账户的随机账户序列相比,它更有可能具有主题一致性,这有助于识别局部相似的帐户。

人们只是倾向于以这种方式看待事物,从一个旅游专题转到另一个,或者关注动物。所有这些信息都被算法吸收并检查相关性。当然,像“少看这样的帖子”和屏蔽账号这样的故意行为也有很大的分量。

4.从“种子账户”到前25名

将几十亿个帖子压缩到24个是相当困难的,但是你可以通过将Explore标签限制到与用户已经喜欢或保存的帖子相关的账户,从而将问题缩小到可管理的范围。这些被称为“种子账户”,因为在这个过程中其他的一切都是从它们中产生的。

想象一下,如果你知道有人喜欢某个特定的红橙色大理石,你需要找到更多类似的。如果你只是把手伸进一袋弹珠里,你不太可能很快找到一个。即使你把它们倒在地板上,你还是得找一会儿。但是如果你已经根据颜色来组织它们了,你所要做的就是找到它们喜欢的大理石的大致位置,几乎可以保证你会选出一个获胜者。

机器学习模型通过给所有这些账户一个虚拟空间中的位置来实现这一点,两个账户在虚拟空间中的距离越近,它们在局部上的距离就越近。

因此,把一个几十亿削减到一个几百的真正困难的部分基本上已经通过账户分类的方式完成了。

从那时起,Instagram通过神经网络进行三次传递,其复杂性不断增加。

首先,稍微令人困惑的是接下来的两个流程的更简单的组合版本,将其从500个账户增加到150个账户。这有点奇怪,但请这样想:这个神经网络已经看到步骤2和步骤3多次发生,并且对它们的作用有了很好的了解。有点像你看到饼干做了足够的次数,你可以猜出一个食谱。您可能会接近,但也不想将其发布给一亿人。因此,此步骤可以正确处理显而易见的内容。

其次是一个计算成本低廉的神经网络,它使用的信号比上面提到的简单主题相似度更多。这就是你的个人喜好发挥作用的地方,以及关于账户的更深层次的数据。当然,你喜欢旅行,但你更喜欢情侣旅行——上面的大理石分类算法对这两种情况都有帮助。其他参数,比如一篇文章的受欢迎程度,或者它与其他文章的不同之处,也会被计算在内。

第三种方法是上述方法的一个计算代价高昂的版本,它对这50个数据进行另一次传递,并将其减半,基本上是通过仔细观察并花时间将每个数据点包含1000个数据点而不是100个数据点。

发布了13 篇原创文章 · 获赞 2 · 访问量 1939

猜你喜欢

转载自blog.csdn.net/manfukeji/article/details/103314320
今日推荐