Facebook正在使用你的Instagram照片来训练其图像识别AI

在继续构建更复杂的AI深度学习模型的比赛中,Facebook拥有一个秘密武器:数百亿的Instagram上的图像。

在公司今天在F8上展示的研究中,Facebook详细说明了它是如何处理了数十亿公众Instagram照片的,这些照片被用户标注了标签,并使用这些数据来训练他们自己的图像识别模型。他们依靠数百个全天候运行的GPU来分析数据,但最终还是留下了深刻的学习模式,这些模式超越了行业基准,其中最好的一个在ImageNet上达到了85.4%的准确度。

如果你曾经在Instagram照片上加过几个标签,你就会知道这样做不完全是研究级过程。对于用户为什么用特定的标签标记图像通常有某种方法; Facebook面临的挑战是整理数十亿图片的相关内容。

当你以这种规模经营时 - 最大的测试使用了跨越17,000个标签的35亿Instagram图像 - 即使Facebook没有资源来密切监督数据。尽管其他图像识别基准可能依赖于人们通过个人注解并注释的数百万张照片,但Facebook必须找到方法来清理用户提交的大规模照片。

“预培训”研究的重点是开发寻找相关主题标签的系统;这意味着要发现哪些主题标签是同义词,同时还要学习将更具体的主题标签优先于更一般的主题标签。这最终导致了该研究组称之为“大规模标签预测模型”。

这里的隐私影响很有趣。一方面,Facebook只使用相当于公共数据的数据(没有私人账户),但是当用户发布Instagram照片时,他们意识到他们也在为数据库做出贡献,这些数据库正在为技术巨人培训深度学习模型-corp?这些是2018年的问题,但它们也是Facebook无疑因为自我保护而变得更加敏感的问题。

值得注意的是,这些模型的产品集中在更加注重对象的图像识别上。 Facebook将无法使用这些数据来预测你的#mancrushmonday是谁,并且它也没有使用数据库来最终了解是什么让照片#lit。它可以告诉狗品种,植物,食物以及从WordNet抓取的其他许多东西。

使用这些数据的准确性不一定是这里令人印象深刻的部分。图像识别精度的提高在许多测试中仅仅是几个点,但最令人着迷的是预训练过程,它将噪声数据转化为有效的训练,同时训练较差。这些数据训练的模型对Facebook来说非常普遍,但图像识别还可以为用户提供更好的搜索和辅助工具,并加强Facebook在平台上打击滥用的努力。

光米金服: Facebook正在使用你的Instagram照片来训练其图像识别AI

猜你喜欢

转载自blog.csdn.net/qq_42364914/article/details/80565453