知乎CTO李大海的对话

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/smartcat2010/article/details/102764227

对话 CTO〡听知乎 CTO 李大海讲技术如何构建全领域知识社区

内容治理场景中:我们综合使用情感模型、用户亲密度模型和文本识别模型,不断优化算法机器人「瓦力」,识别并实时处理不友善、答非所问、阴阳怪气等内容,部分场景识别准确率达到 99.13%。

在社区治理领域,我们采用的是「人机结合」的方式来进行系统优化:我们会保留一个人数较大的人工团队,他们非常了解知乎的社区规则,他们会处理、纠正算法不能识别和识别不准的情况,然后算法再把这些纠正的案例当成增量的学习材料,升级模型的表达能力。这是一个持续积累的过程,在这个过程中,算法的能力会变得越来越强大。

深度和广度两方面都在前进:所谓广度就是我们会去不断的拓展能力,在越来越多的场景能够去识别和处理。深度就是它的准确率,要慢慢处理的越来越准。所以深度和广度同时作用,我们的用户就不需要主动去举报低质内容,而是靠机器算法,人机结合的方式降低了「用户举报」

如果没有 AI 算法的话,我们的审核团队应该跟内容的增长成正比,但现在其实不是。我们的审核团队总数几乎没有怎么变过,从 2017 年开始就维持在一个相对稳定的人数上,它的增量很小,但是我们内容的增量是很大的。

信息的分发上:我们在首页信息流推荐系统中引入了 AI 算法,经过多轮优化和升级,知乎的信息流推荐系统已经在知乎整体业务中占了非常大的体量,用户渗透率(即有多少用户会有效来到首页看内容)达到 88%,使用时长占比(包括使用知乎的时长以及在知乎中消费内容的时长等)达到 76%。

内容的匹配上:我们推出问题路由功能,采用人工审核、算法和运营策略相配合的方式,精准邀请相关领域的用户回答问题,尽可能地提高问题的回答率。问题路由功能上线以来,由系统推荐带来的应邀回答数比过去提升了 400%。

知乎早年有一个 Slogan 叫「发现更大的世界」,所以我们很在意用户来知乎,是不是能够拓展自己的眼界。从技术层面来说,我们除了采用精确的预估模型去匹配用户的兴趣领域之外,也会采用兴趣探测模型,去了解用户是否对一个新的话题或领域感兴趣。

扫描二维码关注公众号,回复: 7660682 查看本文章

假如这个世界上所有的知识领域是固定的,那么它就相当于一张知识地图。每个人在这张知识地图上的地形是不一样的。很喜欢的领域可能是很高的正值,是波峰;不喜欢的领域就是负值,是波谷。往往一个新用户来了以后,知乎对他的知识地图画像是很模糊的,但之后会越来越清晰。清晰化以后,我们就能够给他推荐相对全面的东西。

我们是希望能够尽可能点亮用户的地图,而不是一旦发现用户地图上有个波峰,就一直在这个波峰上去推荐内容。除了技术层面的改进,我们也有产品层面的想法来提升用户的体验,包括关注 Tab 和热榜等等。

知乎的搜索更多的不是词条和新闻,是按照内容层次去进行结构化展示的,这就大大提升了大家的信息获取效率。而在搜索的背后,是知乎上有特色的讨论,更纵深、更人文、更多元,也更鲜活,这些都是非常有价值的第一手素材和观点。

另外,由于知乎有很强的投票机制,有赞同、反对还有评论,我们的内容其实相当于是被人 Review 过的,所以可信度、价值会远远高于其它的网站。知乎有一个指标叫 Topic Rank,指的是一个用户在某个领域的权威度,权威度是根据比较复杂的算法算出来的。这个指标非常有用,比如说在 IT 领域 Topic Rank 很高的人,他看到一个 IT 领域的回答然后点了反对,我们就知道这个回答的可信度可能是较低的,这也是知乎内容在自己的搜索引擎里面可信度很高的一个主要原因。

搜索是知乎在壮大过程中逐步优化的一个功能。目前,我们采用深度学习与传统模型相结合的方式来解决召回和排序上的用户满意度问题。我们的文本相关性算法最早只有 BM25。到今天,已经发展成为一个融合模型。深度语义特征上线之后,我们在头部、腰部、长尾的搜索点击比普遍提升了约 2% - 3% 不等。

知乎早年采用 ES 作为我们的索引引擎,随着数据量的增加,我们遇到了 ES 集群的服务稳定性问题,以及 ES 对我们的排序算法支持不友好等问题。所以在 17 年,团队自己开发了一套在索引格式上完全兼容 ES 的引擎,逐步替换了在线上服务的 ES 集群。目前知乎全部的搜索请求都由新的索引服务支撑,在可用性达到了 5 个 9 的同时性能上也不输于 C++ 编写的类似系统所能达到的水平。

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/102764227