对话CTO的精彩语句

本文链接： https://blog.csdn.net/smartcat2010/article/details/102764661

内容审核：机器认为没有潜在问题的内容才会给人工去抽检。

在线教育：实时互动，所以延迟要求很高。如果在虎牙看游戏直播，两三秒延迟很正常，而我们的延迟一定要在 200 毫秒以内。比如说直播可能是走的 CDN 推流拉流，我们不是这样的，我们全部是核心机房实时语音视频的流交换。

比如说最基本的是学生的年级，修的教材版本，本身的学业成绩，每个人都有大量的标签来标志他是这样一个用户画像的学生，然后我们会根据这些标签给他匹配一个最合适的老师。根据学生的用户画像，我们也会生成智能课件，进行智能推题、智能测评、智能课程、智能作业，在一个大的循环里面，通过收集数据不断去优化算法模型，让学生在我们整个教学体系里很精准地学习，达到学习 1 分钟，相当于其他形式学习 3 分钟或者 15 分钟的效果。因为本身数据收集越来越多，算法也会越来越精准。

从一个基层研发管理者到中型团队或者大型团队的研发管理者，我觉得有几个方面很重要。第一是要关注技术本身对业务的帮助，要思考怎样让技术去服务业务。第二是如果做大团队的研发管理，要从更宏观的角度去思考如何提高整个公司的研发效率和研发质量。不同体量的公司，采用的管理方法和管理工具是完全不一样的，所以要不断去思考在这样体量的公司下面，应该采用怎样的管理工具、管理方法、组织架构。

第一代人机交互中心是 PC，人与电脑进行交互。交互的时候，人必须坐在电脑前，利用鼠标和键盘进行交互，电脑被动接受指令。

第二代人机交互中心是智能手机，交互的时间、地点、方式相对 PC 来说灵活性更大一些，但是智能手机反馈的信息也有限。

第三代人机交互中心，也就是人形机器人，这是一种主动的交互模式。比如早上我来到办公室的第一件事情是安排今天的行程。机器人知道我的习惯，它会提前通知我的助理，或者主动告诉我今天的行程安排是怎样的。而且我的指令是多元化的，我不需要通过手机输入信息给它，而是可以用语音告诉它，或者通过一个动作、眼神，它就知道我的意图。

机器人应该具有两个属性：机器的属性和人的属性。人的属性是指它应该具有人的智能，包括感知智能、认知智能和运动智能。

我们有一个概念叫做 AI 1.0 和 AI 2.0。AI 1.0，大多是博士创业，更多的会关注论文、科学家、项目、专利，是以技术来定义公司的业务。AI 2.0 是以业务来驱动技术，或者说是以业务为导向，技术再跟上。但这并不代表我们不重视技术创新，我们也会重视论文，但一定是以实体行业为导向的论文创新。发表的论文应该可以创新性地解决一些商业化落地中的难题，而不是一堆学者在没有商业场景的情况下自己去找出一些前沿的学术问题去解决。

双轮驱动。一个轮子是技术产品，一个轮子是行业场景，二者并重，缺一不可。

先做项目，再做产品，再做平台。

我觉得 CTO 的背后就是，技术的深度+产品商业的深度+丰富的经验经历。

美国是典型的技术创新、算法创新为主。中国的 AI 产业，尤其是进入 AI 2.0 时代以后，就更加务实了，注重模式创新、商业创新。所以今天很多好的算法还是出自于美国，但是真正把这些好的算法应用到行业或者模式当中，还是中国做得好。

2014 年，闫觅看到了很多传统行业存在的「通病」——没有数据基础。之后的四年，闫觅投入到了从零到一搭建链家网的过程中。2018 年，由链家网升级的新居住平台贝壳找房成立，闫觅做的核心事情就是数字化，「用一套标准把包括管理上的、运营上的、作业方式上的很多流程固化下来，然后使用一套 SaaS 系统来承载。」

随着居住产业的数字化价值崛起，贝壳深耕居住服务产业，将线上到线下的服务闭环，在重塑居住产业互联网的同时，赋能更多生态合作伙伴。

快看漫画：通用的做法是长视频网站抓大热点；小说网站靠排行、分类，基本没有去做个性化分发的。

其实长内容的个性化分发和短内容的个性化分发是有很大区别的。比如说短内容，追求的可能是推给用户内容的点击转化率、消费时长等；长内容可能追求的是这一屏有一个内容，用户进去之后能看上 20 话。也就是每一屏都需要一个能够让用户深度往下看的内容，这是第一个区别。第二个区别是短内容是不会给用户重复推的，而长内容是要重复推的，用户前一天看这个作品看了 20 话，并且还有 30 话未读，那么用户下次来我还应该让他看这个作品。我们做推荐会去考虑，用户这次进到这个页面里最想干什么，有可能是想追更，也有可能想探索看新作。所以长内容和短内容用力的维度和方法是不一样的。

每一话我们是提出剧情热点，用个性化的封面和文案组合去推等等。例如男女都喜欢的作品，如果做个性化推荐，拆到每一话的级别，针对不同性别人群会个性化组合封面、文案和剧情热点等推荐理由。

我们把作品打标签，一个作品打几十个维度，每个维度下可能有几十个标签，然后定期还要回顾这个作品新的剧情走向。标签体系有了之后，再基于既有作品的标签体系去看当前流行什么，再通过数据维度去看什么人群属性的人喜欢具备什么标签的题材，什么样的作品留存好，什么样的作品转化高，再往下拆就拆到刚才说像封面，文案，什么样的东西更吸引用户。漫画平台之外，我们还监测 UGC 平台、文学网站、视频网站等等

用流行度分析去指导创作：我们去年火的一个作品叫《DOLO 命运胶囊》，这个作品是用平台流行元素作为命题去构思，然后创作出来的。

去哪儿网：

旅游行业不像搜索行业，搜索行业必须用实体机。旅游行业没有那么大的波动的量，基本上我们都是用虚拟化技术，底层的虚拟化加上 Java 的程序去做。

5G 可以带来好几倍的带宽以及高密度，原来做不了的业务可能就可以做了。实际上 5G 在旅游相关的产品可能有很多应用场景。比如门票这种，应该是游客到了哪里就给他推送什么东西，或者大密度的去推一些东西，原来 4G 的时候可能做不到，5G 就有条件去做了。

另外像实时计算和智能推荐对旅游行业也非常重要。原来我们对用户都是滞后的判断，而现在的趋势是业务要求一个用户的行为你下一秒就要知道，然后再推给他一个适合他的东西。所以实时计算的技术，像 ELK 其实对业务模式的影响比较大。原来只通过日志分析，就会有滞后性。

70 后、80 后主要看价格，他们觉得性价比最重要；而 90 后和 00 后的决策，价格只是其中一个影响因素。他们比较看中整体体验，玩的好不好，以及是否有新的玩法。我们有些项目也在尝试为用户单独去拍摄旅行视频，这个目前也在探索。

90 后、00 后对旅游的概念不是说像 80 后、70 后那样，他们一定要融入当时的场景，不是作为游客，而是要去生活去体验，这个差异会非常大。年轻人也会到了目的地再决定行程，这个就需要我们去预测他的意图。这与之前自己会做好计划，是两个决策方式。现在大家都没什么计划，但是需求不明确的时候你可以替他完善需求。比如说即时推荐，这又和搜索推荐的技术相关。

我觉得年轻人将来报旅行团会越来越少。因为翻译的软件会越来越智能，所以语言不是什么问题。关键是能不能带他去融入当时那个场景，这个其实是比较难的。就是实时的内容提供、景点推荐，包括怎样带他去体验当地生活。

健身房：

选址：基于过往运营情况，加上你对于当下城市，就是门店选址的地方，进行数据对比，然后你就能够大概有一个维度指标了。同时，我们也需要把一个区位的维度指标收集的更全。比如说它旁边的租金水平，旁边有多少个相关的消费品类，人流量等等。这套体系其实做得比较好的是海底捞，他们也是通过这种方式选址。当然，我觉得算法比重会越来越大，现在可能五五吧。一部分是基于算法的能力去理解这个地方合不合适，包括未来适合什么样的运营的方式、策略、排什么课；然后还有一半是能在过程中主观进行感知。

其他的部门都要参与到这个角色里面去，提供各自相应的专业分析，市场有自己市场的考量，门店有门店运营的考量，教练有教练的考量。如何把内部这套系统做的既科学又不要太繁琐。我们自己迭代了 80 多个版本去做这套内部的决策系统，并且保证高效，保持我们的科学性，而且持续的进行迭代。

提升用户粘性，下次还来：线上化运营之后可以引入很多游戏化的运营手段。比如我们去年做了「猩章」成长体系，现在很多人跟随我们也在做了。颁发游戏等级徽章，按不同课程类型细化，还有解锁，名人堂，累计排名等等。核心是这样设计之后给学员带来的是「多重的反馈」。学员会觉得「我不只是流了汗，我自己开心」，当然我们后面也在做新的尝试，比如做硬件相关的新的产品。就好像游戏能刺激玩家玩下去的原因一样，游戏中的反馈很丰富很及时，这也是提高用户粘性的一个重要方式。

另外，我们也给教练提供一些能力帮助他们去提高课程的体验。教练端产品会看到每一节课学员能力的分布，有多少学生是第一次来超级猩猩，有多少同学是第一次上这个教练的课，然后教练就能快速理解这节课他该怎么样动态地调整的授课方式和交流方式。

我觉得最早的应该不叫分析工具，叫统计工具。像 CNZZ 也好，像百度统计也好，做流量的一些统计，核心是在流量层面。

然后再往下，大家会说光是统计还不行，要进入分析，要了解一下我的用户整个情况是怎样的，那这个时候会演变出来第二代的数据分析产品，就是基于事件的。因为每个事件都会对应到人，既有事件的模型又有用户的模型，这个用户到底做了哪些事情，然后去筛选用户，这个是第二个阶段。目前大部分的工具应该也在这一层，包括在 2010 年左右出来的友盟、Talking Data 为代表的一系列工具，当时它们承载的很多可能就是流量统计的功能，但是它们也有事件模型。

然后再到下一代，从事件本身到开始运营用户的生命周期了，就是到用户这一层。核心围绕着用户来做分析，不是核心围绕着事件来分析。

数据库：

伴随着分布式数据库理念和技术的成熟，对传统数据库理念和技术的依赖正在走向瓦解。“像数据库、操作系统、云技术，或者云内部的基础软件，未来只有开源一条路，如果不开源，或者说内核不开源的话，产品的生命力是很差的。”

比如过去大家可能觉得数据库的瓶颈是磁盘，想怎么设计一个更好的 B-Tree 能够让磁盘磁头转得少一点。但现在全是 SSD，甚至未来可能持久化内存的东西都出现了。过去分布式系统的网络这么慢，带宽这么小，所以尽可能都是在单机或者本地上去做。但现在基本上单机访问远程数据库和访问本地数据库在吞吐量上表现差不多了。

从数据库的角度上来看，大家会发现，最早的关系数据库 SQL、TSQL，在互联网或者移动互联网开始爆发的时候，数量开始膨胀，单机系统怎么样都搞不定的时候，互联网公司没有办法，只能去做了一套 NoSQL，但 NoSQL 又有点过了，就把原来的传统管理模型全都扔掉，但至少能把数据存下来。所以我觉得历史是螺旋式发展。

其实这两年已经开始有这个趋势，就是新一代的数据库又开始回归 SQL 模型，可能未来持续十年会有一个关系型数据库的复兴吧。过去是因为分布式理论，以及硬件环境没有办法去跟这个模型很好地结合在一起。但至少以我们的经验来说，现在分布式基本上能满足很多需求。

硬件成本持续在下降，一定会到达一个临界点，就是数据本身的价值都比硬件成本要高，这样一来，我肯定是保护数据，怎么样把我的数据能无限存下来，并且能快速通过好用的接口来访问它。

神策数据：

第一点是技术细节，比如我们选择的存储跟查询是不预聚合的，所有的数据来了都是一条条的存起来，然后做任何一个查询的时候，都是从最细粒度的数据来查。这样做的好处是查询的能力灵活，我们的维度指标可以任意选择，非常多的分析模型，比如漏斗、精确的留存、归因分析，如果通过预聚合的方式都是很难解决的。第二个好处是时效性，比如收到一条数据，我们基本能做到十秒之内它就能在查询接口上体现出来。但不做任何的预聚合的挑战是，对于查询、存储以及数据扫描能力有非常高的要求，这是我们整个后端研发团队主要的攻关点。

第二点是我们认为数据采集应该是从需求倒推，先看需要数据用在什么地方，再决定采哪些数据，结合客户的整体技术架构，决定用哪一种数据采集方案。所以我们有专门的数据采集团队。我们发布了安卓全埋点采集白皮书，相当于贡献出了七种安卓全埋点采集方案的源代码。我们所有的数据采集的 SDK 和工具都是开源的，希望能促进整个行业的发展。

第三点是定位。我们不是传统的 SaaS 公司，而是企业服务公司，有点类似 ONES。同时我们绝大部分的客户都是做私有化部署的。

优信二手车：

二手车的定价受到各种因素限制，包括城市、里程、年限、保养情况、有没有出过事故等上千个指标。传统的定价方式是靠人的经验拍脑袋。而我们在国内最早采用了神经网络去建模。另外，由于介入了整个交易流程，优信有最完整的成交数据。有了大数据的积累我们的模型才能够不断迭代优化。

VR 看车。

当人员快速扩张的时候，从几十人到百人到几百人需要的管理方式是不一样的。需要带着大家制定标准和流程，需要在团队内部建立良好的沟通反馈机制，需要关注不同层级员工的成长和发展。

我们做了 CDN 的调度体系，也就是融合 CDN，用户根据他的情况来选 CDN，用户的行为日志会不断上传，他请求这些节目的整体情况会不断上传到我们的后台。系统根据当时真实情况去调整 CDN 策略。客户端会收集用户收听情况，会把基本数据收集起来，传回服务器去计算所有收集到的用户信息，然后有算法、权重。权重里面就包括刚才我说的各种各样的维度，例如地理信息、对接的 CDN、价格、断线率、响应时长等等。这些信息输进去，每天会计算一次并排出一张表，把这些信息全部下发到各类地区的用户，然后决定电信、联通、移动这些运营商的用户到底应该切到哪个 CDN 上去。

一个研发中心会有一个班委，这个班委就决策哪些项目是需要被列入 KPI 的，需要去跟进的，以及考察它的指标是什么、它到底产生什么效果、它的结果会对什么东西产生作用？从这个角度去设计 KPI 就避免了 KPI 都是一些技术指标这种情况。因为数字本身没有意义。做的再好看、响应再快，没人用就没有意义。

到了那个时间点，需要去关注更大的东西了，能力应该要有更大地发挥，而不是仅仅在技术本身了。刚跳出来时候其实蛮难受的。管业务线的时候觉得抓不住。以前面对技术同学都好管，大家一起做完一个东西就好。现在要去看业务，让数据更好的增长，也要去分析业务和用户需求。

对话CTO的精彩语句

猜你喜欢