Recommend system fuel: data those things

image



The soldiers and horses have not moved, the food and grass go first.

- "Expedition in the Forest" 

Although the data has not been included in the company's balance sheet, it is only a matter of time.

- Victor Meyer Schönberg

In terms of liquidity, data will be an important asset. A certain amount of preparation must be made in the early stage of building a recommendation system, and data is this necessary link. Of course, data as fuel can not only contribute to recommendations, but also drive more things forward.

Through data collection, we have a comprehensive understanding of products and users; through data mining, users are grouped/layered; through data decision-making, operation plans and product optimization are driven. Finally understand the product, understand the user, and understand the goal. Do the right thing to the right person at the right time.

▌1. Please understand a question first

Can more data drive business? Everyone often has a misunderstanding that we can bring very good benefits as long as we collect a large amount of data. However, as introduced in the previous chapters, the recommendation system is a global project. It is not only necessary to collect a large amount of data. It is easy to collect data, but difficult to use data. When the quality of the data we have is uneven, or we collect some junk data, it is actually difficult to output the optimization that drives the business. When data analysis is separated from business, it is difficult for us to obtain better results, and it is easy to be submerged in noisy data like headless flies. If after correct business modeling and efficient engineering support, massive data will bring a very big improvement.

▌2. Data-driven recommendation system

In principle, the data is accurate, the method is appropriate, and the interpretation is correct.

Data-driven thinking is necessary for every recommended algorithm engineer. According to this way of thinking, the analysis and improvement process of the product can be determined: first determine your own analysis and goals, intervene from the perspectives of scale and distribution, and find some problems; determine needs through goals The analyzed data is refined to the data analysis indicators, and the effective data threshold is estimated; find and evaluate the data acquisition channels to obtain the original data you want; perform reasonable processing and analysis of the data to draw the analysis conclusions, and the data needs Comparable; Reasonable analysis of the results obtained, guide recommended iteration.

前推荐系统阶段,通过数据我们必然需要了解的有以下几点,这些可能已经有BI团队产出相关的数据,如果没有的话,你可能需要自己结合业务场景进行分析。 我们首先对用户行为进行拆解,用户的行为 = 商品/内容 - 信息载体 ( 明星、类目、年代 ) + 显性操作 ( 购买、常看、关注、下载、收藏 ) + 隐形操作 ( 时长、跳过 ) 。

1. 谁购买:用户规模,人群特征,文化特征,如场景 uv ,pv ,年龄分布、性别分布、地域分布、偏好分布。

2. 购买什么:购买品类分布、品牌分布

3. 为什么购买:结合用户的一些细粒度的挖掘。客户价值、使用好处

4. 用户行为路径分析:用户在进入产品以后的行为轨迹,用户用了哪些功能模块?用户使用的顺序是什么?通过分析用户行为路径,验证用户的使用是否和当初设计推荐产品的逻辑是一致的。如果和产品设计逻辑偏差很大,就需要思考为什么?是我们设计的逻辑有问题?还是其他方面出现了问题?通过用户购物路径的分析,建立对用户的认知、对链路各个环节进行流失分析、并关联场景、 结合行为流程,识别相关短板,进而找到破局点,设计方案验证可行性。

5. 单体用户行为跟踪:验证猜想、挖掘需求、理解用户、还原场景。人是分析的最基本元素,需要清楚的知道每一个用户所处生命周期、活跃情况、环境信息等。有了用户群的画像以后,通过单体用户行为跟踪,我们就可以进一步追踪到个人身上,通过对个体用户行为的跟踪,可以查看用户具体是如何使用产品的。

6. 精细化用户分群:行为特点、回访留存、群体画像、漏斗转化。根据用户行为的特征将其按需拆分成不同属性的用户群,例如:做过A事件的人拆分成一个用户群,做过 B 事件的拆分成另一个群,看群体用户画像有什么区别,看他的留存和回访有什么区别。

▌3. 数据考察维度

面对复杂的系统数据如何管,如何用。当数据不完整,将直接影响结果,一般对现有数据评估维度主要围绕以下几点展开:

1. 完整性:流量红利期结束,新用户获取成本高于老用户留存成本,建立以人为核心的数据体系变得更加紧迫,市场数据,位置数据,生活数据,行为数据,人口学数据,认知数据,设备数据,运营数据。评估数据是否已经覆盖了每个环节的业务需求,以及哪些业务需求丢失了需要被采集,或者哪些数据当前不可被信任。

2. 及时性:互联网时代,信息及机会瞬息万变,快速、及时地获取数据,对快速决策带来非常多的好处。我们需要评估数据是否可以被实时的采集,以足以满足某些特殊使用场景,尽可能地被可视化管理监控。

3. 规范性:数据产生依赖我们作出一些动作,也就是所谓的输入,然后输出就是我们需要的数据。我们需要评估是否各个岗位有系统性规范化的,对于数据输入输出的定义以及计算方式。

4. 一致性:往往在有些岗位和环节,数据会产出类似或者相同功能的数据,这个时候我们就需要对这些数据进行统一的归并,并且制定逻辑自洽的口径。这一过程需要评估不同领域的同类数据是否一致,以及数据是否有重复,如有则需要制定相应的归并规则。

5. 准确性:这个自然就是评估数据是否体现了真实的用户行为、市场动态及运营状况。

6. 关联性:数据是流动和共享的,我们需要评估是否在一个业务链上的各个部门和岗位都可以连接并共享数据,以及数据是否能够准确的触发相应的业务事件。

▌4. 数据类型

数据类型是从结构化程度来看的,主要分为结构化数据和非结构化数据。如用户基础信息数据、推荐系统中用户行为数据中的访问数据为结构化数据。用户的评价,推荐物料的文本数据、图像数据则为非结构化数据。

▌5. 数据收集:埋点

5.1 埋点的意义

想要通过数据进一步了解产品,则需要收集更多的数据,而数据的收集离不开埋点,埋点利用流程、方法、工具在各个用户接触点收集信息。

5.2 指标规划

要想采集好哪些数据,就是制定采集的指标规划,包括指标定义、维度设置、更新周期,其中更新周期会涉及到资源的分配,是时时更新,还是每周、每月更新。比如 pv、uv、ctr、cvr、gmv 等等指标。基于主要规划之后要做的,比如字段分类、数据埋点、数据上报。采集什么数据,以什么形式上报,这些都要考虑清楚。

5.3 类型

1. 点击、收藏、加购、购买、浏览时长、观看

2. 搜索 query

3. icon/页面相关其它行为收集

4. 推荐/展示逻辑信息 ( 回溯平台 )

▌6. 埋点后流程

6.1 ETL & 数据清理

数据采集上来之后,我们需要对这些数据进行数据清洗入库落表, 这时候需要考虑数据的质量,如一致性、精细化程度等将成为关键。并对数据进行存储,评估数据量、数据的复杂性和多样性、数据的更新速度选择合适的存储介质。 数据化管理主要奉行这样的思路:数据采集 - 数据分析 - 行动策略 - 快速执行。

6.2 数据连接

将不同系统产生的数据整合、关联在一起,实现您对数据的全局性把握,并在数据整合的基础上,实现业务管理的整合与优化。

6.3 报表呈现

接着我们可以做报表呈现。这里有很多坑,比如要做报表的趋势图,是用柱状图还是折线图?列表就是一个用户的详细类似表;筛选控件,如果要做到可视化,你需要考虑将来在实际运用时需要从哪些维度去筛选,比如国家、版本、渠道这些;最后是有效性、准确性的验证,我们做了数据上报之后,如果是一堆垃圾数据,或是不准确的数据,对后续的运营就没有什么帮助。

▌7. 推荐直接相关数据

7.1 用户维度:基本信息&显示与隐示反馈

用户基本信息主要指用户的性别、年龄、地区等。前面提到了推荐系统需要构建用户对商品的评价模型,当然这一过程需要数据让我们从中学习到这个评价模型,而从可供学习的样本数据主要分为显式和隐式两种:

1. 显式:一般指用户对物料的真实评分,这类数据的特点是用户操作成本高,数据量小,更真实 ( 由于用户有操作成本 ) 。

2. 隐式:一般指直接评分以外的若干行为数据, 包括:点击、加购、收藏、购买、流量时长等,这一类数据的特点是用户操作成本低,数据量大,相对评分,用户成本低,具有一定的不真实性 ( 由于用户有操作成本 ) 。

用户反馈数据往往还可以进行进一步聚合、梳理形成用户的行为表现数据,如活跃度、回访、复购情况等。

7.2 物料基本信息&表现数据维度

物料基本信息主要包括了物料的标题、标签、类目等,表现数据主要是基本数据上的聚合及汇总,与用户维度反馈数据类似。

7.3 其它数据

额外数据:天气、经纬度、节假日、cpi

作者介绍:

姚凯飞,Club Factory 推荐算法负责人。硕士毕业于上海交通大学,前阿里推荐算法工程师,多年电商及视频推荐经验,目前在出海电商Club Factory负责推荐算法工作。

对作者感兴趣的小伙伴,欢迎点击文末阅读原文,与作者交流。


——END——



关于 DataFun:

DataFun is positioned as the most practical data intelligence platform, mainly in the form of offline deep salons and online content organization. It is hoped that the practical experience of industry experts in their respective scenarios will be spread and diffused through the DataFun platform, which will inspire and learn from students who are about to or have started relevant attempts.

DataFun's vision is to create a platform for big data and artificial intelligence practitioners and enthusiasts to share, communicate, learn, and grow, so that the knowledge and experience in the field of data science can better spread and generate value.

Since its establishment, DataFun has successfully held dozens of offline technology salons nationwide, with more than 300 industry experts participating in sharing and gathering tens of thousands of practitioners in big data and algorithm related fields.

image


Guess you like

Origin blog.51cto.com/15060460/2676598