都说大数据，大数据是什么，来自大数据的自我介绍

数据的分析与管理以原始数据为基础，同时需要培养数据感觉、建立数据思维，不同的定义及分析方向不同，造成的结果和数字也不尽相同，所以我们用最复杂而有效的多方交叉验证方式，提供丰富的维度和科学的方法。

一、用户画像与标签来源

一般而言角色不同，做用户画像的目的也不尽相同：关注作者：需要大数据学习方面的额，其他文章可以找到组织

广告公司是为精准营销，电商是为用户购买更多的商品，内容平台是推荐更感兴趣的内容，提升流量再变现。

用户画像的基础就是标签体系，那么市面上的这些标签体系到底是怎么做出来的？

根据处理过程与获取方式的不同，可以分事实标签、模型标签、预测标签。

都说大数据，大数据是什么，来自大数据的自我介绍

首先基础为原始数据，即"谁，什么时间,访问了哪一个APP，打开了多少时间",此时可以获取到用户信息、产品信息、设备信息等原始数据，对这些原始数据进行直接提取，经过统计后就可以拿到事实标签。

常见方式一般是通过帐号系统获取基本属性：用户账号，手机号，Email,甚至身份证等。之后通过抽奖活动，要求用户必须填写姓名、年龄，地区、性别等其他社会属性，进行信息补充。

另一种为产品的信息浏览、搜索，通过统计分布也可以得到事实标签。这些方式的重点在于如何细分、交叉。

除了事实标签外，另一种为模型标签。

模型标签具有人口属性，现在的注册流程非常简单，通过手机号码验证，即可注册成功。如果填过多信息用户会感觉麻烦，降低了注册量。所以此时可能只有注册账号，不存在上述的事实标签。此时就需要一些模型去预测属性，例如性别，年龄，学历等，这些即为模型标签。

最后一种叫做预测标签，是指根据行为数据预测，近期可能会有的需求以及消费能力。这样的行为就叫做预测标签。

二、培养数据感觉，多方交叉验证

以人群规划——大学生人群为例。例如某产品定位为大学生人群是2880万。这时候需要去查验这个概念是否正确，此时，可能相关的数据有:

今年大学毕业生可能是700多万；
今年高考，全国招生可能是650万；
全国有2879所高校，北京有100所高校；
研究生有多少？如果研究生数据规模太小是否会对数据量产生作用？

从这个数字表明，专科和本科加在一起，2780万的数字基本符合。但是当看到别人的人群规划中，大学生人群可能会有近5000万，其实也是可以存在的。因为各自定义不同。如果在规划大学生人群时，把应届生毕业生和准大学生的这一届也加进去，就会多加1500万。关键的问题是怎么核对，核对之前要搞清定义，多方数据下相互验证，才知道这个人群到底有多大，到底对与不对。

三、跨屏媒介分析与受众管理

所以，基于标签体系和人群我们打造了一款跨屏的媒介计划产品xMediaPlanner(XMP)，

核心看点：跨屏多媒介(移动应用，移动视频，PC网站，PC视频)
核心内容：多维丰富的标签体系(8大标签维度，30个标签大类，近1000个标签)
核心目标：助力媒体公司更全面的发现自己的优势; 帮助广告公司更精准的广告投放。

都说大数据，大数据是什么，来自大数据的自我介绍

终端用户行为数据，用规则识别，机器学习等方法进行用户属性，习惯，兴趣，偏好等的知识挖掘，形成强大的人群规划用于用户画像与媒介计划。以助力媒体公司了解自身、发掘商机，帮助广告公司精准投放、高效变现。

都说大数据，大数据是什么，来自大数据的自我介绍

XMP产品横跨移动手机、智能电视、PC电脑三大终端，支持应用、视频、网站媒介的跨屏分析，括8大标签体系，30个标签大类，近1000个标签。

▌数据能力共享

数据源、数据工程能力以及数据挖掘能力没有哪个更为重要，三方相辅相成，同时也根据不同产品、不同定位随需而变，以满足用户多方位的需求。

人们一直在聊大数据、DT时代，我们发现除了数据寡头，各级政府、一些相关的机构都积累了大量的跟我们生活中息息相关的海量数据资源。市面上有较多免费的基础数据产品，但数据资源是稀缺的。

我经常会被问到“你认为数据源、数据工程能力以及数据挖掘能力，哪个是第一位的？”，这个问题对于不同的公司来说，答案肯定会不一样。

我首先要强调一点，共享不等于免费。是什么原因阻碍了数据能力共享的？

第一，在没有相应法律政策引导下，从业人员会担心数据共享引起的信息安全问题，数据泄密失控，对开放有恐惧。除了6月1号开始试行的《中华人民共和国网络安全法》之外，之前参考的更多是条例、办法、规定。比如互联网信息管理办法以及互联网个人信息保护规定。

这是一个非常现实的问题，从业人员都会有这个担忧。对于数据共享或者数据的开放造成的影响是不可避免的。随着进一步的媒体宣传大家对于数据有了敬畏之心，看到第一反应是说“什么事情我能做，什么事情我不能做”，第二就是数据的壁垒。数据一旦出门就失去了壁垒，这样的短线操作存在极大风险。这个担忧当然是有道理的。这也是目前很多data bank , data broker 在不停尝试努力并且要解决的问题。

除此之外，数据源五花八门，算法能力层次不齐，如何实现数据对接也是重中之重。以画像标签为例，某家的年龄标签是18-23，另一家是19-24，给你几个不同数据源标签画像，怎么使用？不同家标签对接方式也不一样。

都说大数据，大数据是什么，来自大数据的自我介绍

关于数据对接，画像系统输入的先决条件大都以客户提供ID包为主，每一个群体画像查询都应该有一个查询主题。例如某服装品牌的人群画像、某部综艺节目女性观众的的APP使用习惯等等。然而，画像系统输入条件是ID包，这也是很多用户面对的难题之一。可以提供服务群体画像的ID包，或者当客户提供ID包时，我们可以ID-mapping.

当有多个数据源能力单元以及多个数据合作伙伴时，如何正确选择准确的标签，同时选择性价比最高的标签使用呢？

相同标签不同源之间的评估，合并后输出结果。

都说大数据，大数据是什么，来自大数据的自我介绍

对于所提到的ID级数据，首先ID级不是输出ID的，在这里主要是强调和之前产品的一些区别，非配比、非推及、非调研的方式打造的ID级数据产品。不涉及配比的方式，不涉及推及的算法。比如，APP活跃画像标签一定是第一步够建的人群所对应的结果，而并不代表这些APP在中国网民的排名。

同时要了解的是，数据能力共享不是数据共享，不是把原始的数据生产资料发布出来。简单来说，假设所有人能够同时利用辨析画像能力，以及其他的头部数据源的画像能力，进而，允许你去选择所想要的标签。即便如此，由于场景不同，还需要第三方去验证每个标签的质量，统一整合之后发布，这样才会使得事半功倍、并且高效。

无需冒着各种风险大量采购数据，也无需招人完成数据工程能力。1000个ID起查，群体结果输出，不涉及个人隐私。同时规避数据留存问题，群体画像针对客户所构建的人群实现一次性结果。

都说大数据，大数据是什么，来自大数据的自我介绍

群体画像能力共享的前提是DMP提供多种方式构建人群。特别是传统企业，除了CRM里的手机号，通常没有其它可供分析的ID包。

而将数据分IOS、安卓、PC端等；人群划分出核心人群、竞品人群、潜在人群、沉默人群等。同时，支持的方式有：一方ID、预设人群、标签DMP、APP定向，活跃域名，视频人群，地理围栏等方式构建人群。同时，内部研究团队会根据不同情况，设定不同特殊人群。

都说大数据，大数据是什么，来自大数据的自我介绍

综上来说，对于受众管理和受众洞察有完整及丰富的处理经验。简单来说，受众管理在产品里的体现是利用DMP构建目标人群，生成ID包；而受众洞察在产品的体现是基于已构建的ID包，对接以及数据合作伙伴的画像能力去完成画像服务。

都说大数据，大数据是什么，来自大数据的自我介绍

猜你喜欢