SDTF - 用户画像制作

基础知识

数据库分类

  • 关系型:如sqllite,db2,oracle,access,sql server,MySQL,注意:sql语句通用,关系型数据库需要有表结构

  • 非关系型:mongodb,redis,memcache, 非关系型数据库是key-value存储的,没有表结构

用户画像

用户画像就是与该用户相关联的数据的可视化的展现-------------用户信息标签化。

  • 偏技术的定义

    用户画像可以简单理解成是海量数据的标签,根据用户的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,形成了一个人物原型 (personas)。

数据集

标签制作

流程图

整个用户画像(UserProfile)项目中,数据、业务及技术流程图如下所示:
在这里插入图片描述

  • 数据源存储在业务系统数据库:MySQL 数据库中

  • 采用SQOOP全量/增量将数据抽取到HDFS(Hive表中)

  • 通过转换为HFile文件加载到HBase表
    在这里插入图片描述

关系数据库管理系统(Relational Database Management System:RDBMS)是指包括相互联系的逻辑组织和存取这些数据的一套程序 (数据库管理系统软件)。关系数据库管理系统就是管理关系数据库,并将数据逻辑组织的系统。
eg:Oracle、IBM的DB2和微软的SQL Server。

HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。

用户标签

内容标签

用户标注的体系建立

任务提交流程

在这里插入图片描述
我们可以搭建一个用户画像的管理平台,在这个平台上,我们可以按照不同的等级去管理标签,或者定义标签的执行周期,以及计算任务的提交等等操作.

任务执行流程

在这里插入图片描述数据来源:

  • 一个是MySQL中的标签规则数据

  • 另一个是HBase中的原始数据

通过SparkSQL对数据进行计算,将最终得到的结果标签存入HBase。

再用ES或者solr做二级索引,方便我们进行数据的查询操作。

HBase是一个高性能、列存储、可伸缩、实时读写的分布式存储系统

训练

分析数据

反馈

资源

机器学习和推荐系统项目实战教程

HBase教程(hbase框架快速入门)

おすすめ

転載: blog.csdn.net/weixin_51552144/article/details/121822329