hive 常用数据分析指标 - 网页访问数据指标 - 用户活跃度指标 - 付费行为指标


      在这里记录几个常用的数据分析的指标,并且慢慢会增加自己工作中用到乃至创造的指标。至于sql,慢慢添加吧。

一、网页访问数据指标

1. UV (UniqueVisitor)独立访客

      uv - 独立访客数 - 一天之内所有的访客的数量。也就是一天之内,uid去重后的数量。
      访问的独立客户终端(电脑、手机、pad等)为一个独立访客, 技术上已MAC地址作为唯一身份识别ID。理论上(仅限于理论)24小时重复访问终端只计算一次。(PS:UV也不同于Visits访问行为,Visits通常以半小时为去重统计周期。)

2. PV(Page View)网页浏览量

      pv - 一天之内的总访问次数。网页被访问浏览的次数,也可简称为访问量或浏览量。有些统计工具把用户每次刷新都计算一次个PV(这也是很多网站PV虚高的原因之一),由于PV数据通常是相对(UV/IP/RU/WAU)最高的数据指标之一,所以网站访问量是目前互联网公司对外公布的统计数据中,几乎是最常用的口径。

3.(Internet Protocol)独立IP

      4. 新增IP。即以前从未出现过的ID,也就是:一天之内所有ip去重且在历史数据中从未出现的数量。

select count(distinct dataclear.cip) 
from dataclear 
where dataclear.reportTime = '2020-02-17'
and cip not in
(
	select dc2.cip 
	from dataclear as dc2 
	where dc2.reportTime < '2020-02-17'
);

4. BR(Bounce Rate)跳失率

      指访问陆页(Landing Page)后,未点击进入任何其他页面或发生其他交互行为,即直接离开的访客占访问该着陆页所有访客的比率。该指标可以衡量一个网页或者一个网站的质量度高低。

/* 等几天再写字段和表啥意思   */
select 
	round(br_taba.a/br_tabb.b,4)as br 
from (
	select 
	count(*) as a 
	from (
		select ssid from dataclear
		where reportTime='2020-02-17' 
		group by ssid 
		having count(ssid) = 1) as br_tab
	) as br_taba,
	(select
		count(distinct ssid) as b 
	from dataclear 
	where reportTime='2020-02-17'
) as br_tabb;

二、用户活跃类数据统计指标

1.RU(registered users)注册用户

      已完成注册的用户数,严格数据应是经过有效验证激活的注册用户数,而放大数据则可以填写提交注册信息提交完成即可。

2.AU(Active users)活跃用户

      某一个时间段内登录或使用了某个产品的用户。

3.DAU(Daily Active User)日活跃用户

      单日登录或使用了某个产品的用户数(去除重复登录的用户)。通常游戏类付费网站会采用DAU的概念。

4.MAU(monthly activeusers)月活跃用户

      把DAU的统计周期拉长到一个月,即是MAU的数据。

5.DNU(Daily New Users) 每日新增用户

      即当日新注册并登录的用户数。

6.ACU (Averageconcurrent users)平均同时在线用户数

      平均同时在线用户数,通常采用 24小时内每小时同时在线的用户数总和除以 24小时。

7.PCU(Peakconcurrent users )最高同时在线用户

      24小时内同时在线的最高用户数。如果希望数据表现较高,通常可采用一个小时内同时在线用户数最大的值;如果更严格,也可以统计某一秒钟同时在线用户数的瞬间峰值。

8.TS(Time Spending)用户平均在线时长

      所有在线用户总时长,除以该时段内的在线用户数。

9.URR(Users RetentionRate)用户留存率

      新增用户中,在某一周期之后仍然活跃的用户占总新增用户的比例。按不同间隔日为统计周期单位来计算的,是比较严格的;根据不同的产品使用频次特性,按以周间隔为统计单位来计算相对更合理,因为很少的产品是需要用户每日都登录使用的。
      次日留存:2020年1月1日的次日留存=2020年1月1日访问过且2020年1月2日依然访问的访客数 / 2020年1月1日访问的用户数。
      次7日留存:2020年1月1日的次日留存=2020年1月1日访问过且2020年1月8日依然访问的访客数 / 2020年1月1日访问的用户数。
      注意:次7日留存指的是 - - 今天访问,7天后再次访问;而不是今天访问,从今天往后7天内任意一天访问。

/* 
	cuid是访客的id。
	这里使用了笛卡尔积,其实使用left join也可以。
*/ 
select
	count(cuid) ci,
	count(cuid)/t11.uv  ciL 
from 
(
	select
		cuid	
	from tb_cuid_1d 
	where event_day = "20190101"
	group by cuid
) t1 
join 
(
	select
		cuid	
	from tb_cuid_1d 
	where event_day = "20190102"
	group by cuid
) t2 on t1.cuid = t2.cuid
,(
	select 
		count(cuid) uv
	from 
	(select 
		cuid
	from tb_cuid_1d 
	where event_day = "20190101"
	group by cuid
) t11
;

10.UCR(Users Churn Rate)用户流失率

      与“用户留存率”相对的一组概念,指新增用户中,在某一周期之后无登录使用等活跃行为的用户。
      用户流失率=(1-用户留存率)*100%计算

三、用户付费行为数据统计指标

1.PU(Paying User)付费用户

      有付费行为的用户。该指标弱化了统计周期的背景,所以在数据统计中不常采用。

2.CR(ConversionRate)付费转化率

      新增用户中,有付费行为的新用户除以总新增用户数。此公式与电商网购中的支付转化率指标类似。

3.ARPU(Average Revenue Per User)平均每用户收入

      衡量一个时间段内某个付费产品或业务收入水平的指标,通常电信运营商或网络游戏公司等采用较多,而零售电商则较少采用。

4.ARPPU(Average Revenue Per Paying User)平均每付费用户收入

      ARPPU=某一时段的总收入/该时段的总PU数。

5.APA(Active PaymentAccount)活跃付费用户

      指统计周期内仍保持活跃的付费用户(活跃PU)数,此处的用户通常以用户注册ID为准。需要排除曾经有付费行为但在统计周期内无任何活跃行为的静默付费用户(静默PU)。

6.PUR(Paying User Rate)用户付费率

      计算公式为:APA/AU,通常以特定统计周期内的活跃用户为统计前提。指统计周期内的活跃付费用户(APA)数除以该周期内的总活跃用户(AU)数。

7.LTV(Life Time Value)生命周期价值

      从用户从最第一次登录到最后一次登录的整个生命周期过程中,所贡献的全部经济收益价值总和。而由于用户的生命周期通常难以统计,所以在实践中,更多采用“LTV_N”来统计新用户在首次登录后的N天内,所贡献的价值总和。此指标更为灵活实用。

三、 总结

      上面这些,只是一些比较常用的运营数据统计术语而已,还不能说是大全,在游戏和APP运营中,还有很多更为细致的数据指标。
      随着产品形态及生命周期阶段的不同,偏重的数据分析指标都会有些差异,数据统计分析指标也会源源不断的创新涌现。只要是对所运营的产品业务数据分析有实效,你也可以自己创设新的数据统计分析指标,这并非是某些权威人士才有的特权。

四、 不知道是啥的

      本人年少无知,有几个指标不知道是怎么分类。。。

1. vv(不是W,是两个V)

      vv(不是W,是两个V) - 独立会话数,一天之内会话的数量,也就是一天之内ssid(标识会话的字段)去重后的数量。

2. 新增客户数。

      新增客户数。即以前从未出现过的客户(可用某个字段作为客户的唯一标识,用此字段进行筛选),类似于新增IP。也就是:一天之内的user_id(假设用该字段作为客户的唯一标识)去重且在历史数据中从未出现的数量。

3. 平均访问时长。

      平均访问时长:一天内所有会话的访问时长的平均值(表中有一个字段记录了访问的时间,假设为stime)。一个会话时长=会话中所有访问的时间的最大值 - 会话中所有访问时间的最小值。(这个有点没太弄懂,后面再研究研究)

select avg(atTab.usetime) as avgtime 
from
(	select max(stime) - min(stime) as usetime 
	from dataclear 
	/*  reportTime 是访问时间*/
	where reportTime='2020-02-17' 
	group by ssid
) as atTab;
发布了48 篇原创文章 · 获赞 36 · 访问量 13万+

猜你喜欢

转载自blog.csdn.net/weixin_42845682/article/details/105128496