hive学习07-电商数据集 - 代码天地

hive学习07-电商数据集

其他 2019-05-31 00:08:55 阅读次数: 0

基础每天学习：

1.行转列：

case ... when ...then....else ...end as xxx

2.

“fields terminated by”：字段与字段之间的分隔符。
“collection items terminated by”：一个字段中各个子元素 item 的分隔符。

3.数据仓库中常见的分区

数据仓库分区：时间（天）、数据来源（app、m、pc）

　　--数据库：用户的属性、年龄、性别、收藏、购买的记录　　
　　--每天有新增用户，修改信息dt=2018922 存在大量信息冗余
　　--overwrite 7 每天做overwrite dt=20180922,
　　--当天之前的所有全量数据，有7个分区，冗余7分

4.hive查看数据时查看表头：

set hive.cli.print.header = true;

5.分桶使用:cluster by(xxx) into 4 buckets;

扫描二维码关注公众号，回复： 6312780 查看本文章

如果需要分桶必须事先设置参数：
set hive.enforce.bucketing = true
或者用户可以自主设置mapred.reduce.tasks通过reduce的个数来适配bucket

buctet的作用:
1、数据采样,如果采样列：select * from student tablesample(bucket x out of y on user_id)
hive根据y的大小决定抽样的比例

6.hive 优化

1.作业依赖于input的目录产生map的个数，set dfs.block.size

--小文件太多的时候，合并小文件，减少map个数

---set mapred.map.tasks = 10

---map聚合 set hive.map.aggr=true

reduce 优化：
---hive.exec.reducers.bytes.per.reducer= ; 每个reduce任务处理的数据量优先级第三
---hive.exec.reducers.max= ;reduce的最大个数优先级最大
---设置reduce的个数 set mapred.reduce.tasks = 10 优先级第二

一个reduce：
--order by (使用distribute by+ sort by 或者 cluster by 代替)
--笛卡尔积 a join b (没有on，或者无效的on条件，直接变成笛卡尔连接，触发一个reduce；一定要避免笛卡尔积，一个reduce)

hive优化：
-where 中的分区条件，会提前生效，不必特意做子查询，直接做join和group by

-Map join时候，小表放在最前边
- /*+MAPJOIN(TABLElist)*/,必须是小表，小于1G或者50条记录

-union all/distinct

-先做union all 再做join或者group by 等操作可以有效减少MR过程

实战：

1.每个用户每天多少个订单？

2.每个用户平均每天是多少商品？

3.每个用户在一周中购买订单分布？

4.每个用户一周中的购买商品分布？

5.每个用户最喜爱的product？

猜你喜欢

转载自www.cnblogs.com/students/p/10952776.html

hive学习07-电商数据集

Hive分析电商数据

Hive电商数仓实战

电商数据挖掘

电商数仓中hive常用的函数

电商数据分析

电商数据处理

Springboot学习07-数据源Druid

Java学习07-异常

07-数据类型

07-数据结构

数据处理---电商数据整合

电商数据分析--流程、方法

电商数据分析要素

电商数据库建表

电商数据分析总结

电商数仓-(业务数据导入HDFS)

Olist Store电商数据分析

大数据电商数仓相关脚本

直播电商数据仓库

数据库设计规范-电商数据库设计及优化学习笔记

数据库备份与恢复-电商数据库设计及优化学习笔记

Spring学习笔记(07-事物的概念)

Python学习笔记07-字典

Git学习笔记07-删除文件

java学习笔记07-循环

[C++学习日记]-07-指针

Linux学习07-用户管理

机器学习07- 逻辑回归实践

CSS学习笔记-07-字体与背景

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)