电商用户行为分析大数据平台

简介

对电商用户行为:

  • 访问行为
  • 购物行为
  • 广告点击

进行复杂的分析 结果

  • 辅助PM 数据分析师 管理分析现有状况
  • 改进产品设计 调整公司战略业务
  • 提升业绩 营业额以及市场占有率提升

技术简介

业务模块

  • 用户访问session分析
  • 页面单跳转转化率统计
  • 热门商品离线统计
  • 广告流量实时统计

技术

  • Spark 离线计算和实时计算业务
    • Spark Core
    • Spark SQL
    • Spark Streaming

功能模块简介

用户访问Session分析Spark Core

  • session的聚合指标计算
  • 按时间比例随机抽取session
  • 点击 下单购买排名前10商品

页面转换率统计Spark Core

  • 计算关键页面之间的单步跳转转换率
  • 页面切片算法 页面流匹配算法

热门商品离线统计Spark SQL

  • 实现每天统计Top3热门商品
  • 用Oozie进行离线统计任务定时调度
  • Zeppeline进行数据可视化报表展示

广告流量实时统计Spark Streaming

  • 动态黑名单
  • 黑名单过滤
  • 滑动窗口内的各个城市的广告展现流量
  • 广告点击流量统计

环境介绍

  • Centos 6.4
  • CDH 5.3.6
  • Spark 1.5.1
  • Zookeeper 3.4.5
  • kafaka
  • Flume
  • Java(Scala)----java生态更好
  • IDEA

环境搭建

oracle vm vrtualbox

1 创建虚拟机

在这里插入图片描述
分配1024M内存

后面选项全部运用默认的设置

在这里插入图片描述

2 设置虚拟机的网卡

在这里插入图片描述

3 安装Centos

在这里插入图片描述
跳过
在这里插入图片描述

遇到的问题:硬盘不支持
在这里插入图片描述
OSX上不支持的硬件CentOS 6.x VirtualBox
原因:inter的CPU不支持 跳过吧 历史遗留问题

后面选项默认

在这里插入图片描述
在这里插入图片描述
时区选择上海
在这里插入图片描述
在这里插入图片描述

reboot

4 网络的配置
  • 临时设置ip
ifconfig eth0 192.168.1.110

在/etc/hosts文件中配置本地ip到hosts的映射

  • 配置hosts文件
    在这里插入图片描述
    ping通来检查
    在这里插入图片描述
  • 使用putty链接虚拟机
  • 永久性配置Centos网络
vi /etc/sysconfig/network-scripts/ifconfig-eth0

在这里插入图片描述

  • 重启网卡
service network restart

虚拟机无法Ping通的解决方法

被公司这个172的网差点整自闭! 昨天折腾了一天,今早又整理了一下思路 真能解决哎 只是方法有点暴力 果真不能996,一点都不高效!
1 进入到network-scripts

cd /etc/sysconfig/network-scripts

2 查看网卡 发现存在eht0 但是没应用 进去修改一下吧

vi ifcfg-eth0

昨天指定ip还是ping不通 现在换成自动分配ip看了看 果真可以哎

DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=dhcp

3 重新启动方法 或者重启机器也行

Service network restart
//sudo reboot

在这里插入图片描述
成功! 我是折腾了一天的计算机网络吗?

ip永久性的配置

1 刚才激活了eth0 然后又让系统随机分配了一个内存,就可以用这个IP改成static了

vi ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=dhcp
IPADDR=172.16.181.138
NETMASK=255.255.255.0
GATEWAY=172.16.181.1

说明:系统分配给我的gateway是181.255 但是重启网卡的时候这里显示error 我也不知道为什么 改成181.1就可以了
2 重启网卡

service network restart

再次配置hosts映射

环境安装

前言:上午测试环境在虚拟机中进行 还是有一些问题的 有点小自闭 下午我打算直接在一百多万的服务器上跑! 希望不会把实验室给炸了

由于服务器财产贵重,以下操作我会进行脱敏处理

ip地址多重映射

由于服务器上已经存在其他的bigdata项目,映射可能会出现问题
以前只做过一个一个ip映射一个主机名 原来还能映射两个,涨知识了
配置一个位置的多个主机名

在这里插入图片描述
将软件安装包上传至服务器

scp -r -v ./软件包 root@s03:/ifeng
//无需再输入用户名
scp -r -v ./软件包 root@s01:/ifeng

JDK安装

rpm -ivh jdk-7u68...rpm

猜你喜欢

转载自blog.csdn.net/weixin_39381833/article/details/89739287