大数据环境操作笔记 - 代码天地

大数据环境操作笔记

其他 2018-11-24 11:17:33 阅读次数: 0

不久将要参加个什么大数据比赛。于是将相关的内容练习了几遍。其中各自的关键及相关的理解均写成了笔记，分别是zookeeper分布式集群环境的搭建，hadoop集群环境的搭建，分布式非关系型数据库hbase环境搭建，基于hive的数据仓库的构建以及于此同时回顾的计算机网络的相关知识。短期来看，似乎有点浪费时间，做了一些无用功。无论参加比赛获奖与否。但是长期来看，还是很有益处的，不说大数据这种对普通开发人员不着调的话题，单单是计算机网络的相关理论知识，足够抵过很多的所谓实践了。不管怎样，既然做了，那就尽量做好吧，希望能够做到问心无愧就好。因此还是决定将知识总体拉通在复习一遍，并且将数据仓库中的数据分析部分给补上（笔记已经整理在电脑中，为防止误删数据，还是滕到博客上比较好！上次清理桌面莫名其妙将自己数个月起早贪黑整理的笔记，以及整理的英语笔记都给弄丢了。还好其中重要的都给写到了博客里，丢失了部分劳动成果，马勒戈壁的）。

先看看各个组件的启动方式，以及启动成功后，各自启动了哪些进程：（这实际上是最容易理解的，比很多的理论知识要来的直接的多）：

当在集群环境下，这些进程都启动正常的话，那么基本可以判定这个集群是正确可用的了。

接着是hive的相关操作：

1.创建数据库：

、

2.建立数据表

Or

语法规则：

注意为了正确的装载，需要将爬取到的内容中的 ,（逗号）以及 \n（换行符号转义）

修改mysql 的默认编码：

修改配置，使得centos支持显示中文：

若没有，则要下载：

注意，以上的所有设置对centos的默认字符界面是不会生效的，只能用外置的命令行。。。

将需要检索的结果进行分表：

统计：

继续统计：

转换率计算：

针对竞赛的解决方案：(统计总帖子数)

2，统计总用户数：

猜你喜欢

转载自blog.csdn.net/qq_36285943/article/details/84329216

大数据环境操作笔记

Pandas数据操作笔记

数据库操作笔记

oracle 数据库操作笔记

ThinkPHP数据库操作笔记

Oracle数据库操作笔记

MySQL 数据库操作笔记

SpringBoot整合phoenix_jdbc连接编写_来操作hbase---大数据之Hbase工作笔记0037

OpenStack操作笔记（1）--- 基础环境搭建

NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029

NIFI大数据进阶_离线同步MySql数据到HDFS_说明操作步骤---大数据之Nifi工作笔记0028

git操作笔记

Linux操作笔记

PostgreSQL操作笔记

niginx操作笔记

typeset/$[ ] 操作笔记

nginx操作笔记

SDL操作笔记

Git 操作笔记

mysql操作笔记

SpringBoot操作笔记

sql的操作笔记

文件操作笔记

vi 操作笔记

python操作笔记

mongodb操作笔记

SQLServer操作笔记

Word 操作笔记

JDBC操作笔记

Oracle操作笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)