Yarn关于MR的资源管理

Kylin在#4 Step Name: Build Dimension Dictionary步骤,速度极其慢,查看MR任务的日志如下:2014-07-04 17:30:37,492 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Recalculating sc...
分类: 其他 发布时间: 09-14 22:42 阅读次数: 0

mac操作(添加路由)

route -n add -net 10.111.2.0 -netmask 255.255.255.0 192.168.0.241这几个ip依次代表:进入的网段,子网掩码,网关
分类: 其他 发布时间: 09-14 22:42 阅读次数: 0

java.net.SocketException: Broken pipe报错可能的原因

链接1Broken pipe产生的原因通常是当管道读端没有在读,而管道的写端继续有线程在写,就会造成管道中断。(由于管道是单向通信的) SIGSEGV(Segment fault)意味着指针所对应的地址是无效地址,没有物理内存对应该地址。 以下是UNIX的信号解释: 11 / SIGSEGV: Unerlaubter Zugriff auf Hauptspeicher (Adressfehle...
分类: 其他 发布时间: 09-14 22:42 阅读次数: 0

Hive数据倾斜解决方案

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均...
分类: 其他 发布时间: 09-14 22:41 阅读次数: 0

大数据常见问题汇总

1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh...
分类: 其他 发布时间: 09-14 22:41 阅读次数: 0

Kylin:Cube设计与优化

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是Kylin的架构图: &nbs...
分类: 其他 发布时间: 09-14 22:41 阅读次数: 0

有监督学习、无监督学习和半监督学习的区别

一、基本概念1 特征(feature) 数据的特征。举例:书的内容2 标签(label) 数据的标签。举例:书属于的类别...
分类: 其他 发布时间: 09-14 22:40 阅读次数: 0

hive的UDF开发部署

添加maven依赖 <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <versi...
分类: 其他 发布时间: 09-14 22:40 阅读次数: 0

mac在虚拟机VirtualBox中配置host-only方式

进入VirtualBox中的设置–网络,选择『仅主机(host-only)适配器』,但是界面名称为未指定(如图),无法设置,需要在VirtualBox的偏好设置中进行添加host-only配置,就像windows vnet1和8一样。打开VirtualBox,然后进入偏好设置。然后进行添加host-only网卡,进行ip地址配置点击+号图标进行添加,点击工具图标...
分类: 其他 发布时间: 09-14 22:39 阅读次数: 0

kerberos+sentry集成hive测试

kerberos:进入kerberos命令行[root@quickstart opt]# kadmin.local Authenticating as principal test/admin@CLOUDERA with password.查看所有的principalkadmin.local: list_principalsHTTP/quickstart.cloudera...
分类: 其他 发布时间: 09-14 22:39 阅读次数: 0

Spark textFile生成task数目和RDD的数目分析

当我们使用Spark读取文件的时候,感觉很容易,也很快速。但是,我们想过其中实现的内在原理没? 目前我总结了,四个小问题,作为思考。 1).RDD创建个数 2).当我们使...
分类: 其他 发布时间: 09-14 22:39 阅读次数: 0

解决hive注释中文乱码的

hive中建表以后,desc [tablename]查看表结构,发现表结构的中文字段为乱码。原因是hive的元数据是由Mysql管理,所以直接修改Mysql的字符编码格式就可以解决,数据库 Metastore 中执行以下 5 条 SQL 语句: (1)修改...
分类: 其他 发布时间: 09-14 22:39 阅读次数: 0

kylin的cube planner

kylin简介 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。整体架构如下: &n...
分类: 其他 发布时间: 09-14 22:38 阅读次数: 0

java:==、equals、equalsIgnoreCase的作用以及区别

1. ==“==”是关系运算符,结果返回布尔值“==”使用情况如下:​ a)基本类型,比较的是值​ b)引用类型,比较的是地址​ c)不能比较没有父子关系的两个对象2. equalsequals()是方法,结果返回布尔值object方法的源...
分类: 其他 发布时间: 09-14 22:38 阅读次数: 0

Hive的mapjoin原理与参数说明

一、 Map Join原理Map Join介绍MapJoin顾名思义,就是在Map阶段进行表之间的连接,map阶段直接拿另外一个表的数据和内存中表数据做匹配。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。通常用于一个很小的表和一个大表进行join的场景。MapJoin的原理及过程执行过程如上图:首先是在...
分类: 其他 发布时间: 09-14 22:38 阅读次数: 0

Flink 1.10: Cannot find compatible factory for specified execution.target (=local)

flink1.10的一个本地Demo测试过程中出现的一个问题,很简单的一段Word Count问代码:package flink.ioimport org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.api.scala._objec...
分类: 其他 发布时间: 09-14 22:38 阅读次数: 0

ClickHouse中文文档

官网:https://clickhouse.tech/中文文档:https://clickhouse.tech/docs/zh/
分类: 其他 发布时间: 09-14 22:37 阅读次数: 0

大数据面试题(附答案,持续更新...)

说说对hadoop的理解,都有哪些组件,分别是干什么的还了解大数据其他组件嘛?kafka在什么地方需要用到zookeeper了解HBase吗?说下spark中的transform和action为什么spark要把操作分为transform和actionspark中有了RDD,为什么还要有Dataframe和DataSet?了解函数式编程吗?说下c/c++和scala这种函数式编程语...
分类: 其他 发布时间: 09-14 22:37 阅读次数: 0

Solr+Hbase+Hbase Indexer查询方案流程整合(转载)

转载:https://blog.csdn.net/qq_34842671/article/details/86496983 概述亿级数据多条件组合查询——秒级响应解决方案简述了Hbase+Solr的亿级数据多条件组合查询的解决方案,但是当时并未
分类: 其他 发布时间: 09-14 22:37 阅读次数: 0

HIVE数据导入CLICKHOUSE

import java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject HiveToClickHouseDF { final val USERNAME = "root" final val PASSWORD = "LdouQdtmc3AClWD" final val APPNAME = "HiveToClickHouseDF-JOB" fin
分类: 其他 发布时间: 09-14 22:37 阅读次数: 0