Spark采用jdbc的方式访问hive

这里需要导入一个jdbc-hive依赖 需要注意的是,包的版本一定要确认好,切勿版本过高 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.2.1</version> </dependency> import java.sql.{DriverManager} impor
分类: 其他 发布时间: 01-25 22:36 阅读次数: 0

sqoop import使用

一、sqoop作用? sqoop是一个数据交换工具,最常用的两个工具是导入导出。 导入导出的参照物是hadoop,向hadoop导数据就是导入。 二、sqoop的版本? sqoop目前有两个版本,1.4.X为sqoop1;1.99.X为sqoop2。两个版本不兼容。 三、使用sqoop列出mysql下的所有数据库 复制代码 (my_python_env)[root@hadoop26 ~]# sqoop list-databases --connect jdbc:mysql://localhos
分类: 其他 发布时间: 01-25 22:36 阅读次数: 0

Sqoop全量数据导入、增量数据导入、并发导入

Sqoop支持两种方式的全量数据导入和增量数据导入,同时可以指定数据是否以并发形式导入。下面依次来看: 全量数据导入 就像名字起的那样,全量数据导入就是一次性将所有需要导入的数据,从关系型数据库一次性地导入到Hadoop中(可以是HDFS、Hive等)。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令,具体如下: 全量数据导入 sqoop import –connect jdbc:mysql://192.168.xxx.xxx:3316/testdb –username
分类: 其他 发布时间: 01-25 22:35 阅读次数: 0

kafka不丢失数据与不重复消费数据

一、不丢失数据 1.生产者数据不丢失 同步模式:配置=1(只有Leader收到,-1所有副本成功,0不等待)。leader partition挂了,数据就会丢失。 解决:设置为-1保证produce写入所有副本算成功           producer.type=sync           request.required.acks=-1 异步模式,当缓冲区满了,如果配置为0(没有收到确认,一满就丢弃),数据立刻丢弃 解决:不限制阻塞超时时间。就是一满生产者就阻塞           pr
分类: 其他 发布时间: 01-25 22:35 阅读次数: 0

使用spark程序将表数据写入es

引入依赖 <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>5.0.0-alpha5</version> </dependency> 查询表中的数据,这个表是一个结果表 在scala命令中被注册 import org.apache.s
分类: 其他 发布时间: 01-25 22:35 阅读次数: 0

回归算法之线性回归

先引入两个公式勾起大家的回忆 import org.apache.log4j.{Level, Logger} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD} import org.apache.spark.{SparkConf, SparkContext} object LinearRegr
分类: 其他 发布时间: 01-25 22:35 阅读次数: 0

回归算法之逻辑回归

线性回归与逻辑回归的区别: 比如要分析年龄,性别,身高,饮食习惯对于体重的影响,如果体重是实际的重量,那么就要使用线性回归。如果将体重分类,分成了高,中,低三类,就要使用逻辑回归进行分类。 import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS} import org.apache.spark.mllib.util.MLUtils import org.apache.spark.{SparkConf,
分类: 其他 发布时间: 01-25 22:34 阅读次数: 0

分类算法之SVM

SVM算法与之前介绍的逻辑回归三方有点类似。。 支持向量机(support vector machine)是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 具体原理: 在n维空间中找到一个分类超平面,将空间上的点分类。如下图是线性分类
分类: 其他 发布时间: 01-25 22:34 阅读次数: 0

大数据面试必问-快速理解Hive的数据存储格式及mapreduce底层原理

在大数据工程师面试时,下面这个题可谓是面试官的最爱,他考察了对于mapreduce框架以及hive的原理的理解,阅读完这篇文章,在面试这一类的问题时,就会胸有撑住了! 在创建hive表时,会有这样一句:STORED AS TEXTFILE,这一句的作用,其实是 STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnore
分类: 其他 发布时间: 01-25 22:34 阅读次数: 0

关于hbase、spark、hive使用时的优化问题

一、Hbase的优化 1、JVM优化: 1)如:HBase RegionServer 的 Java 配置选项 -XX:+UseParNewGC (设置年轻代为并行收集)-XX:+UseConcMarkSweepGC(使用CMS内存收集) -XX:CMSInitiatingOccupancyFraction=70(使用cms作为垃圾回收使用70%后开始CMS收集) -XX:+CMSParallelRemarkEnabled(降低标记停顿) -XX:+UseCompressedOops (压缩指针
分类: 其他 发布时间: 01-25 22:33 阅读次数: 0

Spark的底层通信之Actor

Actor 能够实现并行编程的强大功能,它是基于事件模型的并发机制,Scala是运用消息的发送、接收来实现高并发的,Actor 可以看作是一个个独立的实体,他们之间是毫无关联的。但是,他们可以通过消息来通信。一个 Actor 收到其他 Actor 的信息后,它可以根据需要作出各种相应。消息的类型可以是任意的,消息的内容也可以是任意的(Scala Actor 是 scala 2.10.x 版本及以前版本的 Actor。Scala 在 2.11.x 版本中将 Akka 加入其中,作为其默认的 Ac
分类: 其他 发布时间: 01-25 22:33 阅读次数: 0

分类算法之随机森林

随机森林也是非线性有监督的分类模型 随机森林是由多个决策树组成。是用随机的方式建立一个森林,里面由很多决策树组成。随机森林中每一棵决策树之间都是没有关联的。得到随机森林之后,对于一个样本输入时,森林中的每一棵决策树都进行判断,看看这个样本属于哪一类,最终哪一类得到的结果最多,该输入的预测值就是哪一类。 随机森林中的决策树生成过程是对样本数据进行行采样和列采样,可以指定随机森林中的树的个数和属性个数,这样当训练集很大的时候,随机选取数据集的一部分,生成一棵树,重复上面过程,可以生成一堆形态各异的
分类: 其他 发布时间: 01-25 22:33 阅读次数: 0

Spark2.x资源调度源码再析之大白话系列

spark采用的粗粒度资源申请方式决定了每一个task在执行前不需要自己去申请资源,而是使用Application执行前都已经申请完毕的资源。 那么资源调度的底层是如何实现的呢? 当start-all.sh 的时候启动了两个脚本 一个是start-master.sh 脚本中调用了org.apache.spark.deploy.master.Master这个类 一个是start-slaves.sh 脚本中调用了org.apache.spark.deploy.worker.Worker这个类 首先
分类: 其他 发布时间: 01-25 22:32 阅读次数: 0

Kafka的Log存储原理再析

1、Partition中的分段存储Segment 一个partition被切割成多个相同大小的segment(这个是由log.segment.bytes 决定,控制每个segment的大小) 2、Partition中的Segment文件的数据结构 接下来看下segment的存储结构 segment file组成:由2大部分组成,分别为index file和data file,此2个文件一一对应,成对出现,后缀”.index”和“.log”分别表示为segment索引文件、数据文件. segme
分类: 其他 发布时间: 01-25 22:32 阅读次数: 0

Spark2.x任务调度源码再析之大白话系列

在一个提交的一个Application中,如果遇见Shuffle算子的时候,那么就会发生任务的调度,当我们初始化SparkContext的时候,就会为我们创建两个对象,一个是DAGScheduler,一个是TaskScheduler DAGScheduler中的实现 在DAGScheduler中的doOnReceive()方法中 ,通过case 进行匹配事件类型 ,当匹配到JobSubmitted(job提交事件)的时候,会调用一个方法 dagScheduer.handlerJobSubmit
分类: 其他 发布时间: 01-25 22:32 阅读次数: 0

IO流从入门到精通(一)

目录 File类的使用 1.关于文件路径的表示 2.File的构造器 3.绝对路径与相对路径 4.File类的创建和删除 5.File类的判断功能 6.File类的获取和修改名字功能 7.其它获取功能 8.案例:输出指定目录下所有的java文件名(包含子目录) 9.案例:删除指定的目录(包含子目录) File类的使用 1.关于文件路径的表示 String path; System.out.println(File.separatorChar); //路径的表示方法: //
分类: 其他 发布时间: 01-25 22:31 阅读次数: 0

使用JDBC的三种连接方式查表

package day01; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; import org.junit.Test; public class TestJDBC { /** * 方式一建立连接:调用DriverManager.getConnection(
分类: 其他 发布时间: 01-25 22:31 阅读次数: 0

多媒体网页相关标签

1.设置图像高度、宽度、边框 <img src="01.jpg" height="500" width="1000" border="5"/> 2.设置图像的水平间距、垂直间距。(图像与周边文字默认2px距离) <img src="01.jpg" hspace="20" vspace="20"/> hspace水平间距,vspace垂直间距 3.相对于文字的对齐方式 <img src="01.jpg" width="473" height="371" align="right"/> 4.设置图
分类: 其他 发布时间: 01-25 22:31 阅读次数: 0

表格与框架

1.设置表格 <table> <tr> <td></td> <td></td> </tr> </table> tr 表示行 td 表示列 该段代码实现了一行两列的表格 2.<table width="宽度" height="高度" table="对齐方式" border="边框" bordercolor="边框颜色" cellspacing="单元格间距值" cellpadding="单元格边距(文字与边框的距离)"> <caption>表格的标题</caption> <tr> <th>表头,
分类: 其他 发布时间: 01-25 22:31 阅读次数: 0

《Java面向对象》"花为诗"(三)抽象类、接口及类与类的关系

一、抽象类 由于继承这个显著特点,我们可以将子类设计的更加具体,而父类更加一般化,通用化。父类可以封装不同子类的共同特征或者共同行为.而有的时候,父类中封装的方法无法具体完成子类中需要的逻辑,因此我们可以将此方法设计成抽象方法,即使用关键字abstract进行修饰。而有抽象方法的类,也必须使用abstract关键字进行修饰,因此我们称之为抽象类 1、抽象方法与抽象类 由abstract修饰的方法为抽象方法,抽象方法只有方法名的定义,没有方法体的实现,需要使用分号结尾 若类中包含抽象方法,那么该
分类: 其他 发布时间: 01-25 22:30 阅读次数: 0