代码天地

Spark采用jdbc的方式访问hive

这里需要导入一个jdbc-hive依赖需要注意的是，包的版本一定要确认好，切勿版本过高 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.2.1</version> </dependency> import java.sql.{DriverManager} impor

分类: 其他发布时间: 01-25 22:36 阅读次数: 0

sqoop import使用

一、sqoop作用？ sqoop是一个数据交换工具，最常用的两个工具是导入导出。导入导出的参照物是hadoop，向hadoop导数据就是导入。二、sqoop的版本？ sqoop目前有两个版本，1.4.X为sqoop1；1.99.X为sqoop2。两个版本不兼容。三、使用sqoop列出mysql下的所有数据库复制代码 (my_python_env)[root@hadoop26 ~]# sqoop list-databases --connect jdbc:mysql://localhos

分类: 其他发布时间: 01-25 22:36 阅读次数: 0

Sqoop全量数据导入、增量数据导入、并发导入

Sqoop支持两种方式的全量数据导入和增量数据导入，同时可以指定数据是否以并发形式导入。下面依次来看：全量数据导入就像名字起的那样，全量数据导入就是一次性将所有需要导入的数据，从关系型数据库一次性地导入到Hadoop中（可以是HDFS、Hive等）。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令，具体如下：全量数据导入 sqoop import –connect jdbc:mysql://192.168.xxx.xxx:3316/testdb –username

分类: 其他发布时间: 01-25 22:35 阅读次数: 0

kafka不丢失数据与不重复消费数据

一、不丢失数据 1.生产者数据不丢失同步模式：配置=1（只有Leader收到，-1所有副本成功，0不等待）。leader partition挂了，数据就会丢失。解决：设置为-1保证produce写入所有副本算成功　　　　　　　　　　producer.type=sync 　　　　　　　　　　request.required.acks=-1 异步模式，当缓冲区满了，如果配置为0（没有收到确认，一满就丢弃），数据立刻丢弃解决：不限制阻塞超时时间。就是一满生产者就阻塞　　　　　　　　　　pr

分类: 其他发布时间: 01-25 22:35 阅读次数: 0

使用spark程序将表数据写入es

引入依赖 <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>5.0.0-alpha5</version> </dependency> 查询表中的数据，这个表是一个结果表在scala命令中被注册 import org.apache.s

分类: 其他发布时间: 01-25 22:35 阅读次数: 0

回归算法之线性回归

先引入两个公式勾起大家的回忆 import org.apache.log4j.{Level, Logger} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD} import org.apache.spark.{SparkConf, SparkContext} object LinearRegr

分类: 其他发布时间: 01-25 22:35 阅读次数: 0

回归算法之逻辑回归

线性回归与逻辑回归的区别：比如要分析年龄，性别，身高，饮食习惯对于体重的影响，如果体重是实际的重量，那么就要使用线性回归。如果将体重分类，分成了高，中，低三类，就要使用逻辑回归进行分类。 import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS} import org.apache.spark.mllib.util.MLUtils import org.apache.spark.{SparkConf,

分类: 其他发布时间: 01-25 22:34 阅读次数: 0

分类算法之SVM

SVM算法与之前介绍的逻辑回归三方有点类似。。支持向量机(support vector machine)是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。具体原理：在n维空间中找到一个分类超平面，将空间上的点分类。如下图是线性分类

分类: 其他发布时间: 01-25 22:34 阅读次数: 0

大数据面试必问-快速理解Hive的数据存储格式及mapreduce底层原理

在大数据工程师面试时，下面这个题可谓是面试官的最爱，他考察了对于mapreduce框架以及hive的原理的理解，阅读完这篇文章，在面试这一类的问题时，就会胸有撑住了！在创建hive表时，会有这样一句：STORED AS TEXTFILE，这一句的作用，其实是 STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnore

分类: 其他发布时间: 01-25 22:34 阅读次数: 0

关于hbase、spark、hive使用时的优化问题

一、Hbase的优化 1、JVM优化： 1）如：HBase RegionServer 的 Java 配置选项 -XX:+UseParNewGC （设置年轻代为并行收集）-XX:+UseConcMarkSweepGC（使用CMS内存收集） -XX:CMSInitiatingOccupancyFraction=70（使用cms作为垃圾回收使用70％后开始CMS收集） -XX:+CMSParallelRemarkEnabled（降低标记停顿） -XX:+UseCompressedOops （压缩指针

分类: 其他发布时间: 01-25 22:33 阅读次数: 0

Spark的底层通信之Actor

Actor 能够实现并行编程的强大功能，它是基于事件模型的并发机制，Scala是运用消息的发送、接收来实现高并发的，Actor 可以看作是一个个独立的实体，他们之间是毫无关联的。但是，他们可以通过消息来通信。一个 Actor 收到其他 Actor 的信息后，它可以根据需要作出各种相应。消息的类型可以是任意的，消息的内容也可以是任意的（Scala Actor 是 scala 2.10.x 版本及以前版本的 Actor。Scala 在 2.11.x 版本中将 Akka 加入其中，作为其默认的 Ac

分类: 其他发布时间: 01-25 22:33 阅读次数: 0

分类算法之随机森林

随机森林也是非线性有监督的分类模型随机森林是由多个决策树组成。是用随机的方式建立一个森林，里面由很多决策树组成。随机森林中每一棵决策树之间都是没有关联的。得到随机森林之后，对于一个样本输入时，森林中的每一棵决策树都进行判断，看看这个样本属于哪一类，最终哪一类得到的结果最多，该输入的预测值就是哪一类。随机森林中的决策树生成过程是对样本数据进行行采样和列采样，可以指定随机森林中的树的个数和属性个数，这样当训练集很大的时候，随机选取数据集的一部分，生成一棵树，重复上面过程，可以生成一堆形态各异的

分类: 其他发布时间: 01-25 22:33 阅读次数: 0

Spark2.x资源调度源码再析之大白话系列

spark采用的粗粒度资源申请方式决定了每一个task在执行前不需要自己去申请资源，而是使用Application执行前都已经申请完毕的资源。那么资源调度的底层是如何实现的呢？当start-all.sh 的时候启动了两个脚本一个是start-master.sh 脚本中调用了org.apache.spark.deploy.master.Master这个类一个是start-slaves.sh 脚本中调用了org.apache.spark.deploy.worker.Worker这个类首先

分类: 其他发布时间: 01-25 22:32 阅读次数: 0

Kafka的Log存储原理再析

1、Partition中的分段存储Segment 一个partition被切割成多个相同大小的segment(这个是由log.segment.bytes 决定，控制每个segment的大小) 2、Partition中的Segment文件的数据结构接下来看下segment的存储结构 segment file组成：由2大部分组成，分别为index file和data file，此2个文件一一对应，成对出现，后缀”.index”和“.log”分别表示为segment索引文件、数据文件. segme

分类: 其他发布时间: 01-25 22:32 阅读次数: 0

Spark2.x任务调度源码再析之大白话系列

在一个提交的一个Application中，如果遇见Shuffle算子的时候，那么就会发生任务的调度，当我们初始化SparkContext的时候，就会为我们创建两个对象，一个是DAGScheduler，一个是TaskScheduler DAGScheduler中的实现在DAGScheduler中的doOnReceive()方法中，通过case 进行匹配事件类型，当匹配到JobSubmitted（job提交事件）的时候，会调用一个方法 dagScheduer.handlerJobSubmit

分类: 其他发布时间: 01-25 22:32 阅读次数: 0

IO流从入门到精通（一）

目录 File类的使用 1.关于文件路径的表示 2.File的构造器 3.绝对路径与相对路径 4.File类的创建和删除 5.File类的判断功能 6.File类的获取和修改名字功能 7.其它获取功能 8.案例：输出指定目录下所有的java文件名（包含子目录） 9.案例：删除指定的目录（包含子目录） File类的使用 1.关于文件路径的表示 String path; System.out.println(File.separatorChar); //路径的表示方法： //

分类: 其他发布时间: 01-25 22:31 阅读次数: 0

使用JDBC的三种连接方式查表

package day01; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; import org.junit.Test; public class TestJDBC { /** * 方式一建立连接：调用DriverManager.getConnection(

分类: 其他发布时间: 01-25 22:31 阅读次数: 0

多媒体网页相关标签

1.设置图像高度、宽度、边框 <img src="01.jpg" height="500" width="1000" border="5"/> 2.设置图像的水平间距、垂直间距。（图像与周边文字默认2px距离） <img src="01.jpg" hspace="20" vspace="20"/> hspace水平间距，vspace垂直间距 3.相对于文字的对齐方式 <img src="01.jpg" width="473" height="371" align="right"/> 4.设置图

分类: 其他发布时间: 01-25 22:31 阅读次数: 0

表格与框架

1.设置表格 <table> <tr> <td></td> <td></td> </tr> </table> tr 表示行 td 表示列该段代码实现了一行两列的表格 2.<table width="宽度" height="高度" table="对齐方式" border="边框" bordercolor="边框颜色" cellspacing="单元格间距值" cellpadding="单元格边距（文字与边框的距离）"> <caption>表格的标题</caption> <tr> <th>表头,

分类: 其他发布时间: 01-25 22:31 阅读次数: 0

《Java面向对象》"花为诗"（三）抽象类、接口及类与类的关系

一、抽象类由于继承这个显著特点，我们可以将子类设计的更加具体，而父类更加一般化，通用化。父类可以封装不同子类的共同特征或者共同行为.而有的时候，父类中封装的方法无法具体完成子类中需要的逻辑，因此我们可以将此方法设计成抽象方法，即使用关键字abstract进行修饰。而有抽象方法的类，也必须使用abstract关键字进行修饰，因此我们称之为抽象类 1、抽象方法与抽象类由abstract修饰的方法为抽象方法，抽象方法只有方法名的定义，没有方法体的实现，需要使用分号结尾若类中包含抽象方法，那么该

分类: 其他发布时间: 01-25 22:30 阅读次数: 0

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)