Hadoop集群中增加与ElasticSearch连接的操作 - 代码天地

Hadoop集群中增加与ElasticSearch连接的操作

其他 2018-05-29 20:42:40 阅读次数: 0

在没有引入elasticsearch-hadoop-xxx.jar相应的Jar包时，的在Hive中执行ElasticSearch外部表操作，会报如下的异常：

[plain] view plain copy

Exception in thread "main" java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "ip-172-17-30-146/172.17.30.146"; destination host is: "ip-172-17-30-146":9000;

通过Spark查看执行任务的MR日志，报错如下：

[plain] view plain copy

.hadoop.mapreduce.v2.app.MRAppMaster failed in state INITED; cause: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.elasticsearch.hadoop.mr.EsOutputFormat not found
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.elasticsearch.hadoop.mr.EsOutputFormat not found

此时报的是Yarn服务器上面找不到ES-Hadoop相关的类，此时需要做的将elasticsearch-hadoop-xxx.jar增加到Hadoop相关应用的环境中，根据目前我所用到的环境，需要增加的应用有：

[plain] view plain copy

1.Hive
2.Spark
3.Yarn

需要将elasticsearch-hadoop-xxx.jar增加到所有服务器这些应用的环境中，然后重新执行执行就不会报这个问题了。

另外：目前我的做法是手动将elasticsearch-hadoop-6.2.4.jar一台一台复制到Yarn服务器的lib目录下，不知道CDH是否有简化的管理功能，可以直接上传对应的Jar包？

为了操作上的操作，我准备了一个批命令，命令记录如下：

[plain] view plain copy

#/data/share_libs是我的第三共享jar包的目录
cd /data/share_libs
wget https://artifacts.elastic.co/downloads/elasticsearch-hadoop/elasticsearch-hadoop-6.2.4.zip
unzip elasticsearch-hadoop-6.2.4.zip
cd elasticsearch-hadoop-6.2.4/dist
#注：这里不要把所有elasticsearch-hadoop*.jar文件都拷贝过去了，否则Yarn中会报这些不同的Jar包的版本冲突
mv elasticsearch-hadoop-6.2.4.jar /opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/jars/
cd /data/share_libs
#删除不必要的资源
rm -f elasticsearch-hadoop-6.2.4.zip
rm -rf elasticsearch-hadoop-6.2.4
#注：目录/data/share_libs，在Spark中设置为了其第三库的目录，在Hive中也设置为了其auxlib目录，因而在这里建立软件链接后，Spark和Hive都可以使用
#Spark中设置第三库的目录，可以参看前面一篇文章：https://blog.csdn.net/fenglibing/article/details/80437246
ln -s /opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/jars/elasticsearch-hadoop-6.2.4.jar elasticsearch-hadoop-6.2.4.jar
cd /opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/lib/hadoop-yarn/lib
ln -s /opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/jars/elasticsearch-hadoop-6.2.4.jar elasticsearch-hadoop-6.2.4.jar

以下是通过创建一个外部表，然后测试查询的语句：

[sql] view plain copy

create external table test_in_es
(
id string,
k string,
v string
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES(
'es.nodes' = 'http://vpc-es-xxxxxxxxx.eu-west-1.es.amazonaws.com:80',
'es.index.auto.create' = 'false',
'es.nodes.wan.only' = 'true',
'es.resource' = 'test/test',
'es.read.metadata' = 'true',
'es.mapping.names' = 'id:_metadata._id,k:k, v:v');
select * from test_in_es;
如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。

猜你喜欢

转载自www.cnblogs.com/h12l4/p/9107714.html

Hadoop集群中增加与ElasticSearch连接的操作

Hadoop集群中增加新节点

hadoop 集群增加机器

hadoop及hbase集群增加节点

eclipse与Hadoop集群连接

eclipse连接hadoop集群

IDEA连接hadoop集群

elasticsearch 集群命令操作

Elasticsearch集群基本操作

Elasticsearch -----集群操作

ElasticSearch集群API操作

为Hadoop集群增加新节点

Hadoop集群，不重启增加机器

hadoop集群——动态增加（删除）数据节点

hadoop集群动态删除或增加节点

Elasticsearch(008)：es中cluster(集群)的查看、状态、操作

ElasticSearch学习（7）-Java连接ElasticSearch集群

Kettle 7.1 连接Hadoop集群

IntelliJ IDEA连接Hadoop集群

eclipse连接Hadoop集群，找不到在Preferences中找不到Hadoop Map/Reduce

【elasticsearch】elasticsearch集群更换节点操作

Elasticsearch 简单操作（集群管理）

【java操作Elasticsearch之增加记录】

hadoop 集群安全模式操作

Hadoop集群安装的简易操作

hadoop集群Hadoop client 不在同一网段；本地eclipse连接云服务器hadoop集群，无法上传下载文件等操作；

hadoop集群ssh集群免密操作

redis集群操作：增加和减少节点

Ambari-Hadoop集群、Elasticsearch集群及nginx安装

elasticsearch中给类型增加新字段

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)