spark集群使用hanlp进行分布式分词操作

其他 2018-12-16 12:32:30 阅读次数: 0

分两步：

第一步：实现hankcs.hanlp/corpus.io.IIOAdapter

public class HadoopFileIoAdapter implements IIOAdapter {

    @Override
    public InputStream open(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        return fs.open(new Path(path));
    }

    @Override
    public OutputStream create(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        OutputStream out = fs.create(new Path(path));
        return out;
    }
}

第二步：修改配置文件。root为hdfs上的数据包，把IOAdapter改为咱们上面实现的类

ok，这样你就能在分布式集群上使用hanlp进行分词了。

希望能帮到需要的朋友。。

猜你喜欢

转载自blog.csdn.net/qq_33872191/article/details/84963310

spark集群使用hanlp进行分布式分词操作

spark集群使用hanlp进行分布式分词操作说明

Spark中分布式使用HanLP（1.7.0)分词d

Hanlp分词1.7版本在Spark中分布式使用记录

spark集群环境下使用hanlp进行中文分词

HBase实战（5）：Spark SQL+Hive +HBASE 使用Spark 操作分布式集群HBASE

使用docker搭建虚拟分布式spark集群__笔记

使用docker搭建spark分布式集群

spark集群搭建（完全分布式）

Spark分布式集群环境搭建

spark分布式集群安装

Spark完全分布式集群搭建

spark分布式集群部署

安装spark伪分布式集群+spark版本的wordcount

Spark HA完全分布式集群集群

kafka分布式集群的操作

iServer集成Hadoop YARN集群进行分布式分析操作说明

Spark 1.6.1分布式集群环境搭建

docker内搭建spark分布式集群（python）

Spark2.1.0分布式集群安装

Spark分布式集群的搭建和运行

Hadoop+Spark分布式集群环境搭建

Spark分布式集群搭建及注意事项

Spark分布式集群部署及HA配置

Spark+Scala完全分布式集群搭建过程

Spark的介绍及伪分布式集群的搭建

干货分享：Python搭建Spark分布式集群环境

分布式计算框架Spark集群实战

lucene使用hanlp分词

分布式与集群

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)