使用spark 对文本分词统计 - 代码天地

使用spark 对文本分词统计

企业开发 2018-05-11 14:36:04 阅读次数: 0

package com.snailteam.simple_project

import java.sql.DriverManager
import scala.collection.mutable.ArrayBuffer
import org.apache.spark.SparkContext
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
import com.huaban.analysis.jieba.JiebaSegmenter
import com.huaban.analysis.jieba.JiebaSegmenter.SegMode
import scala.collection.JavaConversions

/**
 * 使用spark集群计算的时候，将jieba的类都  implements Serializable
 *
 * ./bin/spark-submit  --class com.snailteam.simple_project.App --jars lib/mysql-connector-java-5.1.18.jar
 *
 *
 *
 */
object App {
  val url = "xx"
  val username = "xx"
  val password = "xx"
  def main(args: Array[String]): Unit = {
    //    val conf = new SparkConf()
    //      .setMaster("spark://192.168.56.102:7077")
    //      .setAppName("mysql_test")
    //    val sc = new SparkContext(conf)

    val sc = new SparkContext("local", "mysql")
    val seg = new JiebaSegmenter;
   val rdd = new JdbcRDD(  
      sc,  
      () => {  
        Class.forName("com.mysql.jdbc.Driver").newInstance()  
        DriverManager.getConnection(url, username, password)  
      },  
      "select * from book  limit ?,? ",  
      1, 10000000, 4)  
    var result = rdd.flatMap { x =>  
      {  
        var ts = seg.process(x(8).toString(), SegMode.SEARCH);  
        for(t<-JavaConversions.asScalaBuffer(ts)  if (t.word.getTokenType.contains("v") || t.word.getTokenType.contains("n") || t.word.getTokenType.contains("a")) ) yield t.word.getToken;  
      }  
    }.map { word => (word, 1) }.reduceByKey(_ + _).sortBy(f=>{f._2}, false).take(100);  
    result.foreach(println)
    sc.stop()  
  }
}

猜你喜欢

转载自xiaofancn.iteye.com/blog/2205024

使用spark 对文本分词统计

【Python】使用jieba对文本进行分词

bert分词工具-使用Bert自带的WordPiece分词工具将文本分割成单字

Android中使用Hanlp对文本进行分词以及提取关键词

python 基础教程：使用jieba库对文本进行分词

利用word分词来对文本进行词频统计

使用Spark进行排名统计

使用Spark实现词频统计

【python】英文文本分词词频统计

文本分词

聚类分析算法对文本分类之分词和构建词袋模型

spark复习笔记(3)：使用spark实现单词统计

使用Spark Streaming整合Spark SQL完成词频统计操作

spark的学习（1）之使用spark进行WordCount词数统计

.Net--- 大文件可使用的文本分组统计工具（附带源码，原创）

使用Scala实现Spark wordcount统计

使用Spark Streaming完成有状态统计

Spark的简单使用之WordCount统计

03 使用spark进行词频统计【python】

python--对文本分词去停用词提取关键词并词云展示完整代码示例

【Python】英文文本分词与词频统计（split()函数、re库）

NLTK健康领域英文文本分词、词性标注、词频统计

Python实现jieba对文本分词并写入新的文本文件，然后提取出文本中的关键词

转载：Spark 使用ansj进行中文分词

spark集群环境下使用hanlp进行中文分词

Spark中分布式使用HanLP（1.7.0)分词d

spark集群使用hanlp进行分布式分词操作

基于 spark ml NaiveBayes实现中文文本分类

用Spark-NLP建立文本分类模型

Spark 大数据中文分词统计（三） Scala语言实现分词统计

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)