Spark Mlib(四)用spark计算tf-idf值 - 代码天地

Spark Mlib(四)用spark计算tf-idf值

其他 2018-11-13 02:08:58 阅读次数: 0

tf-idf算法是用统计的手法衡量一个元素在一个集合中的重要程度。在自然语言处理中，该算法可以衡量一个词在语料中的重要程度。其本思想很简单，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。下面是spark官网（http://spark.apache.org/docs/latest/ml-features.html#tf-idf）给出的例子

package alg
import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
import org.apache.spark.sql.SparkSession

object tfidf {


  def main(args:Array[String]):Unit={


    val spark: SparkSession = SparkSession.builder
      .appName("My")
      .master("local[*]")
      .getOrCreate()

    val sentenceData = spark.createDataFrame(Seq(
      (0.0, "Hi I heard about Spark"),
      (0.0, "I wish Java could use case classes"),
      (1.0, "Logistic regression models are neat")
    )).toDF("label", "sentence")

    val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
    val wordsData = tokenizer.transform(sentenceData)

    val hashingTF = new HashingTF()
      .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)

    val featurizedData = hashingTF.transform(wordsData)
    // alternatively, CountVectorizer can also be used to get term frequency vectors

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
    val idfModel = idf.fit(featurizedData)

    val rescaledData = idfModel.transform(featurizedData)

    rescaledData.collect().foreach(print(_))
    //rescaledData.select("label", "features").show()
  }

}

猜你喜欢

转载自blog.csdn.net/fightingdog/article/details/83865701

Spark Mlib(四)用spark计算tf-idf值

【Spark】TF-IDF

Spark实现tf-idf

Spark实现TF-IDF——文本相似度计算

Spark 学习笔记 TF-IDF

TF-IDF原理及spark使用

使用spark TF-IDF特征计算文章间相似度

大数据课程K15——Spark的TF-IDF计算Term权重

spark中TF-IDF的理解及其使用

使用spark tf-idf 提取文章的关键字

Spark Mlib(七)用spark实现LogisticRegression

Spark MLlib 特征抽取、转化和选择 -- 特征抽取1 TF-IDF(HashingTF and IDF)

spark

spark：

【spark】

Spark Mlib(六)用spark实现贝叶斯分类器

Spark Mlib(五)用spark n元模型

Spark Mlib(三)用spark训练词向量

Spark-基于scala实现文章特征提取(TF-IDF)

spark TF-IDF特征提取生成文章关键词

使用Spark完成基于TF-IDF特征的新闻热点聚类

Spark文本特征提取（TF-IDF/Word2Vec/CountVectorizer）

spark mlib系列2

Spark Mlib(一) svm

【Spark】Spark七： Spark概述

Spark（四） -- Spark工作机制

Spark（四）Spark 键值对操作

计算利器Spark——Spark概述

spark-broadcast in spark

Spark: Spark Streaming

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)