Mahout之文本向量化 - 代码天地

Mahout之文本向量化

企业开发 2018-05-13 18:34:11 阅读次数: 0

背景：

进行文本挖掘的时候，无论是聚类还是相似计算首先需要向量化。

思路：

对于某一文本计算完其tf(tf-idf)之后生成word->tf(tf-idf)的对应表，那么构造成向量记做:

v=（a1，a2，…，an）此为为n维向量。a1...an为tf(tf-idf)，同时我们把word转换成int来作为下标。

实现：

	/**
	 * vector转换
	 * 
	 * @param map 单词和词频map
	 * @param otherInfo 用于保存的其他信息
	 * @return Vector
	 */
	public static Vector vector(Map<String, Double> map, String otherInfo) {
		Vector vector = new RandomAccessSparseVector(Integer.MAX_VALUE);
		NamedVector nv = new NamedVector(vector, otherInfo);
		Iterator<Entry<String, Double>> iterator = map.entrySet().iterator();
		while (iterator.hasNext()) {
			Entry<String, Double> entry = iterator.next();
			nv.setQuick(entry.getKey().hashCode(), entry.getValue());
		}
		return vector;
	}

PS：可以根据自己的需要选择相应的Vector实现类.

猜你喜欢

转载自snv.iteye.com/blog/1874179

Mahout之文本向量化

Mahout文本向量化

文本向量化

文本向量化---从向量到向量（tfidf）

文本向量化------从文本到向量

文本挖掘预处理之向量化与Hash Trick

Mahout TF-IDF向量化源码解析

7. 文本向量化

文本向量化（理论篇）

文本向量化笔记（一）

文本向量化笔记（三）

mahout将文本数据转化成向量形式

文本特征提取和向量化

NLP | 文本特征向量化方法

sklearn文本向量化工具

【458】keras 文本向量化 Vectorization

深度学习之向量化

线性回归之向量化

1. 文本相似度计算-文本向量化

文本相似度算法：文本向量化+距离公式

NLP之文档向量化算法综述

Python自然语言处理实战（7）：文本向量化

文本型数据的向量化:TF-IDF

自然语言处理--中文文本向量化counterVectorizer()

Python机器学习(4)——文本特征抽取与向量化

自然语言语言处理（二）：文本的向量化

文本向量化 - 词袋模型， N-gram 特征

基于TF-IDF文本向量化的垃圾短信识别

pandas-向量化文本-str.lower()

向量化

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)