大数据学习整理篇(一)windows下R以及RStudio乱码问题以及Ubuntu 16.04下mahout 0.14.0 成功运行(成功版)

1.RStudio代码保存设置为UTF-8

2.打开Utf-8的文本验证下

3.使用R语言的read.csv,要加上文本编码格式,比如:

listing <- read.csv("D:\\listing-segmented-shuffled.txt", fileEncoding = "UTF-8",stringsAsFactors = FALSE, sep='\t')

4.使用str(listing)可以看到是中文显示

5.mahout下载最新的release包会报错,我这边是mahout 0.14.0版本,直接在ubuntu 16.04下面运行,报Could not find the main class: org.apache.mahout.driver.MahoutDriver错误,解决方法如下:

mkdir mahout
cd mahout/
svn co http://svn.apache.org/repos/asf/mahout/trunk
cd trunk/
mvn compile
mvn install -Dmaven.test.skip=true

6.在/etc/profile下面添加如下说明

export MAHOUT_HOME=/opt/mahout/trunk
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export MAVEN_HOME=/opt/apache-maven-3.6.3
export PATH=$PATH:$MAHOUT_HOME/bin:$JAVA_HOME/bin:$MAVEN_HOME/bin
export MAHOUT_LOCAL=1
export MAHOUT_HEAPSIZE=1000

7.文章中的java安装和maven安装省略,请大家参考别人文档进行安装。

8.使用

#>mahout seqdirectory -i 输入目录 -o 输出目录 -w (进行验证,这个是举例子,后面我会详细介绍具体用法)

猜你喜欢

转载自blog.csdn.net/penker_zhao/article/details/106815702