1.RStudio代码保存设置为UTF-8
2.打开Utf-8的文本验证下
3.使用R语言的read.csv,要加上文本编码格式,比如:
listing <- read.csv("D:\\listing-segmented-shuffled.txt", fileEncoding = "UTF-8",stringsAsFactors = FALSE, sep='\t')
4.使用str(listing)可以看到是中文显示
5.mahout下载最新的release包会报错,我这边是mahout 0.14.0版本,直接在ubuntu 16.04下面运行,报Could not find the main class: org.apache.mahout.driver.MahoutDriver错误,解决方法如下:
mkdir mahout
cd mahout/
svn co http://svn.apache.org/repos/asf/mahout/trunk
cd trunk/
mvn compile
mvn install -Dmaven.test.skip=true
6.在/etc/profile下面添加如下说明
export MAHOUT_HOME=/opt/mahout/trunk
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export MAVEN_HOME=/opt/apache-maven-3.6.3
export PATH=$PATH:$MAHOUT_HOME/bin:$JAVA_HOME/bin:$MAVEN_HOME/bin
export MAHOUT_LOCAL=1
export MAHOUT_HEAPSIZE=1000
7.文章中的java安装和maven安装省略,请大家参考别人文档进行安装。
8.使用
#>mahout seqdirectory -i 输入目录 -o 输出目录 -w (进行验证,这个是举例子,后面我会详细介绍具体用法)