まず、トレーニングコンテンツ
- データ読み出し動作を実行する前に、適切なパッケージファイルをダウンロードし、ロードするために必要です。
- スキャン()メソッドを使用して、R言語は、TXTファイルは、外部の実験データセットのコンテンツから読み出さ。
- この実験は、望ましくない文字の長さの要件をフィルタリングし、入力された単語分割へのデータセットが必要です。統計的単語頻度後、デジタルフィルタリング動作は依然として大きい順に、最後の言葉を行うことができます。
- データセットの単語の後、単語頻度統計は、パッケージwordcloudを使用するために、データは、単語の雲の絵や写真を生成するように設定しました。
第二に、実験対象の目標
- ようにダウンロード、負荷とを含むパッケージ、の基本的な操作を習得するために必要。一方、から設定された各コンテンツデータがバイナリテキストファイルを読み込みます。
- データ処理、マスターキー単語、単語頻度統計、フィルタリングおよび方法をソート、および制御に対応する機能パラメータの過程において。
- 基本的な原則のワードクラウド生成された画像だけでなく、基本的な実装、データセットのアプリケーションのさまざまなタイプのための柔軟性の深い理解。同時に、変換プロセスマスタデータセットは、画像を生成しました。
第三に、実験的なプラットフォーム
1、システム:Windowsの10
インテル(R)Core(TM)i7-7500U CPU @ 2.70GHz 2.90 GHzの
RAM 8.00ギガバイト
2.ツール:
R x64の3.6.1
notepad.exeを
日食
単語2016
第四に、実装手順
1)データを読み込み
図1に示すように、スイッチワークスペース言語をR。まず、Cに:現在のR言語プログラムのワークスペースを取得するために、)getwd(:\ディレクトリに、ワークスペースの新規フォルダを作成し、オープンR x64の3.6.1は、コマンドを入力します。入力コマンド:setwd(「C:/ワークスペース」)、成功したハンドオーバを確認するように結合された作業ディレクトリワークスペースR言語、など。
図のワークスペーススイッチ4-1
2、jiebaRパッケージをダウンロードしてください。install.packagesは( "jiebaR")、ダウンロード 'jiebaR' パッケージ:Rでコマンドを入力し、3.6.1プログラムをX64。ポップアップミラーのオプションでは、中国(上海)[HTTPS]上海のサーバーを選択します。ダウンロードが完了すると、効果は図4-2に示します。
図4-2ダウンロードjiebaR成功
パッケージが完成し、ダウンロードした後、完成downloadコマンドを入力した後、RGui(64ビット)を自動的にダウンロードしてインストールチェックの依存関係「jiebaRD」と「Rcpp」パッケージ、R言語が開き、MD5を使用してチェック。
図3は、第2の方法のステップを使用して、ダウンロードパッケージをwordcloud。R x64の3.6.1プログラムでは、コマンドを入力します。install.packagesは( "wordcloud")を、ダウンロードパッケージを "wordcloud"。ポップアップミラーのオプションでは、上海のサーバを選択し続けます。
図4-3ダウンロードwordcloud成功
図3は、パッケージをロードすることはjiebaRとwordcloudバッグをダウンロードされています。次のコマンドを入力します。ライブラリー(「Rserve」)は、Rserveパッケージをロードします。次のコマンドを入力します。ライブラリー(「wordcloud」)、負荷wordcloudパッケージ。そして、パッケージがロードされているかどうかを確認するために(.packagesを())を使用。
図4-4ローダー・パッケージに成功
5、ファイルからデータを読み込みます。データは=「」読み取るための文字列の種類を表すもの、セパレータ「\ n」が読み込まれます。コマンドを入力します。f < - スキャン( 'C:/Users/Raodi/Desktop/snx.txt',sep =' \ n 'は、何='「)
ファイルから図4-5負荷データ
2)データ処理
1、単語。TXT <-qseg [F]:使用QSEGタイプのデータは、ワード、コマンドを入力します。
2、フィルタ文字長。コマンドを使用します。TXT <-txt [NCHAR(TXT)> 1]を、文字長の単語の除去は2未満です。
3、统计词频。使用命令:txt<-table(txt),对已经规约词长的数据进行词频统计。
4、过滤数字。单个数值字符在词云中是无意义的,所以要对数字进行过滤。使用命令:txt<-txt[!grepl('[0-9]+',names(txt))],批量去除数据集中的数字。
5、查看处理完后剩余的词数。使用命令:length(txt)。
6、降序排序,并提取出现次数最多的前100个词语。使用命令:txt<-sort(txt, decreasing = TRUE)[1:100] ,进行降序排序,并提取出现次数最多的前100个词语。
7、查看100个词频最高的词语。
4-6 数据处理
3) 词云制作
1、设置生成的词云图片的属性。使用命令:png("snxcloud.png", width = 500, height = 500) ,在R语言当前的工作目录下,生成高和宽都是500的snxcloud.png图片。
2、设置该图片的背景颜色为黑色:par(bg = "black")
3、对数据集进行wordcloud()函数运算。命令如下:
wordcloud(names(txt), txt, colors = rainbow(100), random.order=F)
4、保存数据集产生snxcloud.png图片。命令:dev.off()
图4-7制作词云图片
图4-8 工作目录中生成词云图片
运行以上代码后,即可在工作空间得到snxcloud.png文件,如下图:
图4-9 snxcloud.png
五、 实验成果
当在实验的过程中,出现图5-1的效果时,则表示在R语言程序中,从文件读入数据、分词、过滤字符长度和统计词频等数据处理操作,以及词云图片的生成没有问题。即,上述的实验步骤操作正确。
图5-1 实验操作正确
如图5-2所示,在R的工作目录下成功生成了snxcloud.png词云文件,也再次验证了上述的实验操作正确,并能生成相应的词云文件。
图5-2 工作目录生成文件
本实验最终得到的词云,效果如图5-3所示:
图5-3 实验的词云成品
六、 实训总结
关于本次实验的经验收获和实验总结,可分点总结如下:
- 经过本实验,可得出结论:jiebaR是一款高效的R语言中文分词包,而Wordcloud包在做词语分析时并没有多大的作用。Wordcloud包就是一个可以使词频以图形的形式展示的软件包,它可以通过改变词云的形状和颜色,使得分析结果锦上添花。
- 本实验的关键在于,对数据集进行分词、词频统计、过滤和排序等数据处理的过程和方法,生成词云图片只是对已经处理的数据集以图片的方式进行保存。
- 本实验中,需要将数据集中的数字进行过滤。因为经过分词器的处理,单个数值字符在生成的词云中难以分辨含义和方向,即缺乏无意义的,所以需要将数字进行过滤处理。
- 生成词云的方法远不止本实验中的这种,方法其实还有很多,如:wordcloud2。但是从整体来说,方法和基本的原理是类似的,至于操作步骤也可以举一反三,灵活变通。