R言語 - テストレポート - 分析と単語雲を発生させます

まず、トレーニングコンテンツ

  1. データ読み出し動作を実行する前に、適切なパッケージファイルをダウンロードし、ロードするために必要です。
  2. スキャン()メソッドを使用して、R言語は、TXTファイルは、外部の実験データセットのコンテンツから読み出さ。
  3. この実験は、望ましくない文字の長さの要件をフィルタリングし、入力された単語分割へのデータセットが必要です。統計的単語頻度後、デジタルフィルタリング動作は依然として大きい順に、最後の言葉を行うことができます。
  4. データセットの単語の後、単語頻度統計は、パッケージwordcloudを使用するために、データは、単語の雲の絵や写真を生成するように設定しました。

 

 

第二に、実験対象の目標

  1. ようにダウンロード、負荷とを含むパッケージ、の基本的な操作を習得するために必要。一方、から設定された各コンテンツデータがバイナリテキストファイルを読み込みます。
  2. データ処理、マスターキー単語、単語頻度統計、フィルタリングおよび方法をソート、および制御に対応する機能パラメータの過程において。
  3. 基本的な原則のワードクラウド生成された画像だけでなく、基本的な実装、データセットのアプリケーションのさまざまなタイプのための柔軟性の深い理解。同時に、変換プロセスマスタデータセットは、画像を生成しました。

 

 

 

第三に、実験的なプラットフォーム

  1、システム:Windowsの10

          インテル(R)Core(TM)i7-7500U CPU @ 2.70GHz 2.90 GHzの

        RAM 8.00ギガバイト

  2.ツール:

          R x64の3.6.1   

  notepad.exeを 

  日食

  単語2016

 

 

 

第四に、実装手順

1)データを読み込み

図1に示すように、スイッチワークスペース言語をR。まず、Cに:現在のR言語プログラムのワークスペースを取得するために、)getwd(:\ディレクトリに、ワークスペースの新規フォルダを作成し、オープンR x64の3.6.1は、コマンドを入力します。入力コマンド:setwd(「C:/ワークスペース」)、成功したハンドオーバを確認するように結合された作業ディレクトリワークスペースR言語、など。

図のワークスペーススイッチ4-1

 

2、jiebaRパッケージをダウンロードしてください。install.packagesは( "jiebaR")、ダウンロード 'jiebaR' パッケージ:Rでコマンドを入力し、3.6.1プログラムをX64。ポップアップミラーのオプションでは、中国(上海)[HTTPS]上海のサーバーを選択します。ダウンロードが完了すると、効果は図4-2に示します。

    

図4-2ダウンロードjiebaR成功

  パッケージが完成し、ダウンロードした後、完成downloadコマンドを入力した後、RGui(64ビット)を自動的にダウンロードしてインストールチェックの依存関係「jiebaRD」と「Rcpp」パッケージ、R言語が開き、MD5を使用してチェック。

 

 

図3は、第2の方法のステップを使用して、ダウンロードパッケージをwordcloud。R x64の3.6.1プログラムでは、コマンドを入力します。install.packagesは( "wordcloud")を、ダウンロードパッケージを "wordcloud"。ポップアップミラーのオプションでは、上海のサーバを選択し続けます。

図4-3ダウンロードwordcloud成功

 

図3は、パッケージをロードすることはjiebaRとwordcloudバッグをダウンロードされています。次のコマンドを入力します。ライブラリー(「Rserve」)は、Rserveパッケージをロードします。次のコマンドを入力します。ライブラリー(「wordcloud」)、負荷wordcloudパッケージ。そして、パッケージがロードされているかどうかを確認するために(.packagesを())を使用。

図4-4ローダー・パッケージに成功

 

5、ファイルからデータを読み込みます。データは=「」読み取るための文字列の種類を表すもの、セパレータ「\ n」が読み込まれます。コマンドを入力します。f < - スキャン( 'C:/Users/Raodi/Desktop/snx.txt',sep =' \ n 'は、何='「)

 

ファイルから図4-5負荷データ

 

2)データ処理

1、単語。TXT <-qseg [F]:使用QSEGタイプのデータは、ワード、コマンドを入力します。

2、フィルタ文字長。コマンドを使用します。TXT <-txt [NCHAR(TXT)> 1]を、文字長の単語の除去は2未満です。

3、统计词频。使用命令:txt<-table(txt),对已经规约词长的数据进行词频统计。

4、过滤数字。单个数值字符在词云中是无意义的,所以要对数字进行过滤。使用命令:txt<-txt[!grepl('[0-9]+',names(txt))],批量去除数据集中的数字。

5、查看处理完后剩余的词数。使用命令:length(txt)。

6、降序排序,并提取出现次数最多的前100个词语。使用命令:txt<-sort(txt, decreasing = TRUE)[1:100]  ,进行降序排序,并提取出现次数最多的前100个词语。

7、查看100个词频最高的词语。


  

4-6 数据处理

3)    词云制作

1、设置生成的词云图片的属性。使用命令:png("snxcloud.png", width = 500, height = 500)  ,在R语言当前的工作目录下,生成高和宽都是500的snxcloud.png图片。

2、设置该图片的背景颜色为黑色:par(bg = "black")

3、对数据集进行wordcloud()函数运算。命令如下:

  wordcloud(names(txt), txt, colors = rainbow(100), random.order=F)

4、保存数据集产生snxcloud.png图片。命令:dev.off()

图4-7制作词云图片

 

 

图4-8 工作目录中生成词云图片

 

运行以上代码后,即可在工作空间得到snxcloud.png文件,如下图:

 

图4-9 snxcloud.png

 

 

 

 

 

五、 实验成果

当在实验的过程中,出现图5-1的效果时,则表示在R语言程序中,从文件读入数据、分词、过滤字符长度和统计词频等数据处理操作,以及词云图片的生成没有问题。即,上述的实验步骤操作正确。

 

图5-1 实验操作正确

 

如图5-2所示,在R的工作目录下成功生成了snxcloud.png词云文件,也再次验证了上述的实验操作正确,并能生成相应的词云文件。

 

图5-2 工作目录生成文件

 

本实验最终得到的词云,效果如图5-3所示:

 

图5-3 实验的词云成品

 

六、 实训总结

关于本次实验的经验收获和实验总结,可分点总结如下:

    1. 经过本实验,可得出结论:jiebaR是一款高效的R语言中文分词包,而Wordcloud包在做词语分析时并没有多大的作用。Wordcloud包就是一个可以使词频以图形的形式展示的软件包,它可以通过改变词云的形状和颜色,使得分析结果锦上添花。
    2. 本实验的关键在于,对数据集进行分词、词频统计、过滤和排序等数据处理的过程和方法,生成词云图片只是对已经处理的数据集以图片的方式进行保存。
    3. 本实验中,需要将数据集中的数字进行过滤。因为经过分词器的处理,单个数值字符在生成的词云中难以分辨含义和方向,即缺乏无意义的,所以需要将数字进行过滤处理。
    4. 生成词云的方法远不止本实验中的这种,方法其实还有很多,如:wordcloud2。但是从整体来说,方法和基本的原理是类似的,至于操作步骤也可以举一反三,灵活变通。

おすすめ

転載: www.cnblogs.com/Raodi/p/12155173.html
おすすめ