R言語のテキストマイニングNASAデータネットワーク分析、TF-IDFとモデリングのトピック

NASAは、ホスト型および/または32,000以上のデータセットの整備、  これらのデータセットは、NASA自体の管理に航空宇宙工学に地球科学からのトピックをカバーします。私たちは、それらの間のリンクを理解するために、これらのデータ・セットのメタデータを使用することができます。

 

1  データNASAを整理する方法

まず、私たちはJSONファイルをダウンロードして、メタデータストアの名前を表示してみましょう。

library(jsonlite)
metadata <- fromJSON("https://data.nasa.gov/data.json")
names(metadata$dataset)

ここでは、我々は、彼らが発行されたライセンスを取得するために、各データセットをリリースし、人々から情報を得ることができることを参照してください。

データセット間の接続を描画するための説明とキーワードが最も効果的であってもよいし、各データセットのタイトルのようです。我々はそれを参照してください。

class(metadata$dataset$title)

1.1もつれやデータを整理

タイトル、説明をしましょう、とキーワードは(必要な場合)、我々は後の解析でそれらをリンクすることができるように、ID、各データセットに設定されたデータを保持するために、別々のクリーンなデータ・ブロックを提供します。

1.2いくつかの簡単な予備探査

最も一般的な単語のセット何NASAのデータがありますか?私たちは、使用することができcount()、これを確認するためにdplyr。

nasa_title %>%
  count(word, sort = TRUE)

最も一般的なキーワードは何されていますか?

nasa_keyword %>% 
  group_by(keyword) %>%  count(sort = TRUE)
## # A tibble: 1,774 x 2
## # Groups:   keyword [1,774]
##    keyword                     n
##    <chr>                   <int>
##  1 EARTH SCIENCE           14362
##  2 Project                  7452
##  3 ATMOSPHERE               7321
##  4 Ocean Color              7268
##  5 Ocean Optics             7268
##  6 Oceans                   7268
##  7 completed                6452


2.1説明とネットのタイトル

私たちは、使用することができpairwise_count()、各単語がタイトルまたは説明フィールドwidyrパッケージに表示された回数を計算します。

library(widyr)

 

これらは、最も頻繁に右のフィールドdescriptonワードで発生しています。「データは」非常に一般的な単語の説明フィールドで、  NASAのデータセットは、データの不足ではありません!

 

 

我々はいくつかの明確なクラスタリングでは、このタイトルの単語ネットワークに表示;  NASAのデータセットのタイトル語語彙の大半は、いくつかのシリーズで構成され、これらの言葉が一緒にあることが多いです。

単語をフィールドする方法を説明しますか?

 

キーワードネットワーク

接下来,让我们建立一个 关键字的网络,以查看哪些关键字通常在同一数据集中一起出现。

 keyword_pairs
## # A tibble: 13,390 x 3
##    item1         item2                       n
##    <chr>         <chr>                   <dbl>
##  1 OCEANS        OCEAN OPTICS             7324
##  2 EARTH SCIENCE ATMOSPHERE               7318
##  3 OCEANS        OCEAN COLOR              7270
##  4 OCEAN OPTICS  OCEAN COLOR              7270

请注意,此排序数据帧顶部的这些关键字的相关系数等于1; 他们总是一起出现。这意味着这些是多余的关键字。继续在这些对中使用两个关键字可能没有意义; 相反,只能使用一个关键字。

让我们可视化关键字相关性网络,就像我们为关键字共同出现一样。

3计算描述字段的tf-idf

 网络图向我们展示了描述字段由一些常用词来控制,如“数据”,“全局”和“分辨率”; 这将是一个很好的机会,可以使用tf-idf作为统计数据来查找各个描述字段的特征词。 我们可以使用术语频率乘以逆文档频率的tf-idf来识别对文档集合中的文档特别重要的单词。让我们将这种方法应用于这些NASA数据集的描述字段。

我们现在知道描述中的哪些单词具有高tf-idf,并且我们在关键字中也有这些描述的标签。让我们用tf-idf完成关键字数据框和描述字数据框的完全连接,然后找到给定关键字的最高tf-idf字。

 

4主题建模

使用tf-idf作为统计数据已经让我们深入了解NASA描述字段的内容,但让我们尝试另外一种方法来解决NASA描述字段的内容。

每个主题是关于什么的?让我们来看看每个主题的前10个术语。

 

## # A tibble: 240 x 3
##    topic term          beta
##    <int> <chr>        <dbl>
##  1     1 data        0.0449
##  2     1 soil        0.0368
##  3     1 moisture    0.0295
##  4     1 amsr        0.0244
##  5     1 sst         0.0168
##  6     1 validation  0.0132
##  7     1 temperature 0.0132
##  8     1 surface     0.0129
##  9     1 accuracy    0.0123
## 10     1 set         0.0116

数据框顶部可见的一些概率较低,而某些概率较高。我们的模型已经为每个描述分配了一个概率,这些描述属于我们根据单词集构建的每个主题。概率是如何分配的?
首先注意y轴是以对数刻度绘制的;  否则很难弄清楚情节中的任何细节。 接下来,注意 从0到1运行;  请记住,这是给定文档属于给定主题的概率。 有许多值接近零,这意味着有许多文档不属于每个主题。 此外, 附近有很多值 这些都是文件 在这些主题都属于。 该分布表明文档被很好地区分为属于某个主题。 我们还可以看看每个主题中概率的分布情况
 
    
 

还有问题吗?联系我们!

 

大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服

点击这里给我发消息QQ:3025393450

【服务场景】  

科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

【大数据部落】大数据部落提供定制化的一站式数据挖掘和统计分析咨询服务

 

おすすめ

転載: www.cnblogs.com/tecdat/p/11059368.html