NASAは、ホスト型および/または32,000以上のデータセットの整備、 これらのデータセットは、NASA自体の管理に航空宇宙工学に地球科学からのトピックをカバーします。私たちは、それらの間のリンクを理解するために、これらのデータ・セットのメタデータを使用することができます。
1 データNASAを整理する方法
まず、私たちはJSONファイルをダウンロードして、メタデータストアの名前を表示してみましょう。
library(jsonlite)
metadata <- fromJSON("https://data.nasa.gov/data.json")
names(metadata$dataset)
ここでは、我々は、彼らが発行されたライセンスを取得するために、各データセットをリリースし、人々から情報を得ることができることを参照してください。
データセット間の接続を描画するための説明とキーワードが最も効果的であってもよいし、各データセットのタイトルのようです。我々はそれを参照してください。
class(metadata$dataset$title)
1.1もつれやデータを整理
タイトル、説明をしましょう、とキーワードは(必要な場合)、我々は後の解析でそれらをリンクすることができるように、ID、各データセットに設定されたデータを保持するために、別々のクリーンなデータ・ブロックを提供します。
1.2いくつかの簡単な予備探査
最も一般的な単語のセット何NASAのデータがありますか?私たちは、使用することができcount()
、これを確認するためにdplyr。
nasa_title %>% count(word, sort = TRUE)
最も一般的なキーワードは何されていますか?
nasa_keyword %>%
group_by(keyword) %>% count(sort = TRUE)
## # A tibble: 1,774 x 2 ## # Groups: keyword [1,774] ## keyword n ## <chr> <int> ## 1 EARTH SCIENCE 14362 ## 2 Project 7452 ## 3 ATMOSPHERE 7321 ## 4 Ocean Color 7268 ## 5 Ocean Optics 7268 ## 6 Oceans 7268 ## 7 completed 6452
2.1説明とネットのタイトル
私たちは、使用することができpairwise_count()
、各単語がタイトルまたは説明フィールドwidyrパッケージに表示された回数を計算します。
library(widyr)
これらは、最も頻繁に右のフィールドdescriptonワードで発生しています。「データは」非常に一般的な単語の説明フィールドで、 NASAのデータセットは、データの不足ではありません!
我々はいくつかの明確なクラスタリングでは、このタイトルの単語ネットワークに表示; NASAのデータセットのタイトル語語彙の大半は、いくつかのシリーズで構成され、これらの言葉が一緒にあることが多いです。
単語をフィールドする方法を説明しますか?
キーワードネットワーク
接下来,让我们建立一个 关键字的网络,以查看哪些关键字通常在同一数据集中一起出现。
keyword_pairs
## # A tibble: 13,390 x 3
## item1 item2 n
## <chr> <chr> <dbl>
## 1 OCEANS OCEAN OPTICS 7324
## 2 EARTH SCIENCE ATMOSPHERE 7318
## 3 OCEANS OCEAN COLOR 7270
## 4 OCEAN OPTICS OCEAN COLOR 7270
请注意,此排序数据帧顶部的这些关键字的相关系数等于1; 他们总是一起出现。这意味着这些是多余的关键字。继续在这些对中使用两个关键字可能没有意义; 相反,只能使用一个关键字。
让我们可视化关键字相关性网络,就像我们为关键字共同出现一样。
3计算描述字段的tf-idf
网络图向我们展示了描述字段由一些常用词来控制,如“数据”,“全局”和“分辨率”; 这将是一个很好的机会,可以使用tf-idf作为统计数据来查找各个描述字段的特征词。 我们可以使用术语频率乘以逆文档频率的tf-idf来识别对文档集合中的文档特别重要的单词。让我们将这种方法应用于这些NASA数据集的描述字段。
我们现在知道描述中的哪些单词具有高tf-idf,并且我们在关键字中也有这些描述的标签。让我们用tf-idf完成关键字数据框和描述字数据框的完全连接,然后找到给定关键字的最高tf-idf字。
4主题建模
使用tf-idf作为统计数据已经让我们深入了解NASA描述字段的内容,但让我们尝试另外一种方法来解决NASA描述字段的内容。
每个主题是关于什么的?让我们来看看每个主题的前10个术语。
## # A tibble: 240 x 3
## topic term beta
## <int> <chr> <dbl>
## 1 1 data 0.0449
## 2 1 soil 0.0368
## 3 1 moisture 0.0295
## 4 1 amsr 0.0244
## 5 1 sst 0.0168 ## 6 1 validation 0.0132 ## 7 1 temperature 0.0132 ## 8 1 surface 0.0129 ## 9 1 accuracy 0.0123 ## 10 1 set 0.0116
数据框顶部可见的一些概率较低,而某些概率较高。我们的模型已经为每个描述分配了一个概率,这些描述属于我们根据单词集构建的每个主题。概率是如何分配的?
还有问题吗?联系我们!
大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服)
【服务场景】
科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务