探索するR BRFSS言語データの可視化

オリジナルリンク:http://tecdat.cn/?p=9266

 

セット

ロードパッケージ

この実験では、データの可視化のためのggplot2パッケージを視覚化するために、データを探索し、それを使用するdplyrパッケージを使用します

library(ggplot2)
library(dplyr)

データのロード

load("brfss2013.RData")
dim(brfss2013)
## [1] 491775    330

私たちは、データセットの大きさを見ることができます。491775の観測(行)と330変数を含む我々のデータセット(カラム)


パート1:データ

BRFSSについて

行動危険因子監視システム(BRFSS)は、米国で4000万人以上の人の年間電話調査です。システムは、健康関連、長期的な健康で、米国の居住者に関連するリスク行動を収集し、予防サービスの利用。名前が示すように、BRFSSは、リスク要因を特定し、新興の大人の人口の健康状態を報告するように設計されています。 

データ収集方法

家の住民との電話インタビューでは、米国の州、コロンビア特別区と米国の地域から収集されたデータは、参加します。電話機がランダムサンプリングからのサンプルである2011、密度に基づいて状態から層化抽出法により電話サンプルへのアクセスをランダムサンプル電話インタビュー及びモバイルアクセスの収集されたサンプルを使用して、50万人以上の倍例えばインタビューました抽出。  

状態間の一貫性を維持するためには、BRFSSは、回答者の機密性を保護するための手順を維持し、確保するために、資格を家族ランダムサンプリング、建物の調査、実施した電話インタビューに含めて、標準的なデータ収集プロトコルに従うことをインタビュープロセス品質。同じ月に実施月のサンプルの電話インタビュー。 

コメントを収集したデータの範囲についての推論への影響

BRFSSの調査では、収集され、ランダムな家庭のデータで50万人の以上の電話インタビューを含む50州と米国の領土を、カバーされ、データが唯一のランダムなサンプルであり、その代表的な人口を確保するためのデータ収集に厳格な手順を確立しましたサンプル。 

これは観察研究であることから、研究者はランダムにトレイルが割り当てられ、実験対照のランダムなサンプルを対象としていないと変数間の因果関係を推測することはできません。


パート2:研究の質問

調査質問1:

物理的および精神的健康と睡眠の間の関連あなたは? 

この問題は、人間の健康に睡眠の影響の問題を伴い、年齢とともに改善します。これは興味深い相関から探査データの焦点になります。検討されている変数は次のとおりです。

  • physhlth:貧しい身体の健康の日
  • menthlth:貧しい精神衛生日
  • sleptim1:どのくらいの時間があなたの睡眠
  • 性別:性別回答者

研究質問2:

かどうかは所得水準や雇用状況は、健康を向上させるのでしょうか?

 所得水準や雇用状況は、個人の自己価値や心理状態に大きな影響を持っているので。個人的な金融不安は大きな精神的な害を引き起こすだろう、と私たちはこれらの人々が不利な健康状態を持っていることを願っています。

考慮すべき変数は以下のとおりです。

  • genhlth:一般的な健康
  • 1雇用:雇用状況
  • 2収入:所得水準

研究質問3:

肥満(高BMI​​)は、心臓発作のリスクを高める可能性があり、高コレステロール値はありますか?

心臓発作の健康リスクへの影響を高めようと、この問題は、肥満に答えます。心停止は、背景人口の1が最も一般的な疾患のすべてに影響を与えています。我々は、高コレステロール値、BMIと心臓病のリスク上昇との関係を見つけようとします。

検討されている変数は次のとおりです。

  • _bmi5cat:ボディマスインデックスカテゴリ
  • tellhi2:高コレステロール血症
  • cvdinfr4:彼は心臓病と診断されました

パート3:探索的データ解析

調査質問1:

V1<-brfss2013%>%
  filter(!is.na(physhlth),!is.na(sleptim1),!is.na(menthlth),!is.na(sex))%>%
  select(physhlth,sleptim1,menthlth,sex)

私たちは、連続する4つの変数を含む新しいデータフレームV1を、作成しています。あなたはNAの入力を含む行を削除した後、我々は、データを分類しました。

ggplot(data=V1,aes(x=sleptim1,y=physhlth,color=sex))+
  geom_point()+scale_fill_manual(values =c("red","seagreen3"))

 

​ 

研究質問2:

 

変数のデータ・セットのクリーンアップの目標と結果は新しいV2内に格納されています

 

 

研究質問3:

 

ターゲット変数から成る新しい変数V3格納されたデータフレーム3。

count(V3,cvdinfr4)
## # A tibble: 2 x 2
##   cvdinfr4      n
##     <fctr>  <int>
## 1      Yes  26935
## 2       No 370021
ggplot(data=V3,aes(x=cvdinfr4,fill=X_bmi5cat))+
  geom_bar()

太りすぎや肥満の人は心臓病を最も受けやすいようです。

 

高コレステロール血症は最も深刻な原因は、過体重または肥満です。

 

ご質問があれば、以下のコメントを残してください。 

 

 

ビッグデータの部族  -中国のプロのサードパーティのデータ・サービス・プロバイダは、ワンストップのデータマイニングや統計解析コンサルティングサービスを提供するために、カスタマイズされました

コンサルティングサービス統計解析やデータマイニング:y0.cn/teradat(コンサルティングサービスは、お問い合わせください公式サイトの顧客サービスを

私にメッセージを送信するためにはここをクリックQQ:3025393450

 

QQ交換基:186 388 004 

[サービス]シーン  

研究;会社アウトソーシング、オンラインとオフラインの1のトレーニング、データ爬虫類の収集、学術研究、報告書作成、市場調査。

[トライブ]ビッグデータは、カスタマイズ提供するワンストップのデータマイニングや統計解析コンサルティング

 

データドライの詳細については、マイクロチャネル公衆番号へようこそ注意!
 
 

私たちの選択科目へようこそ採掘が知っているだろうR言語データ解析をコースを!

おすすめ

転載: www.cnblogs.com/tecdat/p/11995494.html