gwas データの取得 完全な GWAS 概要データの取得方法 (1) ------GWAS カタログ データベース

これは OpenGWAS プロジェクト (mrcieu.ac.uk) です。

英国バイオバンク - 英国バイオバンク

GWASカタログ 

メンデルランダム化 (MR) 研究では、曝露データについて重要な SNP 情報のみが必要であり、そのような情報はさまざまな GWAS データベースで簡単に入手できます。ただし、結果データに関しては、SNP が結果に関連していないため、多くの場合、この重要ではない結果を論文やデータベースから直接クエリすることはできません。現時点では、完全な GWAS 概要データをダウンロードする必要があります。通常、SNP情報は数百万、場合によっては数千万にも及ぶため、データ量が比較的多くなります(圧縮後約200M)ので、皆様もぜひご承知いただき、ご準備ください。

次に、GWAS カタログから完全な GWAS 概要データをダウンロードする方法を紹介します。

まず、GWAS カタログの公式 Web サイト (https://www.ebi.ac.uk/gwas/) にアクセスし、[ a>概要統計 (以下の図を参照)

概要統計を入力し、利用可能な研究をクリックします(下の図を参照)

最後に、次のインターフェースに入ります (リンク:https://www.ebi.ac.uk/gwas/downloads/summary-statistics)

インターフェースは主に 3 つの部分で構成されます

最初のブロックは「概要統計を含む公表された研究のリスト」です(下の図 ): ここでの GWAS 研究はすべて公開されており、その品質は保証されています。キーワードを入力できます。検索ボックス (赤でマーク) を使用して、目的の表現型を検索します。

2 番目のブロックは「要約統計情報を含む事前公開/未公開研究のリスト」です(図を参照)以下に示されています): ここでの GWAS 研究は未発表 (プレプ​​リントから派生した可能性があります)、 品質を確認することはできません。保証。検索ボックス (赤でマーク) にキーワードを入力して、目的の表現型を検索できます。ここでの表現型は比較的新しく、公開されたデータを補完するものである可能性があります。 どうしてもデータが見つからない場合は、ここを試してみるとよいでしょう。

3 番目のブロックは「概要統計の追加ソース」です (以下の図を参照)。これは現在の統計の概要です。 GWAS研究連携(コンソーシアム)関連情報。通常、これらのコラボレーションはデータを保存する独自の Web サイトを持っており、完全な GWAS 概要データは公式 Web サイトからダウンロードできます。写真の赤でマークされているのは、冠状動脈性心疾患の研究協力です。

GWAS カタログ データベースは宝物で​​す。ミッキー マウスは他の人にインスピレーションを与えるためにここにいます。皆さんがそれをより深く学び、活用できることを願っています。プライベート メッセージ (WeChat: MedGen16) でアイデアを交換することも大歓迎です。

PS: 場合によっては、GWAS カタログを使用する前に、海外代理店モードで開く必要がある場合があります。皆さん、事前に準備してください。

ssgac

gwas のソースを取得する

データが含まれています

 

1 露出データの読み取り

1.2 保存exposureshuju

練習を始める

公開されたデータを読み取る

エンディングデータの読み込み

データを調和させる 

感度分析 

 重要かつ独立した操作変数の取得

 利点は速いことですが、欠点は可能であることです。

互いに独立していない可能性がある 連鎖不均衡

5×10-8

これは、操作変数がエクスポージャに関連しているが、結果には関連していないことを示しています。

たぶん私はSNPを失った

step1 r は公開されたデータを読み取ります

 相関設定サブセット機能が必要 5*10 -8

連鎖不平衡を解消するための独立設定クランプ関数 ld r2 小さいほど良く、通常は 0.001、最大は 0.1 です。   

SNPの数にもよりますが、500kbの距離でも大丈夫です

統計的強度設定 f>10 の方が優れています

 1.1 相関設定サブセット機能が必要 5*10 -8

1.2 ファイルのカラム名を変更する

1.3 独立性設定 サブセット再読み込み後の公開データ read_exposure_data

クランプデフォルトldr2<0.01

後で束ねることもできます

 step2 結果データの読み取り

1 読み取りテーブル 

2 合流して交差点を取得します

2.1 リスティング名の変更

3 リードアウトカムデータ

まとめ

 影響対立遺伝子

 コード調整を使用する必要があります A--.>T

エージェントSNP

エージェントの snp は 0.8 とし、これが大きいほど連鎖不平衡が存在し、相互に大きな影響を及ぼし、入れ替わる可能性が高いことを示します。

ただし、独立性を設定する場合は、ld r2 をできるだけ小さい 0.001 にしてください。

サンプルが重なっている

暴露データ 500,000 

エンディングデータ100万

SNP データを使用するには 500w を超える必要がありますが、通常は 1000w に達する可能性があります。

step3 コーディネートを調和させる

回文シーケンスを削除する 

文書を保存する

 暴露された SNP が結果に関連していないことを確認する

SNPは露出に関係します

SNP は結果とは関連しておらず、仮説と一致している

ステップ4さん

ivw は変量効果モデルです

結果は 0 で区切られたベータ値を使用する連続変数です

結果がカテゴリ変数の場合は、 または を使用して対数変換し、境界として 1 を使用する必要があります。

他の方法を使用する

ミスター(dat,method_list=c())

 散布図を描画するときは、描画方法を選択します。

5 結果の可視化

6 感度分析には以下が含まれます: 異質性の検出 多面性の検出 

異質性の検出

不均一性 <0.05 の場合、不均一性があります。

不均一性はありますが、結果の信頼性に影響しません。

nbdistribution は 1w に設定されており、これはより正確です

6.1 異質性に最も大きな影響を与える SNP run_mr_pressor を見つける

注意

 

この外れ値は方向に影響を与えますか? 影響がない場合は、p>0.05 

l 外れ値をリストします。p は 0.05 未満で、不均一性の存在を示します。

不均一性が大きい場合は、適時にいくつかの SNP を投入して再計算しても、依然として不均一性が存在します。

6.2 不均一性の可視化ファネルプロット

対称であればあるほど良い 

存在します。異質性がない場合でも、ファネル プロットは非対称です

6.2 多重効果 mr_pleiotropy_test() 結果が悪ければ取り下げられ、記事は公開されません。

機能的多面発現性 水平多面発現性

例えば、snp は、bmi 表現型ではなく、他の表現型を通じて ad に影響を与える可能性があります。

 0.078》0.05 多面発現性なし

Egger_intercept を使用して複数の効果を評価する

Egger と y 軸の間の切片の p 値は、切片が存在するかどうかを評価します。

p》0.05の場合は有意性がなく、切片が存在しないことを示します。

p<0.05 の場合、それは有意です。これは、SNP が 0 の場合、結果に対する影響がゼロではないことを示しており、SNP が他の表現型に影響を与えることによって結果に影響を与える可能性があることを示しています。これは水平方向の多面発現性の存在を示しています。このような結果は使用できません

(曝露に対する SNP の影響が 0 の場合でも、結果に対して非ゼロの影響があり、結果に影響を与える他の中間要因があり、水平方向の多面発現性があることを示します)

6.3 リーブワンアウト 

結果が良好であれば、信頼区間は点線の右側にあるはずです。 

最初の rs3817334 が失われた場合は、残りの SNP を再度実行します。

要約する

r を使用して分析します

1 露出データを抽出する 

2 エンディングデータをインポートする 

 

フォローも同じです 

SNP の 2 番目の表現型のスクリーニング 2 番目の表現型が存在する場合は、それをスクリーニングする必要がある場合があります。

7 統計性能計算力

サンプルサイズはサンプルサイズの合計です

 aデフォルト 0.05

k 総件数に占める件数の割合

または value は計算された値です

  r2 はすべての SNP の r2 の合計です (60)  

おすすめ

転載: blog.csdn.net/qq_52813185/article/details/134521955
おすすめ