Acquisition de données gwas Comment obtenir des données récapitulatives complètes de GWAS (1) ------Base de données du catalogue GWAS

Il s'agit du projet OpenGWAS (mrcieu.ac.uk)

Biobanque britannique - Biobanque britannique

Catalogue GWAS 

Dans les études de randomisation mendélienne (MR), nous n’avons besoin que d’informations significatives sur les SNP pour les données d’exposition, et ces informations sont facilement disponibles dans diverses bases de données GWAS. Cependant, en ce qui concerne les données de résultat, étant donné que le SNP n'est pas lié au résultat, ce résultat insignifiant ne peut souvent pas être directement interrogé à partir de l'article ou de la base de données. À ce stade, nous devons télécharger les données récapitulatives complètes de GWAS. Il contient généralement des millions, voire des dizaines de millions d'informations SNP, la quantité de données est donc relativement importante (environ 200 Mo après compression), j'espère que tout le monde en est conscient et est préparé.

Ensuite, je présenterai comment télécharger les données récapitulatives complètes de GWAS à partir du catalogue GWAS.

Tout d'abord, accédez au site Web officiel du catalogue GWAS (https://www.ebi.ac.uk/gwas/) et cliquez sur a>Statistiques récapitulatives (comme indiqué dans la figure ci-dessous)

Entrez les statistiques récapitulatives et cliquez surÉtudes disponibles (comme indiqué dans la figure ci-dessous)

Enfin, vous entrerez dans l'interface suivante (lien :https://www.ebi.ac.uk/gwas/downloads/summary-statistics)

L'interface se compose principalement de trois parties

Le premier bloc est "Liste des études publiées avec des statistiques récapitulatives" (comme indiqué dans le figure ci-dessous ) : Les études GWAS ici sont toutespubliées et leur qualité est garantie, vous pouvez saisir des mots-clés dans le champ de recherche (marqué en rouge) pour rechercher le phénotype d’intérêt.

Le deuxième bloc est "Liste des études prépubliées/non publiées avec statistiques récapitulatives" (comme indiqué ci-dessous) : L'étude GWAS ici est non publiée (peut être dérivée d'une préimpression), La qualité ne peut pas être garanti. Vous pouvez saisir des mots-clés dans le champ de recherche (marqué en rouge) pour rechercher le phénotype qui vous intéresse. Les phénotypes présentés ici sont probablement relativement nouveaux et complémentaires aux données publiées. Lorsque vous ne parvenez vraiment pas à trouver les données, autant essayer ici.

Le troisième bloc est "Sources supplémentaires de statistiques récapitulatives" (comme le montre la figure ci-dessous) : voici un résumé des statistiques actuelles. Informations relatives à la collaboration de recherche (consortium) GWAS. Généralement, ces collaborations disposent de leurs propres sites Web pour stocker les données. Nous pouvons télécharger les données récapitulatives complètes de GWAS depuis leurs sites Web officiels. Les collaborations en matière de recherche sur les maladies coronariennes sont marquées en rouge sur l’image.

La base de données du catalogue GWAS est un trésor. Mickey Mouse est là pour inspirer les autres. J'espère que tout le monde pourra l'étudier et l'utiliser plus en profondeur. Vous êtes également invités à échanger vos idées via des messages privés (WeChat : MedGen16) !

PS : Parfois, le catalogue GWAS doit être ouvert en mode agence étrangère avant de pouvoir être utilisé, les amis, préparez-vous à l'avance !

SSGAC

Obtenez la source de gwas

Données incluses

 

1 Lire les données d'exposition

1.2 Enregistrer l'exposition

Commencez à pratiquer

Lire les données exposées

Lire les données de fin

harmoniser les données 

M.

Analyse de sensibilité 

 Significatif et indépendant, obtenez des variables instrumentales

 L'avantage c'est que c'est rapide, mais l'inconvénient c'est que c'est possible

Ne peuvent pas être indépendants les uns des autres Déséquilibre de liaison

5*10-8

Il montre que la variable instrumentale est liée à l’exposition mais pas au résultat.

Peut-être que j'ai perdu mon snp

step1 r lit les données exposées

 Nécessite la fonction de sous-ensemble de réglage de corrélation 5*10 -8

Fonction de regroupement de réglage de l'indépendance pour éliminer le déséquilibre de liaison ld r2 Plus il est petit, mieux c'est, généralement 0,001 et le maximum est de 0,1.   

Cela dépend du nombre de snp, une distance de 500 Ko est également acceptable

Le réglage de la force statistique f> 10 est meilleur

 1.1 Nécessite la fonction de sous-ensemble de réglage de corrélation 5*10 -8

1.2 Modifier le nom de colonne du fichier

1.3 Paramètres d'indépendance Données exposées après relecture du sous-ensemble read_exposure_data

groupe par défaut ldr2<0,01

Vous pourrez le regrouper plus tard clump_data

 étape 2 : lire les données de résultat

1 lecture.table 

2 fusionner pour obtenir l'intersection

2.1 Changer le nom de l'annonce

3 read_out_come_data

résumé

 Allèle d'effet

 Besoin d'utiliser la coordination de code A--.>T

agent snp

Le snp de l'agent est fixé à 0,8. Plus il est grand, plus cela indique qu'il existe un déséquilibre de liaison entre eux, ce qui indique qu'ils ont une grande influence les uns sur les autres et que la possibilité qu'ils se remplacent est élevée.

Mais lors du réglage de l'indépendance, faites en sorte que ld r2 soit aussi petit que possible 0,001

Les échantillons se chevauchent

Données exposées 500 000 

Fin des données 1 million

Pour être utilisées, les données SNP doivent être supérieures à 500 W. Normalement, elles peuvent atteindre 1 000 W.

étape 3 coordination harmoniser

Éliminer les séquences palindromes 

enregistrer le document

 Assurez-vous que le SNP exposé n’est pas lié au résultat

snp est lié à l'exposition

Le SNP n'est pas lié au résultat, conformément à l'hypothèse

étape 4 monsieur

ivw est un modèle à effets aléatoires

Les résultats sont des variables continues utilisant des valeurs bêta limitées par 0

Lorsque le résultat est une variable catégorielle, il doit être transformé de manière logarithmique, utiliser ou et utiliser 1 comme limite.

Utiliser d'autres méthodes

mr(dat,method_list=c())

 Lorsque vous dessinez un nuage de points, choisissez la méthode avec laquelle vous souhaitez le dessiner.

5 Visualisation des résultats

6 L'analyse de sensibilité comprend : la détection de l'hétérogénéité la détection de la pléiotropie 

Détection d'hétérogénéité

Si hétérogénéité <0,05, il y a hétérogénéité.

Il y a une hétérogénéité et cela n’affecte pas la fiabilité des résultats.

nbdistribution est réglé sur 1w, ce qui est plus précis

6.1 Trouver le snp run_mr_pressor qui a le plus grand impact sur l'hétérogénéité

nb

 

Cette valeur aberrante a-t-elle un impact sur la direction ? Sinon, alors p>0,05 

l Répertorier les valeurs aberrantes, p est inférieur à 0,05, indiquant l'existence d'une hétérogénéité

S'il y a beaucoup d'hétérogénéité, ajoutez quelques SNP à temps et recalculez et il y aura toujours de l'hétérogénéité.

6.2 Tracé en entonnoir de visualisation de l'hétérogénéité

Plus c’est symétrique, mieux c’est 

existera ; même s’il n’y a pas d’hétérogénéité, le tracé en entonnoir est asymétrique

6.2 Effets multiples mr_pleiotropy_test() Si le résultat n'est pas bon, il sera retiré et l'article ne sera pas publié.

Pléiotropie fonctionnelle Pléiotropie horizontale

Par exemple, snp peut affecter la publicité via d’autres phénotypes, plutôt que via le phénotype bmi.

 0,078》0,05 Pas de pléiotropie

Utilisez egger_intercept pour évaluer plusieurs effets

La valeur p de l'ordonnée à l'origine entre Egger et l'axe y permet d'évaluer si l'ordonnée à l'origine existe

Si p》0,05, il n’y a aucune signification, indiquant que l’interception n’existe pas

Si p<0,05, c'est significatif. Cela montre que lorsque le SNP est égal à 0, il existe un effet non nul sur le résultat, ce qui indique que le SNP peut affecter le résultat en affectant d'autres phénotypes. Cela indique l'existence d'une pléiotropie horizontale. De tels résultats ne peuvent pas être utilisés

(Lorsque l'effet du SNP sur l'exposition est de 0, il a toujours un effet non nul sur le résultat, indiquant qu'il existe d'autres facteurs intermédiaires qui affectent le résultat et qu'il présente une pléiotropie horizontale)

6.3 laisser-un-dehors 

Si le résultat est bon, l'intervalle de confiance doit être à droite de la ligne pointillée 

Lorsque le premier rs3817334 est perdu, refaites le snp restant.

Résumer

Utilisez r pour analyser

1 Extraire les données d'exposition 

2 Importer les données de fin 

 

Le suivi est le même 

Recherchez le deuxième phénotype du SNP. Si un deuxième phénotype existe, il faudra peut-être l'éliminer.

7 Puissance de calcul des performances statistiques

la taille de l'échantillon est la taille totale de l'échantillon

 aPar défaut 0,05

k Proportion du nombre de cas par rapport au nombre total

ou la valeur est la valeur calculée

  r2 est la somme de r2 de tous les snp (60)  

Je suppose que tu aimes

Origine blog.csdn.net/qq_52813185/article/details/134521955
conseillé
Classement