Adquisición de datos gwas Cómo obtener datos resumidos completos de GWAS (1) ------Base de datos del catálogo GWAS

Este es el proyecto OpenGWAS (mrcieu.ac.uk)

Biobanco del Reino Unido - Biobanco del Reino Unido

Catálogo GWAS 

En los estudios de aleatorización mendeliana (MR), solo necesitamos información significativa de SNP para los datos de exposición, y dicha información está fácilmente disponible en varias bases de datos de GWAS. Sin embargo, con respecto a los datos de resultados, dado que el SNP no está relacionado con el resultado, muchas veces este resultado insignificante no se puede consultar directamente desde el artículo o la base de datos. En este momento, necesitamos descargar los datos resumidos completos de GWAS. Generalmente contiene millones o incluso decenas de millones de información SNP, por lo que la cantidad de datos es relativamente grande (aproximadamente 200 millones después de la compresión). Espero que todos lo sepan y estén preparados.

A continuación, presentaré cómo descargar los datos resumidos completos de GWAS del catálogo de GWAS.

Primero, ingrese al sitio web oficial del catálogo GWAS (https://www.ebi.ac.uk/gwas/) y haga clic a>Estadísticas resumidas (como se muestra en la siguiente figura)

Ingrese Estadísticas de resumen y haga clic enEstudios disponibles (como se muestra en la siguiente figura)

Finalmente, ingresará a la siguiente interfaz (enlace:https://www.ebi.ac.uk/gwas/downloads/summary-statistics)

La interfaz consta principalmente de tres partes.

El primer bloque es "Lista de estudios publicados con estadísticas resumidas" (como se muestra en la figura a continuación): Todos los estudios de GWAS aquí estánpublicados y su calidad está garantizada, puede ingresar palabras clave en el cuadro de búsqueda (marcado en rojo) para buscar el fenotipo de interés.

El segundo bloque es "Lista de estudios prepublicados/no publicados con estadísticas resumidas" (como se muestra se muestra a continuación): El estudio GWAS aquí es inédito (puede derivarse de una preimpresión), La calidad no puede ser garantizado. Puede ingresar palabras clave en el cuadro de búsqueda (marcado en rojo) para buscar el fenotipo de interés. Es probable que los fenotipos aquí sean relativamente nuevos y complementarios a los datos publicados. Cuando realmente no puedas encontrar los datos, también puedes intentarlo aquí.

El tercer bloque es "Fuentes adicionales de estadísticas resumidas" (como se muestra en la siguiente figura): A continuación se muestra un resumen de la situación actual. Información relacionada con la colaboración (consorcio) de investigación de GWAS. Generalmente estas colaboraciones tienen sus propias webs para almacenar datos, podemos descargar los datos resumidos completos de GWAS desde sus webs oficiales. Marcadas en rojo en la imagen están las colaboraciones en la investigación de enfermedades coronarias.

La base de datos del catálogo GWAS es un tesoro. Mickey Mouse está aquí para inspirar a otros. Espero que todos puedan estudiarla y utilizarla más profundamente. ¡También puedes intercambiar tus ideas a través de mensajes privados (WeChat: MedGen16)!

PD: A veces es necesario abrir el catálogo GWAS en modo agencia extranjera antes de poder utilizarlo, amigos, ¡prepárense con antelación!

ssgac

Obtener la fuente de gwas

Datos incluidos

 

1 Leer datos de exposición

1.2 Guardar exposición

Empieza a practicar

Leer datos expuestos

Leer datos finales

armonizar datos 

señor

Análisis de sensibilidad 

 Significativos e independientes, obtener variables instrumentales.

 La ventaja es que es rápido, pero la desventaja es que es posible.

Pueden no ser independientes entre sí Desequilibrio de vinculación

5*10-8

Muestra que la variable instrumental está relacionada con la exposición pero no con el resultado.

Tal vez perdí mi snp

paso1 r lee los datos expuestos

 Requiere la función de subconjunto de configuración de correlación 5*10 -8

Función de agrupación de configuración de independencia para eliminar el desequilibrio de vinculación ld r2 Cuanto más pequeño, mejor, normalmente 0,001 y el máximo es 0,1.   

Depende del número de snp, la distancia de 500 kb también está bien

La configuración de fuerza estadística f>10 es mejor

 1.1 Requiere la función de subconjunto de configuración de correlación 5*10 -8

1.2 Modificar el nombre de la columna del archivo

1.3 Configuración de independencia Datos expuestos después de volver a leer el subconjunto read_exposure_data

grupo predeterminado ldr2<0.01

Puedes agruparlo más tarde clump_data

 paso 2 leer datos de resultados

1 tabla de lectura 

2 fusionarse para llegar a la intersección

2.1 Cambiar el nombre del listado

3 read_out_come_data

resumen

 Alelo efecto

 Necesita utilizar la coordinación del código A--.>T

agente snp

El snp del agente se establece en 0,8. Cuanto mayor es, más indica que existe un desequilibrio de vinculación entre ellos, lo que indica que tienen una gran influencia entre sí y que la posibilidad de que se reemplacen entre sí es alta.

Pero al establecer la independencia, haga que ld r2 sea lo más pequeño posible 0,001

Las muestras se superponen

Datos expuestos 500.000 

Datos finales 1 millón

Los datos SNP deben ser superiores a 500w para ser utilizados, normalmente pueden llegar a 1000w.

paso 3 coordinación armonizar

Eliminar secuencias palíndromas 

guardar documento

 Asegúrese de que el SNP expuesto no esté relacionado con el resultado.

snp está relacionado con la exposición

El SNP no está relacionado con el resultado, lo que es consistente con la hipótesis.

paso4 señor

ivw es un modelo de efectos aleatorios

Los resultados son variables continuas que utilizan valores beta acotados por 0

Cuando el resultado es una variable categórica, es necesario transformarla logarítmicamente, usar o y usar 1 como límite.

Usa otros métodos

señor(dat,method_list=c())

 Al dibujar un diagrama de dispersión, elija el método con el que desea dibujarlo.

5 Visualización de resultados

6 El análisis de sensibilidad incluye: detección de heterogeneidad detección de pleiotropía 

Detección de heterogeneidad

Si la heterogeneidad es <0,05, hay heterogeneidad.

Existe heterogeneidad y no afecta la confiabilidad de los resultados.

nbdistribution se establece en 1w, que es más preciso

6.1 Encuentre el snp run_mr_pressor que tiene el mayor impacto en la heterogeneidad

nótese bien

 

¿Este valor atípico tiene un impacto en la dirección? Si no, entonces p>0.05 

l Enumere los valores atípicos, p es inferior a 0,05, lo que indica la existencia de heterogeneidad

Si hay mucha heterogeneidad, agregue algunos SNP a tiempo y vuelva a calcular y todavía habrá heterogeneidad.

6.2 Gráfico de embudo de visualización de heterogeneidad

Cuanto más simétrico mejor 

existirá; incluso si no hay heterogeneidad, el gráfico en embudo es asimétrico

6.2 Efectos Múltiples mr_pleiotropy_test() Si el resultado no es bueno, será retirado y el artículo no será publicado.

Pleiotropía funcional Pleiotropía horizontal

Por ejemplo, snp puede afectar a ad a través de otros fenotipos, en lugar de a través del fenotipo bmi.

 0,078》0,05 Sin pleiotropía

Utilice egger_intercept para evaluar múltiples efectos

El valor p de la intersección entre egger y el eje y es para evaluar si la intersección existe

Si p》0.05, no hay significancia, lo que indica que la intersección no existe

Si p<0,05, es significativo. Muestra que cuando el SNP es 0, hay un efecto distinto de cero en el resultado, lo que indica que el SNP puede afectar el resultado al afectar otros fenotipos. Esto indica la existencia de pleiotropía horizontal. Estos resultados no pueden utilizarse

(Cuando el efecto del SNP sobre la exposición es 0, todavía tiene un efecto distinto de cero en el resultado, lo que indica que hay otros factores intermedios que afectan el resultado y tiene pleiotropía horizontal)

6.3 dejar uno afuera 

Si el resultado es bueno, el intervalo de confianza debe estar a la derecha de la línea de puntos. 

Cuando se pierda el primer rs3817334, vuelva a realizar el snp restante.

Resumir

Utilice r para analizar

1 Extraer datos de exposición 

2 Importar datos finales 

 

El seguimiento es el mismo. 

Detección del segundo fenotipo de SNP. Si existe un segundo fenotipo, es posible que sea necesario descartarlo.

7 Poder de cálculo del rendimiento estadístico

El tamaño de la muestra es el tamaño total de la muestra.

 aPredeterminado 0.05

k Proporción del número de casos respecto del número total

o valor es el valor calculado

  r2 es la suma de r2 de todos los snp (60)  

Supongo que te gusta

Origin blog.csdn.net/qq_52813185/article/details/134521955
Recomendado
Clasificación