gwas 데이터 획득 완전한 GWAS 요약 데이터를 얻는 방법 (1) ------GWAS 카탈로그 데이터베이스

OpenGWAS 프로젝트(mrcieu.ac.uk)입니다.

영국 바이오뱅크 - 영국 바이오뱅크

GWAS 카탈로그 

Mendelian 무작위화(MR) 연구에서는 노출 데이터에 대한 중요한 SNP 정보만 필요하며 이러한 정보는 다양한 GWAS 데이터베이스에서 쉽게 사용할 수 있습니다. 그러나 결과 데이터의 경우 SNP가 결과와 관련이 없기 때문에 이러한 중요하지 않은 결과를 기사나 데이터베이스에서 직접 쿼리할 수 없는 경우가 많으며, 이때 전체 GWAS 요약 데이터를 다운로드해야 합니다. 일반적으로 수백만, 심지어 수천만 개의 SNP 정보를 포함하고 있기 때문에 데이터의 양이 상대적으로 많은 편입니다(압축 후 약 2억 개). 다들 인지하고 준비하시길 바랍니다.

다음으로 GWAS 카탈로그에서 전체 GWAS 요약 데이터를 다운로드하는 방법을 소개하겠습니다.

먼저 GWAS 카탈로그 공식 홈페이지(https://www.ebi.ac.uk/gwas/)에 접속한 후 a>요약 통계(아래 그림 참조)

요약 통계를 입력하고사용 가능한 연구(아래 그림 참조)를 클릭하세요.

마지막으로 다음 인터페이스로 들어갑니다(링크:https://www.ebi.ac.uk/gwas/downloads/summary-statistics)

인터페이스는 주로 세 부분으로 구성됩니다.

첫 번째 블록은 "요약 통계가 포함된 출판된 연구 목록"입니다( 아래 그림 ): 여기에 있는 GWAS 연구는 모두게시되었으며 품질이 보장됩니다. 관심 표현형을 검색하려면 검색 상자(빨간색으로 표시)를 사용하세요.

두 번째 블록은 "요약 통계가 포함된 사전 출판/미출판 연구 목록"입니다(표시된 바와 같음). 아래 표시됨): 여기 GWAS 연구는 미출판입니다(사전 인쇄에서 파생되었을 수 있음). 품질은 보장. 검색창(빨간색으로 표시)에 키워드를 입력하여 관심 있는 표현형을 검색할 수 있습니다. 여기의 표현형은 상대적으로 새롭고 출판된 데이터를 보완할 가능성이 높습니다. 정말로 데이터를 찾을 수 없다면 여기서 시도해 보는 것도 좋습니다.

세 번째 블록은 "요약 통계의 추가 소스"입니다(아래 그림 참조). 다음은 현재 통계의 요약입니다. GWAS 연구협력(컨소시엄) 관련 정보입니다. 일반적으로 이러한 협업에는 데이터를 저장할 자체 웹사이트가 있으며, 공식 웹사이트에서 전체 GWAS 요약 데이터를 다운로드할 수 있습니다. 사진에서 빨간색으로 표시된 부분은 관상동맥 심장질환 연구 협력입니다.

GWAS 카탈로그 데이터베이스는 보물입니다. 미키 마우스는 다른 사람들에게 영감을 주기 위해 여기에 있습니다. 모두가 더 깊이 공부하고 사용할 수 있기를 바랍니다. 개인 메시지(WeChat: MedGen16)를 통해 아이디어를 교환하는 것도 환영합니다!

추신: 때로는 GWAS 카탈로그를 사용하기 전에 외국 대리점 모드에서 열어야 할 때도 있습니다. 친구 여러분, 미리 준비하세요!

ssgac

gwas 소스 얻기

포함된 데이터

 

1 노출 데이터 읽기

1.2 저장 exposureshuju

연습 시작

노출된 데이터 읽기

엔딩 데이터 읽기

데이터를 조화시키다 

~ 씨

민감도 분석 

 중요하고 독립적인 도구변수 획득

 장점은 빠르지만, 단점은 가능하다는 점

서로 독립적이지 않을 수 있음 연관 불균형

5*10 -8

이는 도구변수가 노출과 관련이 있지만 결과와는 관련이 없음을 보여줍니다.

어쩌면 snp를 잃어버렸을 수도 있어요

1단계 r은 노출된 데이터를 읽습니다.

 상관관계 설정 하위 집합 함수 5*10 -8 필요

연관 불균형을 제거하기 위한 독립 설정 덩어리 기능 ld r2 작을수록 좋으며 일반적으로 0.001이며 최대값은 0.1입니다.   

snp 개수에 따라 다르지만 거리 500kb도 괜찮습니다.

통계 강도 설정 f>10이 더 좋습니다.

 1.1 상관관계 설정 하위 집합 함수 5*10 -8 필요

1.2 파일의 컬럼명 수정

1.3 독립성 설정 read_exposure_data 부분 집합을 다시 읽은 후 데이터 노출

덩어리 기본 ldr2<0.01

나중에 덩어리지게 만들 수 있습니다.

 step2 결과 데이터 읽기

1개의 읽기 테이블 

2 교차점을 얻기 위해 병합

2.1 목록 이름 변경

3 read_out_come_data

요약

 효과 대립유전자

 코드 조정을 사용해야 합니다 A--.>T

에이전트 snp

에이전트 snp는 0.8로 설정되어 있으며, 클수록 서로 연관불균형이 있음을 의미하며, 서로 영향을 많이 주고 있음을 나타내며, 서로 대체될 가능성이 높다.

단, 독립성을 설정할 때에는 ld r2를 0.001로 최대한 작게 만드세요.

샘플이 중복됩니다.

노출된 데이터 500,000 

엔딩 데이터 100만

SNP 데이터를 사용하려면 500w 이상이어야 하며 일반적으로 1000w까지 도달할 수 있습니다.

step3 조화 조화

회문 시퀀스 제거 

문서 저장

 노출된 SNP가 결과와 관련이 없는지 확인하십시오.

snp는 노출과 관련이 있습니다

SNP는 결과와 관련이 없으며 가설과 일치합니다.

4단계 씨

ivw는 무작위 효과 모델입니다.

결과는 0으로 묶인 베타 값을 사용하는 연속 변수입니다.

결과가 범주형 변수인 경우에는 대수변환을 해야 하며, 경계는 1을 사용합니다.

다른 방법을 사용하세요

씨(dat,method_list=c())

 산점도를 그릴 때 원하는 그리기 방법을 선택하세요.

5 결과 시각화

6 민감도 분석에는 다음이 포함됩니다. 이질성 탐지 다발성 탐지 

이질성 감지

이질성이 <0.05이면 이질성이 있는 것입니다.

이질성이 있으며 결과의 신뢰성에 영향을 미치지 않습니다.

nbdistribution은 1w로 설정되어 더 정확합니다.

6.1 이질성에 가장 큰 영향을 미치는 snp run_mr_pressor 찾기

주의

 

이 이상값이 방향에 영향을 미치나요? 그렇지 않다면 p>0.05입니다. 

l 이상치 목록, p는 0.05보다 작으며 이는 이질성이 있음을 나타냅니다.

이질성이 많다면 시간에 맞춰 몇 개의 SNP를 투입하고 다시 계산해도 여전히 이질성이 있을 것입니다.

6.2 이질성 시각화 퍼널 플롯

대칭이 많을수록 좋습니다. 

존재할 것이며, 이질성이 없더라도 깔때기 그림은 비대칭입니다.

6.2 다중 효과 mr_pleiotropy_test() 결과가 좋지 않으면 철회되며 기사가 게시되지 않습니다.

기능성 다발성 수평 다발성

예를 들어, snp는 bmi 표현형이 아닌 다른 표현형을 통해 광고에 영향을 미칠 수 있습니다.

 0.078》0.05 다발성 없음

egger_intercept를 사용하여 여러 효과 평가

Egger와 y축 사이의 절편의 p 값은 절편이 존재하는지 평가하는 것입니다.

p>0.05이면 유의성이 없어 절편이 존재하지 않음을 나타냅니다.

p<0.05이면 유의미한 것입니다. 이는 SNP가 0일 때 결과에 ​​0이 아닌 영향이 있음을 보여 주며, 이는 SNP가 다른 표현형에 영향을 주어 결과에 영향을 미칠 수 있음을 나타냅니다. 이는 수평 다발성의 존재를 나타냅니다. 이러한 결과는 사용할 수 없습니다.

(노출에 대한 SNP의 영향이 0인 경우에도 여전히 결과에 0이 아닌 영향을 미치며, 이는 결과에 영향을 미치는 다른 중간 요인이 있음을 나타내며 수평 다발성(horizontal pleiotropy)을 갖습니다.)

6.3 일대일 방치 

결과가 좋으면 신뢰구간이 점선 오른쪽에 와야 합니다. 

첫 번째 rs3817334가 손실되면 나머지 snp를 다시 수행하십시오.

요약하다

r을 사용하여 분석

1 노출 데이터 추출 

2 엔딩 데이터 가져오기 

 

후속작도 마찬가지 

SNP의 두 번째 표현형에 대한 스크리닝 두 번째 표현형이 존재하는 경우 이를 스크리닝해야 할 수도 있습니다.

7 통계적 성과 계산력

표본 크기는 전체 표본 크기입니다.

 a기본값 0.05

k 전체 수에 대한 사례 수의 비율

또는 value는 계산된 값입니다.

  r2는 모든 snp(60)의 r2의 합입니다.  

추천

출처blog.csdn.net/qq_52813185/article/details/134521955