【转录组入门】02:读文章得到测试数据

本流程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 

数据地址:GSE81916

作业:看文章的method,记下所用软件和参数,理解GEO/SRA数据的数据存放形式

具体步骤

【1】找到数据地址:GSE81916

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

文章中提示数据地址是GSE81916

【2】在NCBI的GEO中下载数据

有很多种方法

方法1:NCBI---SRA数据库---搜索GSE81916---找到SRA---点击SRP075747---选择全部文件---send to ---file---format:Runinfo---creat file即生成了一个SraRunInfo.csv文件,打开该文件,查看SRR0000000标号是多少,然后

编写脚本,批量下载

# 编写脚本,批量下载

for i in `seq 56 62`            # 用的是反引号
do
    prefetch SRR35899${i}       # prefetch是sratoolkit软件的一个命令
done

方法2:NCBI---SRA数据库---搜索GSE81916---找到SRA---点击SRP075747---选择全部文件---send to ---file---format:Runinfo---creat file即生成了一个SraRunInfo.csv文件,然后根据文件中的下载地址,用wget命令,批量下载

$ tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #将csv文件中的逗号分割替换成tab分割
$ head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其下载路径是第几列    
  10 downloas_path #返回结果显示是在第10列

#依次下载
$ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列,并利用wget进行下载,依次下载(推荐!)

#并行下载
$ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本,并行下载
$ bash download.sh  #运行脚本进行并行下载

方法3:NCBI---搜索GSE81916---点击BioProject---复制项目号Accession:PRJNA323422---进入网站SRA Run selecto[https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r

---搜索 PRJNA323422---了解该项目数据的详细信息

15个样品的数据文件地址有规律:前面都一样,最后两位不同

写一个脚本,批量下载数据

脚本1:
for i in ` seq 56 62`;
do
    wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899${i}.sra  #也可以使用axel命令代替wget,axel比wget快一些
done

脚本2:
for I in `seq 56 62`;
do
    prefetch SRR35899${i}   #prefetch是sratoolkit工具的一个命令
done

# 运行脚本
$ bash sra_download.sh

理论知识

GEO数据库

GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据。除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有自己的数据也能发好文章!

参考资料

转录组入门2-如何从NCBI下载高通量数据 | 分享自为知笔记
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-

HOPTOP转录组入门(二)读文献下数据-转录组-生信技能树
http://www.biotrainee.com/thread-1829-1-1.html

猜你喜欢

转载自www.cnblogs.com/chenpeng1024/p/9166793.html