small RNA学习(一):GEO数据下载

一般在转录组或者基因表达相关的文献中,末尾都会附上Accession Numbers,可以用这个编号在GEO(Gene Expression Omnibus)数据库上下载该研究用到的原始数据或是一些结果文件。我选了一篇拟南芥的文章来学习,主要原因是拟南芥的基因组小,且研究较成熟,参考数据比较全。

14337454-2473092a8a967a5e.png

百度搜索GEO

14337454-31cda65c046ed456.png
14337454-017d191bea060b90.png

输入编号后查询

14337454-7b3d8fc2fbcf352c.png

会自动搜索出对应的文献标题,点进去看页面下方

14337454-ac4f9733de24258d.png

点击SRA编号

14337454-24814d79cf62874a.png

点击Send results to Run selector

14337454-5162a6b49f1f58ec.png

样本编号和Run编号是一一对应的

接下来用ascp下载数据,会比prefetch快不少,不过在下载的同时进行其他命令会卡顿。
关于下载方法,这一篇写得很好:SRA、SAM以及Fastq文件高速下载方法

for i in `seq 59 70`
do
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l 1000m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR126/SRR12668${i}/SRR12668${i}.sra ./
done

解压
for i in `seq 59 70`
do
fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si-$ri' SRR12668${i}.sra -O /ifs1/Grp3/huangsiyuan/learn_rnaseq/srna_project/data/
done
$ ls *.sra
SRR1266859.sra  SRR1266861.sra  SRR1266863.sra  SRR1266865.sra  SRR1266867.sra  SRR1266869.sra
SRR1266860.sra  SRR1266862.sra  SRR1266864.sra  SRR1266866.sra  SRR1266868.sra  SRR1266870.sra

$ ls SRR*.fastq.gz
SRR1266859.fastq.gz  SRR1266861.fastq.gz  SRR1266863.fastq.gz  SRR1266865.fastq.gz  SRR1266867.fastq.gz  SRR1266869.fastq.gz
SRR1266860.fastq.gz  SRR1266862.fastq.gz  SRR1266864.fastq.gz  SRR1266866.fastq.gz  SRR1266868.fastq.gz  SRR1266870.fastq.gz
可以得知,是单端测序

猜你喜欢

转载自blog.csdn.net/weixin_34275734/article/details/87473757