2018-6-15转录组学习1 文献阅读与数据下载

1.文献阅读

本次作业中阅读的文献为AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

Data

从文献中可以得到RNA-seq数据存放在GSE81916中,在NCBI中选择GEO,搜索GSE81916可以得到使用Sratoolkits下载该数据包的SRA编号

SRP
需要下载的RNA-seq数据是SRR3589956-62

这里写图片描述

这些数据在NCBI的ftp网址是 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 ,这一网址可以分为几个部分:
1. 公共部分(所有SRA数据部分): ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads
2. reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果
3. ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.
4. 其他剩余网址是根据SRA编号进行的分类

2 数据下载

2.1 apsera的安装与配置

apsera是一种快速下载工具,能够以较快(相对于Sratoolkits的prefetch命令)的速度下载NCBI中的GEO数据。
软件下载与配置:
1. 使用wget 下载
http://101.96.8.140/d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.7.4.147727-linux-64.tar.gz 解压缩后执行sh文件安装
软件默认安装后在/home目录下会生成.aspera文件夹,其中asp的可执行文件ascp路径为~/.aspera/connect/bin/ascp
asp的秘钥文件存放在~/.aspera/connect/etc
可执行文件需要添加到PATH变量,由于本机使用了zsh,所以vim ~/.zshrc,输入export PATH=”/home/usrname/.aspera/connect/bin:$PATH”,添加配置文件后 source ~/.zshrc

这里写图片描述
2. 下载SRR数据:
aspc按照 $ ascp [参数] 目标文件 目的地址的路径使用
常用参数有:
-T 不进行加密。若不添加此参数,可能会下载不了。
-i string 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
–host=string ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk。
–user=string 用户名,NCBI的为anonftp,EBI的为era-fasp。
–mode=string 选择模式,上传为 send,下载为 recv。
-l string 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

这里写图片描述

对于本次作业,由于需要下载的数据较多(SRR3589956-62),可以编写一个脚本进行批量下载:

for i in `seq 58 62`;                                                   
do
ascp -T -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899${i}.sra ./
done

这里写图片描述

以上就是本次学习的内容,发现的问题主要在于对于linux环境下软件配置的不了解,以后会加强这方面的学习。

猜你喜欢

转载自blog.csdn.net/L_yivs/article/details/80704504