RNA-seq技术之转录组从头组装介绍

RNA-seq技术之转录组从头组装介绍

转载2016-05-31 17:07:39

1.何为转录组组装

        说起转录组组装,不得不先说新一代测序技术(next generation sequencing)。自从2005年454生命科学公司推出第一款二代测序仪器以来,二代测序技术飞速发展,Illumina和ABI公司先后推出各自的二代测序仪Genome Analyzer和SOLID,并且都陆续升级,Illumina当前主推的是hiseq2000和hiseq4000和MiSeq,ABI当前主推的是ion torrent,而454则已经停止服务而成为历史,另外也有一个2.5代或号称三代的平台Pacbio加入到转录组测序应用中。

主要用于转录组测序的NGS平台。表格来自BMC Genomics(Michael A Quail et al.,2012)

        二代测序技术大大提高了测序的通量,且极大降低了单个碱基的测序成本,但是在测序长度上,二代测序技术只能达到几十到几百个(Ion Torrent长度较长,但是也只能达到平均400nt左右的读长)碱基的读长,不能一次性读完整个基因组或基因序列,测序得到的序列只是基因或者染色体上的一段序列,因此需要通过组装的方法,将测到的序列拼接成完整的基因或基因组。

       由于目前主流的转录组组装仍然是基于hiseq系列的平台,因此本文讨论的内容主要基于hiseq系列平台。

2. 转录组组装的实验策略

(1)建库        

       根据研究对象,如果是主要关注PolyA的mRNA序列,则可以通过富集PolyA的方式建库,如果关注mRNA+lncRNA,则可以通过去rRNA的试剂盒的方式来建库,且推荐建链特异的文库,可提高后续组装准确性。

      如果某物种能获取多个组织,则可以取多个组织分别进行建库,或者将多个组织的RNA混合后进行建库测序,从而得到更加完整的转录组数据集。

(2)测序

       测序方面的选择主要是Single end(SE)或Pair end(PE)测序,以及read长度。做组装推荐PE测序,有条件的话,尽量做PE100或者PE150,测序read读长越长对组装越有利。

       测序量方面,可以根据该物种基因注释集的大小大致推算,譬如对于人的基因集大概100M,如果平均测50X的话,就是至少测5G的clean data 。当然如果有条件,数据量越大越好。

3. 数据分析方法

(1)组装流程       

       目前主流的组装流程如下:

转录组组装的流程

       大致流程为:单个样品的测序数据经过基本过滤后,通过组装软件组装得到初级转录本,然后通过TGICL软件进行聚类,Phrap软件进行拼接去冗余得到该样品的Unigene,然后多个样品得到的Unigene通过TGICL+Phrap进行再次拼接去冗余,得到最终的All-Unigene序列。

(2)组装工具

       用于组装的工具非常多,最初用于转录组组装的软件其实来自基因组拼接工具,譬如SOAPdenovo,ABYSS,Velvet等。但是后来考虑到 转录组序列的复杂性,如一个基因可能由于可变剪切形成多种不同的转录本,而基因组组装软件对于这种序列的拼接不尽理想,因此科学家开发了专门针对转录组组装的版本,代表性的软件有SOAPdenovo-Trans,Trans-ABySS,Trinity。其中2011年发表于NBT的Trinity(Grabherr MG et al.,2011)目前使用最为广泛,本文也推荐大家使用该软件进行转录组组装。

       转录组组装软件的介绍可以参考如下两个链接:

       所有序列拼接软件:

        https://en.wikipedia.org/wiki/Sequence_assembly

       转录组组装软件:

       https://en.wikipedia.org/wiki/De_novo_transcriptome_assembly

(3)基因注释及后续挖掘

       组装得到转录组数据集(Unigene集)后, 可以通过与已有数据库的比对(blast),对转录组数据进行注释,进而了解Unigene的功能,为进一步的生物学挖掘打下基础。

基因功能注释的常用数据集

       有了Unigene集和基因功能注释之后,就可以深入挖掘很多信息了,譬如将reads比对到Unigene序列,对样品间基因进行定量和差异分析,寻找个体特异的SNP位点(Xiao-Wei Wang et al.,2012),进行SSRs(simple sequence repeats)注释,物种间GC含量分析,针对植物还可以进行转录因子的预测等分析。

(4)案例文献推荐

       最近几年转录组denovo组装的文献非常多,以发表在BMC Genomics,PLoS One等5分左右影响因子的杂志居多,这里给大家推荐几篇有代表性的文献,供学习参考。

 [1]Wang Z, Fang B, Chen J,et al. De novo assembly and characterization of root transcriptome using Illumina paired-end sequencing and development of cSSR markers in sweet potato (Ipomoea batatas). BMC Genomics. 2010,11:726.

       通过对甘薯进行转录组测序,建立了第一个甘薯转录组数据库,开发了cSSRs标记,用于甘薯育种。

[2] Priyanka Verma et al.Development of an expressed gene catalogue and molecular markers from the de novo assembly of short sequence reads of the lentil (Lens culinaris Medik.) transcriptome. Plant Biotechnology Journal.2013,11(7):894–905.

       小扁豆转录组案例,该文章的亮点在于对组装 过程进行了充分的评估,通过多种不同软件的比较,选取最有软件,并且同一个软件也比较了不同参数的效果,最终选取组装结果最理想的软件和参数组合。

[3] Liu B, Jiang G, et al. Analysis of transcriptome differences between resistant and susceptible strains of the citrus red mite Panonychus citri (Acari:Tetranychidae). PLoS ONE. 2011,6(12): e28516.

       该文章通过对柑橘全爪螨杀螨剂抗性品系与敏感品系的转录组测序,找到了差异表达基因和抗虫剂相关基因。

4.转录组组装的发展方向

       随着测序技术的快速发展,测序读长越来越长,且成本越来越低,今后可能就不需要进行转录本的组装了。目前PacBio推出的PacBio RS II SMRT Sequencing已经能够达到平均10k以上的读长,基本能够涵盖绝大部分的mRNA序列了,相信随着技术的进步和成本的降低,全长转录组将会很快得到大规模应用。全长转录组作为转录组测序的新技术,今后有机会给大家做个单独的主题分享。

猜你喜欢

转载自blog.csdn.net/u010608296/article/details/88849560
今日推荐