PacBio三代测序专业术语解读

PacBio三代测序专业术语解读

测序百家 • 2017年3月28日 pm3:57 • 生命科学 • 阅读 844

以下是Pacbio官方的Pacific Biosciences Terminology英文版的中文翻译,仅供参考,如有问题请纠正。

1. 基本技术

  • circular consensus sequencing (CCS) read: 环形一致性序列,这种一致性序列通过对来自单个ZMW中的subreads进行比对产生。注意产生的CCS read不包括或不需要与参考序列比对。产生的CCS reads使用CCS算法需要至少两轮读取来自插入片段的subreads。

自动草稿

  • full-pass subread:指的是subread开始于一端的adapter然后在另一端的adapter序列终止。full-pass subread不会从插入序列的中间部位起始或终止。 
  • mapped polymerase read length: 过滤后,可比对至参考基因组序列上的测序reads的长度,Polymerase Read是包含adapters的。
  • mapped subread length: 比对到目标参考序列的subread的长度,其中不含接头序列。

自动草稿

  • N50 read length metric: 指的是测序得到的reads中,50%的reads长度长于或等于这个值
  • paired barcodes: 在SMRTbell™ template中插入序列两端的barcode序列均不一致的barcode序列。barcoding分析软件使用独特的barcodes对来区分和分析reads。
  • polymerase read: 即高质量测序reads,包含adaptors以及测多次获得multiple subreads。
  • polymerase read length: 去除低质量区域后一个零模波导孔中产生的总碱基数。其中可能包含接头序列。
  • polymerase read quality: 测序reads中,single-pass read的平均质量值。
  • preassembled long read (PLR): 在HGAP预装配步骤中输出的read。
  • productivity: 对来自一个ZMW的reads的计算。P=1表示来从ZMW产生了一条polymerase read。P=0表示这个ZMW没有产生read,其可能原因是缺少聚合酶。P=2表示其他情况,此测序数据不可用,可能是ZMW中存在多个模板-聚合酶复合物,较高的背景信号等原因。
  • read quality (RQ): 对来自一个零模波导孔的subreads的准确度进行预测。有时也用QC Score或Read Score代替。
  • subread: 每一个polymerase read被分割形成一个或多个subreads,这些subreads包含来自被聚合酶测通的插入片段单条链的序列但不包含接头序列。
  • symmetric barcodes: 在SMRTbell template插入片段两端序列都相同的barcode序列。
  • zero-mode waveguide (ZMW): 即零模波导孔,其为一种用于将光线限制在小的观测体积的纳米光学设备,这是一种具有导电层的小孔。这种小孔由于直径太小而限制光线在用于检测的波长范围内传播。其为SMRT Cell的一部分。
  • MagBead: 小的超顺磁性磁珠,粒径2-3 um,将DNA-聚合酶复合物结合在磁珠上,然后能用于在偶联步骤洗去上清中的污染物。DNA-聚合酶/磁珠复合物能被用于仪器固定步骤。
  • SMRT® Cells: 由零模波导孔纳米结构阵列组成的基底。SMRT Cells连同DNA Sequencing Kit一起用于仪器的DNA测序。

 2. 模板制备

  • barcode padding: 一段可选的连于特定的barcode序列上的五碱基对恒定序列。能被用于在模板制备时标准化adapter的连接。
  • barcoded adapter: 在发夹结构区域末端连有barcode序列的SMRTbell接头序列。当使用barcoded adapters,SMRTbell模板将有一段对称的barcode结构。
  • barcoded SMRTbell™ template: 带有两个barcoded adapters的SMRTbell模板。
  • diffusion loading: 通过扩散的方式将DNA-聚合酶复合物固定到SMRT Cell中的零模波导孔中。更小的插入片段与更大的插入片段相比会优先进入零模波导孔。
  • DNA damage repair: DNA损伤修复,这是在SMRTbell模板制备中的一步,用于修复各种类型的DNA损伤,包括嘧啶二聚体、无碱基位点和切口。
  • DNA end repair: DNA末端修复。这是在模板制备中的一步,用于移除5’端和3’端多出来的序列,并使5’末端磷酰化。
  • DNA fragmentation: 产生更小的DNA片段。多种方法可以用于片段化DNA,包括机械剪切,超声和酶切等。
  • input DNA: 用于DNA模板制备的纯化的DNA。
  • insert size: 在SMRTbell模板中双链核苷酸片段的长度,不包括发夹结构的接头序列。
  • MagBead loading: 通过磁珠将大分子的DNA固定在零模波导孔的底部。过小的插入片段,接头二聚体和过量的聚合酶会在磁珠结合和洗涤的步骤中被洗脱。与扩散的固定方式相比,该方法能使中等大小和更大的插入片段会被更好的固定在零模波导孔上并且拥有更高的测序准确度。
  • polymerase binding: 测序聚合酶结合在核酸模板合适的结合位点上。
  • primed template: 指的是结合了退火后引物的模板分子。
  • primer annealing: 测序引物和模板合适结合位点的杂交。
  • size selection: 片段选择,从不同长度的序列混合物中去除不想要的片段。其可以代表仅移除最小的片段,例如接头二聚体;或者分离出非常窄范围的插入片段。依据我们感兴趣的片段范围和可用的仪器设备,可采用AMPure PB beads,人工胶回收,自动胶分离或者使用BluePippinTM或SageELFTM片段选择系统。
  • SMRTbell™ template: 两端连有发夹状接头的双链DNA模板。SMRTbell模板为哑铃型,通过DNA Template Prep Kit制备而成。

自动草稿

  • template-polymerase complex:连有引物的模板结合上聚合酶;由DNA/Polymerase Binding Kit制备而成。

3.  基本软件

  • PacBio® DevNet (http://www.pacb.com/products-and-services/analytical-oftware/devnet/): 为信息学研究人员和生命科学家提供包括数据集、源代码、应用程序编程接口和文档等资源。
  • SMRT® Link: 针对Sequel系统开发的基于网页的端对端工作流程管理。它包括用于构建样品,监控测序过程,分析和管理测序数据的软件应用。

– Data Management: SMRT Link的软件模块用于创建项目和数据集以及管理项目和使用者的访问权限。

– SMRT® Analysis: SMRT Link软件模块用于执行数据的二级分析包括序列比对,变异检测,de novo组装,RNA分析和检测DNA表观修饰。

  • SMRT® View: 基于Java的基因组浏览器用于可视化比对或组装reads。部分SMRT分析,其为SMRT分析套件的一部分。

 Sequel系统涉及:

  • Sequel Instrument Control Software (ICS): 其为一套包含控制上机操作,用户界面和初级分析的仪器功能控制软件。
  • Run Design: 其为SMRT Link软件模块,可为用户提供一个简单的工作流程。
  • Run QC: 其为SMRT Link软件模块,用于帮助用户实时监控仪器运行情况。
  • Sample Setup: 其为SMRT Link软件模块,用于Sequel系统DNA样品制备过程中结合和退火反应的样本使用量计算。

PacBio RS II系统涉及:

  • Binding Calculator: 这是一种基于网页的应用,用于PacBio RS II系统DNA样品制备过程中结合和退火反应的样本使用量计算。
  • RS Dashboard: 这是一种基于网页的应用,能让用户在桌面上进行运行监控和运行后评估,RS Dashboard能给出的重要的运行指标包括运行参数,读长,质量评估,数据通量等。
  • RS Remote: 这是一种基于Windows客户端的软件,用于设计和监控测序运行。用户可通过RS Dashboard查看初级分析数据。
  • RS Touch: RS Touch拥有整合在RS II上的触摸屏界面,能够让用户有效的管理测序运行过程。
  • SMRT™ Pipe: SMRT分析套件的命令行界面,SMRT Pipe用于执行二级分析工作。
  • SMRT™ Portal: 其为基于网页的软件,用于帮助建立二级分析和查看质量报告。其为SMRT分析套件的一部分。

4. 初级分析

  • high-quality (HQ) region: 在对原始数据处理时对read上的高质量序列区域进行注释。
  • movie time: 特指从SMRT Cell获取测序数据的时间。
  • primary analysis: 指的是包含测序时的信号处理,碱基识别,碱基识别的质量评估,裁剪原始数据为高质量区域,识别adapter,barcode(可选),控制测序reads,比对read得分及以BAM格式输出subread数据等分析内容。
  • QV Metric: 类似于Phred的评分用以反映每个碱基正确读取的可能性。
  • raw read trimming: 将原始序列中的一部分去除,例如去除低质量的区域。裁剪一个未经过滤的read会产生polymerase read。
  • reads/SMRT® Cell: 每个SMRT Cell产生的reads数目。

5. 二级分析

  • Arrow: (Note: This replaces Quiver.) 一种高精准度的一致性序列和变异检出工具,利用该工具能产生大于99.999%的精准一致性序列。其为SMRT Analysis的一部分。
  • BLASR: 用于靶向测序。用于将reads比对到参考序列上。其为SMRT Analysis的一部分。
  • consensus accuracy: 基于将多条测序reads或subreads一起比对获得的精准性。
  • circular consensus accuracy: 基于多条通过单一环形模板分子测序获得的一致性序列的精准性。
  • circular consensus sequence analysis: 将环形一致性序列产生的测序数据处理产生一个环形一致性read的过程。
  • circular consensus sequencing (CCS): 测序在一个环形的模板上进行,当测序每测通一次模板会产生一个subread。这些reads相互之间比对会产生一个高精度一致性序列。进行环形一致性序列分析产生环形一致性reads至少需要产生两轮subreads。
  • HGAP: HGAP是一种利用PacBio数据产生高质量的de novo组装结果的软件。HGAP包括前组装,de novo组装和组装修正步骤。HGAP3利用AseembleUnitig模块用于de novo装配,Quiver用于组装矫正。HGAP4利用Falcon进行de novo装配,Arrow用于组装矫正。

自动草稿

  • Quiver: 一种高精准度的一致性序列和变异检出工具,利用该工具能产生大于99.999%的精准一致性序列。其为SMRT Analysis的一部分。
  • secondary analysis application: 二级分析流程可能包含多个分析步骤。分析的应用包括de novo组装,重测序,RNA和表观分析。
  • tertiary analysis: 在二级分析后进行的分析,包括对不同样品二级分析结果间的比较,特定应用的分析,变异分类和疾病相关基因的注释等。

6. 碱基修饰

  • amplified control: 这是通过对感兴趣样本进行扩增后单独测序构建的对照。
  • interpulse duration (IPD): 脉冲间隔时间,指的是显示碱基插入事件的发射脉冲间的时间间隔。模板分子的碱基修饰能影响脉冲间隔时间,所以脉冲间隔时间的改变能被用于检测SMRT测序过程中的碱基修饰。
  • IPD Ratio: IPD比率。指的是在模板中探究位置处,一个自然样本的平均IPD值与第二个样本或是与in silico control的平均IPD值之间的比值。
  • in silico control: 指计算模型预测的所检测序列的平均IPD。

 7. 仪器术语

仅适用于PacBio RS II系统:

  • Blade Center: 包含用于处理初级分析和控制仪器的计算机平台。
  • carrier plate: 这是一种有12个插槽的金属板用以容纳装有8个SMRT Cell的长条。
  • drawer: 用于存放耗材的抽屉,抽屉左右两边间隔开,左边的抽屉存放试剂和样本,右边的抽屉存放SMRT Cells和枪头。
  • Environmental Cabinet: 仪器最右侧的隔间,包含氮引入口和制冷机次模组。
  • tip station: SMRT Cell和枪头抽屉中的区域,用于容纳最多6盒移液器枪头。

猜你喜欢

转载自blog.csdn.net/u010608296/article/details/89960247