Ribosome profiling|N-terminomics|蛋白质基因组学

生物医学大数据-蛋白质基因组学：质谱注释

蛋白质组与其他组学的关系便是互为印证：蛋白质基因组学原本用于基因组注释，后面扩展到蛋白质与转录组或可变剪接之间关系，同时，蛋白质组依赖于基因组注释作为验证。许多研究未标明蛋白质基因组学，而是归属于对应的组学。

蛋白质基因组学现存问题：

基因组注释方法：1.Denovo。2.与转录组相应证。3.与基因组数据库同源比对。

基因组注释问题：

对于特定结构：

对于基因组的常规部分：

对于蛋白质组大量质谱数据没被充分解析，可能的原因是

没有充分解析造成许多没鉴定出来的数据，这些数据有可能是

蛋白质基因组学的作用：

1.修正基因模型，即增加新注释，增加新肽段2.反过来由新肽段增加新基因

蛋白质基因组学需要提高的方法

蛋白质实验方面：

数据库及数据处理方面：

常规部分存在的问题是大数据库存有大量噪音和相似，数据六位翻译结果搜索空间和denovo差不多。可以通过限制外显子大小，保留高分和正负库方法改进。质量评估时采用多段鉴定。假阳性高，动态范围宽，难鉴定可变剪接（可变剪接来源于denovo大数据库），重拼接假阳性高。

搜索速度方面：

质量过滤低质量、图谱聚类、去重或计算机并行的方法改良检索速度。

新方法：

加入RNAseq比对多重验证。

分成亚细胞组分多种方法鉴定。

体外转录翻译来验证

n-末端组学：使用对角线色谱查肽段末端

DNA和RNA数据辅助蛋白质鉴定

核糖体谱