Proteomics Data Analysis - (1) Principle

Currently, research on high-throughput proteomics far less NGS so hot, online knowledge in this regard are few, are also engaged in this line for some time, but not too good summary. Combined over time may have to do the training, so it's time to sum up the knowledge, right when the review. Of course, the whole proteomics research are also considered complicated, can not cover everything, but a lot of things I was learning, there will be a lot of flaws. After all, this notebook is mainly used for self-leak filled, if in addition to this also to help a friend in need, can be considered a hell.

This one's start from the principle, follow-up will be followed by summary proteomics identification, quantification, notes, post-translational modifications, and other basic content targeting, of course, also talked about the last downstream data analysis and processing.

I. Overview of Proteomics

Proteomics is the study of interaction in the particular system and its set of proteins.

Refers essentially proteome study is protein in a large scale level features, including protein expression level, post-translational modifications, protein-protein interactions, thereby obtaining about the disease on the protein level, cell metabolism the overall process and comprehensive understanding of the concept in 1994 Marc Wilkins was first proposed.

Why study proteomics?

I think a word is enough: Protein is the material basis of life activities, it is the executor of life.

Genome can explain what happened: that is to explain the role of each group to learn with the industry in simple words? Transcriptome explain what will happen? Proteomics explain what happened? Metabolomics explain what has happened?

Proteomics is a product of post-genomic era, the central dogma of the downstream, which far exceeds the complexity of genomics. Presence genome is relatively stable, while the protein between cells and cell groups are biochemical reactions with proteins and genes and the environment changes. In different parts of the same biological organisms, different times and different circumstances of life, with different protein expression.

Completion of the human genome sequencing projects did not give the keys to unlock provide life scientists to the protein of interest, we hope to further unravel the essence of life through the study of the proteome.

Second, the structure and principles of the mass spectrometer

Look at the image below, the proteomic analysis identified generally described process. After sample preparation is simply separated into the mass spectrometer, yielding the actual spectrum having a mass to charge ratio information, databases, and then the theoretical spectrum generated matching score thereby deduced protein information. Follow-up will explain this part.

Proteome analysis and identification process

From the graph we can see that research is inseparable from the mass spectrometer for high throughput proteomics, proteomic data analysis in order to understand the principle, we must first understand the mass spectrometer works.

1. The development of a mass spectrometer

The mass spectrometer development of several iconic stages :

The beginning of the last century, JJ Thomson invention, a first mass spectrometer;
40 years, mass spectrometers for measuring isotopic analysis and inorganic elements;
1960s, began to gas chromatography - mass spectrometry analysis of organic compounds applied;
80s, to be electrically spray, matrix assisted laser desorption ionization-based liquid chromatography - mass spectrometry is applied to the detection of biological macromolecules such as proteins.

2. The mass spectrometer structure

In simple terms, the mass spectrometer is used to measure the gaseous ion mass to charge ratio (m / z) instrument. First, FIG put, an intuitive feel MS long-sawed. Ah, I think, but the price is not cheaper than the sequencer ugly than sequencer.
Mass spectrometer

MS can be divided into inorganic mass spectrometry, isotope mass spectrometer, the mass spectrometer organic, biological mass spectrometer. After two more extensive use, the mass spectrometer for mass spectrometry proteomics analysis of biological belongs, mainly by the following structure.

1) Injection system
according to the physical form, is nothing more than a gas, solid, liquid three. Manner by injection, gas diffusion sample directly into the sample probe, and the like chromatographic sample.

2) ion source
effect ion source is charged sample molecules ionized into ions to be analyzed, and allowed to gather into a certain shape and energy of the ion beam under the action of the optical system, then it is separated into the mass analyzer.

The ion source can be divided into hard and soft Source source, hard ionizing source a high energy, the complex spectrum, obtained functional group of molecules information; soft low energy source, generates less debris, a simple spectrum, molecular ion peak is obtained. Common hard and soft ionization source such as electron impact ionization (EI), chemical ionization (CI), field ionization source (FI), field desorption ionization (FD), fast atom bombardment ionization (FAB), atmospheric pressure chemical ionization ( APCI), atmospheric pressure photoionization (APPI), electrospray ionization (ESI), matrix assisted laser desorption ionization (MALDI) and the like.

GC in series with the ion source electron impact ionization (EI) and chemical ionization (CI), commonly used in metabolomics. LC tandem mass spectrometry and ion source has electrospray ionization (ESI), matrix assisted laser desorption ionization (MALDI) atmospheric pressure photoionization (APPI) and the like, commonly used in proteomics, MALDI and ESI is also won the Nobel invention prize.

ESI using a strong electrostatic field (of 3-5 kV), forming highly charged mist droplets, solvent evaporation after repeated - splitting the droplet, generating a single multi-charged ions, the ionization process, generating multiple protonated ions, mainly for LC-MS spectrometer.

Thermally sensitive compound or nonvolatile MALDI ion can be directly obtained from the solid phase. 1250-775 wavelength of vacuum ultraviolet radiation photoionization and desorption to obtain molecular ions and fragment structured information, adapted to a complex structure, difficult vaporized molecules and introducing an auxiliary matrix to reduce excessive chipping. Generally use solid matrix, matrix sample ratio of 10000/1. The purpose of the analysis and the use of different substrates of different wavelengths.
ESIMALDI

3) The mass analyzer
mass analyzer of a mass spectrometer is the core of the charged ions according to their mass to separate He Bijia for use in various mass to charge ratio of the ion abundance record information. Usually a combination of different types of mass analyzer mass spectrometer constitute different functions, which is called tandem mass spectrometry.

The most commonly used mass analyzer are: A Quadrupole (Quadrupole); B TOF (time-of-flight, TOF); C ion trap (ion trap); D Orbitrap (Orbitrap).... .
Four common mass analyzer

飞行时间质谱 (TOF),分析物的质荷比是根据分析物在真空飞行管中的飞行时间推算出的。飞行时间质谱的质量分析器由调制区、加速区、无场飞行空间和检测器等部分组成。通过离子源得到离子以后,离子经过一个加速的区域,所有的离子都会获得一个相同的初始动能,然后它们进入一个没有电场的区域,不同质量的离子具有不同的能量,重的离子飞行速度会慢一些,轻的离子飞得快一些,最终离子都会通过整个飞行区域,到达检测器。飞行时间是与质荷比的平方根成正比的,通过无场区的飞行时间长短不同,离子可以依次被收集检测出来。这种质量分析器结构简单、扫描速度快、灵敏度高、质量范围宽。TOF质谱仪的外表特点就是非常长,为了让离子能够尽可能跑得远一些。
AB 4700 mass spectrometer and Bruker Ultraflex

四极杆 (Quadrupole, Q)由四根平行的棒状电极组成而得名。四根电极分成两组,两个相对的是一组,在相对的电极上加上一个相同的交流电压和直流电压,而在相邻的电极上,则加上相反的交流电压和直流电压,通过叠加交流电压和直流电压,不同质荷比的离子进入四级杆以后,会发生震荡,然后飞行转圈,当扫描的电压和频率一定的时候,只有特定质荷比的离子才能穿过四级杆。通过改变四级杆上的电压,我们可以让不同质荷比的离子依次穿过质谱仪,到达检测器。而其它质荷比的离子就会因为偏转太多,而打到四级杆上,或者从缝隙里穿出。这种质量分析器结构简单、体积小,仅用电场不用磁场,扫描速度快,特别适合液相色谱联机,分辨率不高,对高质量离子有质量歧视效应。四级杆质谱仪的外观结构比较紧凑。
Quadrupole

离子阱(ion trap)与四级杆原理类似,因此也称四级离子阱,它的横截图跟四级杆质谱仪是一样的,只是它的侧面开了一个洞,来作离子弹出用的。四级杆质谱仪中,离子是穿过质谱仪飞出去的,而在离子阱质谱仪中,离子不会飞出质谱仪,而是一直在阱里面,沿着下图像8字型的轨迹飞行(阱指的就是陷阱,把离子包在里面一直转圈)。当扫描电压达到一定的数值以后,离子会被射出来。比四级杆灵敏度更高,质量范围大。离子阱分为线性离子阱和三维离子阱。线性离子阱具有更大的离子容量和扫描速度。也有人将静电轨道离子阱(Orbitrap)归并为离子阱的一类。
Ion trap

TOF只能检测不同质荷比的离子,却不能选择让哪些离子留下,而四级杆和离子阱既可以检测离子,同时也可以实现离子的选择,将想要的离子留在离子阱中,或者说让特定的离子穿过四级杆。所以四级杆或离子阱又叫质量过滤器,它可以过滤特定质荷比的离子。所以质量分析器其实包括两个部分,即质量过滤器和质量检测器。

Orbitrap的工作原理类似于电子围绕原子核旋转。由于静电力作用,离子受到来自中心纺锤形电极吸引力,由于离子进入离子阱之前的初速度以及角度,离子会围绕中心电极做圆周运动。通过傅立叶变换(Fast Fourier Transform, FFT),得到频谱图。因为共振频率和离子质量的直接对应关系,可以由此得到质谱图。

另外还有一类常用的是傅立叶变换离子回旋共振质量分析器(FTICR),基于在强磁场中,离子的回旋频率与离子质量成反比,所以测量离子的回旋频率可以获得其质量。它无需分离不同质荷比的离子,而是在同一时间内同时测量所有离子的质荷比和丰度,最大限度地利用全部离子的信息,所以分析灵敏度高。但是FTICR对真空度要求极高,同时强磁场需要庞大的超导磁铁产生,所以成本很高。

FTICR和Orbitrap都是是基于离子在场中回旋运动,通过测定回旋共振频率,并进行傅里叶变换,来测定离子质荷比,区别在于Orbitrap用的是电场,而FTICR用的是磁场,所以Orbitrap性价比高,应用更广。

4)检测器
如电子倍增器、闪烁检测器、法拉第杯、照相检测等。

5)其他
除此之外,还包括真空系统,使离子可以稳定地飞行,不受其它空气分子的干扰。计算机系统,实现质谱仪的控制和数据的采集。气体系统,气体供应和废气处理(氮气、氩气)。电力供应,UPS不间断电源系统。

3. 质谱仪参数

评估一台质谱仪的性能,通常有以下指标:

1)检测限
与三倍噪音相当的物质的量,可以理解为这是质谱仪能够检测到的最低含量化合物的浓度。通常会用利血平来作为一个标准的化合物测定质谱仪的检测限。

可以认为,灵敏度与检测限评估的是同一种性能。

2)线性范围
表示在什么样的浓度范围之内,质谱仪检测到的信号与样品浓度之间成线性的关系。也就是说在这个浓度范围内的样品用这台质谱仪检测是比较合适的,高于或低于这个浓度范围的样品,需要浓缩或者稀释后才能用这台质谱仪检测。

一般质谱仪的线性范围在3-6个数量级,即1,000—1000,000范围内。而大部分质谱仪在1000 – 10,000这个范围内。

这个参数的意义在于,当我们的样品在一个比较宽的浓度范围内时,如果质谱仪的线性范围非常好,就不需要浓缩低浓度的样品,也不需要稀释高浓度的样品,可以直接进样,这样就可以大大减少样品前处理的复杂程度,节省时间和实验步骤。

3)分辨率

即我们通常所说的高分辨质谱。
image.png
分辨率就是质谱仪可以分辨最靠近的两个质谱峰的质量差值。当两峰重叠部分的高度不超过任何一个质谱峰峰高10%时,一般认为这是两个可分离的峰,测定其中任何一个质谱峰的半峰宽(即峰高一半处的峰宽),然后用任何一个峰的质荷比除以半峰宽,就可以得到分辨率。

目前高分辨质谱仪的分辨率可以达到50,000-100,000的数量级,一般的四级杆可以达到5,000-10,000。
image.png
上图圈出的峰在低分辨率时只能观察到一个峰(一个化合物),随着分辨率上升可以看出,这其实是两个不同峰的峰,所以高分辨率能获得更全面的化合物信息。

4)质量准确度
指质谱仪测到的质荷比与它实际的质荷比的差值,除以它真实的质荷比与1,000,000的乘积。所以它是以ppm为单位的(百万分之一),这个数值看起来更方便。目前高分辨质谱仪质量准确度在2-5个ppm的范围之内。

质量准确度高,可以大大减少候选化合物的数量,提高鉴定的成功率。

分辨率与质量偏差分别评估了质谱仪的精密度与准确性,通常希望两者都高。就像我们打靶,比如打靶,若每一次都打在不是靶点的同一个点,说明精密度非常高,但准确性却比较差;若每次打的点很分散,但平均起来的位置刚好在靶心,则说明质量准确性还可以,但精密度比较差。

目前我们能用到的高分辨质谱仪,不管是QTOF或者Orbitrap系列,都可以达到50,000以上的分辨率,同时也可以达到2-3ppm的质量准确性。下图是目前常用质谱仪的重要参数比较:
Comparison of mass spectrometer parameters
对于蛋白质组学研究来讲,我们对质谱仪器性能的最低要求是:分辨率至少在40,000-50,000,质量准确性应该优于5ppm,质量扫描范围应该在100-3,000,扫描速度是每秒至少获得一张高分辨的一级谱图和十张高分辨的二级谱图。

4. 串联质谱仪

串联质谱(MS/MS)就是将相同或者不同的质谱仪串联起来,实现串联或者并联工作。这样做一是为了产生二级碎片离子,二是实现不同质谱仪性能的优势互补。

常见的串联质谱有:

三重四级杆(Triple Quadrupole),或者串联四级杆,就是把三个四级杆串联起来,这样做的主要目的是为了实现二级质谱的扫描。

四级杆和飞行时间质谱仪串联到一起,就是我们经常听到的Q-TOF,它实际上是为了提高二级质谱的分辨率。

Orbitrap与四级杆/离子阱组合,比如Orbitrap Fusion,Orbitrap Elite等组合。

下面,用三重四级杆的例子来说明串联质谱仪是如何获得二级碎片离子的。
Tandem quadrupole

第一个四级杆Q1开启质量选择模式,它让特定质荷比的离子穿过质谱仪,而把其它的离子都甩掉(甩到四级杆上或者四级杆的空间当中去)。当特定的离子被选择好后(称为母离子,precursor ion),会进入碰撞池Q2(collision cell,用来碎裂离子)。在碰撞池里通常入口电压会高于出口电压,当母离子进来以后,通过电压差的作用加速,然后与碰撞池里的氦气或氮气分子发生碰撞、碎裂,形成碎片离子(fragment ions,也称子离子)。最后,这些碎片离子进入第三个四级杆Q3中进行二级的扫描,得到二级质谱图。
Two exemplary mass spectrum

其他的串联质谱运行大体是一样的。

Q-TOF,Bruker生产,Q1四级杆,Q2碰撞池,Q3飞行时间质谱仪。这里用了一个反射模式飞行(让离子拐个弯再飞回来),让离子在更短的空间内可以飞得更远一些。

Q-TOF
Orbitrap系列,如Q Exactive质谱仪,Q1也是一个四级杆,Q2是碰撞池,Q3是被一个Orbitrap所取代。

image.png
THAT

Orbitrap Elite,Q1离子阱,Q2碰撞池,Q3为Orbitrap。

Orbitrap Fusion,Q1四级杆,Q2离子阱,Q3为Orbitrap,同时还有一个碰撞池,整体是一个非常复杂的结构。它的特点是Orbitrap与离子阱可以同步进行扫描(一般质谱仪的两个质量检测器是不能同时扫描的,只能一个做质量检测,一个做质量过滤),所以扫描速度会更快,性能也更好。Fusion的分辨率可达到240,000 – 960,000。

三、蛋白质组学的鉴定原理

蛋白质组学鉴定常用基于二维凝胶电泳和基于质谱两种方法。

1.基于二维凝胶分离 (2D-Gel)鉴定

这是传统蛋白质组学鉴定方法。大致原理是2D-Gel根据蛋白的等电点和分子质量的差异,通过等点聚焦和SDS-PAGE分离,通过染色和成像把不同电性和大小的蛋白质显示在凝胶上。

具体来说,就是利用聚丙烯酰胺凝胶(SDS-PAGE)电泳的电荷效应和分子筛效应,使之凝胶电泳迁移率与所带的电荷多少以及分子大小都有关,电荷越多跑得越快,分子越小跑得越快。
SDS-PAGE protein gel electrophoresis FIG.
这是蛋白质组学湿实验常用鉴定方法,不是我们关注的重点。当然在基于质谱技术进行蛋白质鉴定前,也常常用这种方法来进行分离预处理。

2.基于质谱(MS)鉴定

1)鉴定大致流程

常规的蛋白质谱鉴定路线有这么几个步骤:
样本制备:细胞、组织、血液;蛋白复合体;特异修饰蛋白(如磷酸化、糖基化、泛素化等);
样本分离:1-D gel;2-D gel;LC(liquid chromatograph);
质谱分析:如MALDI-TOF、ESI-MS等;
数据库搜索:Sequest;Mascot;MaxQuant等;
数据分析:R、Linux、Perl、Python等。

2)色谱分离

色谱/层析(chromatography)是一种分离复杂混合物中各个组分的有效方法。它是利用不同物质在由固定相和流动相构成的体系中具有不同的分配系数,携带样品的流动相穿过固定相时,由于样品各组分理化性质存在差异,与固定相作用力弱的组分,移动速度快;反之,移动速度慢。根据不同的保留时间,收集特定属性的样品进行进一步分析。色谱有多种,可以按固定相类型和分离原理进行分类,根据流动相的不同可分为气相色谱和液相色谱。

根据相互作用类型的不同,色谱法可分为吸附色谱法:物理吸附法,分配色谱法,离子交换色谱法,尺寸排阻色谱法,亲和色谱法等等。目前,在蛋白质组学研究中,用得最多的就是分配色谱法,就是根据样品在固定相与流动相之间溶解度的差异来实现多肽或蛋白的分离。实际上是利用了多肽或蛋白疏水性上的差异。

液相色谱仪主要由以下4个部分组成:
色谱柱:玻璃柱+固定相
流动相输送系统:色谱柱填料很细,只有一点几微米到几微米,需要用一个泵来把流动相挤压下去。所以液相色谱要配一个泵系统,来输送流动相。
进样系统:用密封的系统需要一个自动进样器来完成。
检测系统:现在常用的有紫外或荧光,最简单的就是用肉眼来观察是否有样品流出。
Liquid Chromatography

上图左边是戴安的液相色谱仪,从上往下依次是泵系统、进样系统、柱系统和检测系统,右边是Waters的液相色谱仪,也是类似的结构。

对于蛋白质组学领域,常用的液相色谱仪是纳升液相色谱,其特点是色谱柱细,流速慢,减少样品被流动相稀释的倍数,从而提高检测的灵敏度。

高效(高压/高速)液相色谱(high performance liquid chromatography, HPLC)是目前很常用的一种液相色谱方法。其流动相为液体,在高压作用下快速流过固定相,分离效能高,灵敏度高,应用范围广,柱子可反复使用。最早洗脱出的是越亲水的。

3)液质联用技术

对于蛋白质组学研究来说,液相色谱和质谱是不能单独工作的,它们必须联机工作,才能实现对蛋白质的检测。

液相色谱仪是在常温常压下工作的,柱子是放在空气中运行的,而且样品是溶解在流动相(水或有机溶剂)当中的。而质谱仪需要在真空环境下工作,样品需要从溶液状态转化为气态,而且需要被电离。所以总的来说,我们需要一个电离源,能把样品从常温常压的液相状态直接变成真空中的气态离子状态。

电离源要实现的功能有三个:一是去溶剂和气化,把样品中的溶剂去掉,将待检测的多肽分子变成多肽的气态分子;二是将多肽的气态分子离子化,让它们带上电荷;三是把多肽的气态离子送到真空当中。

电喷雾电离(ESI)实现了这些,具体过程是这样的:样品首先通过一个毛细管喷针被喷出来,进入质谱仪,而在喷针的外面,会用一个鞘气(sheath gas)来辅助样品的雾化。对鞘气进行加热,当加热的鞘气吹到样品中或者溶液中时,溶液中的流动相或者溶剂就会挥发,就会剩下气态的离子。同时,在毛细管喷针尖端与质谱仪的入口之间,还会加一个电压,叫High voltage,对这些待电离的分子,首先溶剂挥发掉,然后分子被气化,最后在电场的作用下,分子就会变成离子,实现电离的过程。最后,这些离子会被质谱仪入口处的真空抽到质谱仪里,同时被电场驱动进入质谱仪。于是,就实现了气化、电离以及真空过渡三重需求。这就是液相色谱与质谱的接口,即ESI电喷雾电离。
ESI principle

简单来说,色谱用来分离化合物,质谱用来分析纯物质的结构。

3.蛋白质组学分析策略

1) Bottom up

目前蛋白质组学分析应用最广的方法。也是我们所说的“鸟枪法(shotgun)”,此处的“bottom”指的是肽段,“up”则是由肽段推理为蛋白的过程。即先将蛋白酶解成肽段,然后通过色谱分离肽段混合物,再用质谱技术将肽段碎裂,根据碎裂谱图的离子峰信息进行数据库搜索来鉴定肽段,最后将鉴定的肽段进行组装、重新归并为蛋白。

该方法技术发展成熟,相关的软件工具及算法都比较多,适合分析复杂样本。缺点是蛋白序列覆盖度不完整,据说覆盖度仅10%-20%。这就导致氨基酸序列高度相似的蛋白质变体(proteoform)推理不准确,而且由于是逆向组装蛋白,不适合进行翻译后修饰的检测。

2) Top down

这里的“top”指的是完整蛋白质分子的质量测定,“down”则是指对完整蛋白的碎裂。无需酶解,通过完整蛋白质的质量及其碎裂谱图信息可以实现真正意义上的蛋白质鉴定,序列覆盖度高(号称100%),能保留多种翻译后修饰之间的关联信息。但是该方法通量较低,不适合分析复杂样本,在完整蛋白质分离、质谱分析、生物信息学等各方面的技术相对也不完善。

蛋白质谱原理暂时介绍到这里,主要还是介绍质谱仪的相关常识,下篇笔记将重点介绍基于串联质谱以及bottom up方法的蛋白质组学鉴定分析流程。

Ref:
PS: Some pictures from the paper, Li Qin teacher from the College of Biological Sciences, China Agricultural University
http://www.crickcollege.com/news/179.html
http://www.crickcollege.com/news/220.html
HTTP: //www.crickcollege.com/news/222.html
http://www.crickcollege.com/news/233.html
https://wenku.baidu.com/view/d881c10502020740be1e9bad.html
https://wenku.baidu .com / view / 85e9bbe9a5e9856a571260a0.html

Guess you like

Origin www.cnblogs.com/jessepeng/p/11204291.html