Omics Jingjin 09 | Processus de routine d'analyse de la bio-information de l'ARNm

Cet article présente le processus d'analyse biométrique de l'ARNm

Contenu de cet article

Un bref aperçu de la bioanalyse de l'ARNm

Étapes détaillées pour l'analyse de l'ARNm

Contrôle et filtrage de la qualité des données

Contrôle de la qualité des données FastQC

filtrage des données cutadapt

Alignement du génome de référence

Assemblage de transcription

Analyse de l'expression génique

La différence entre TPM, RPKM, FPKM

Analyse d'expression

Analyse de l'expression différentielle des gènes

Analyse d'enrichissement du gène différentiel KEGG | GO

KEGG (Encyclopédie de Kyoto des gènes et des génomes)

ALLER (GENE ONTOLOGY)

Analyse de fusion génique

Analyse de cisaillement variable

Référence


Un bref aperçu de la bioanalyse de l'ARNm

L'analyse du biosignal de l'ARNm comprend principalement les parties suivantes.

Étapes détaillées pour l'analyse de l'ARNm

Contrôle et filtrage de la qualité des données

  • Contrôle de la qualité des données FastQC

Faites attention à la qualité de base, au rapport GC, etc. des données de séquençage. Reportez-vous à la partie encadrée rouge de la figure ci-dessus. En règle générale, vous regarderez plusieurs images telles que:

Figure clé 1

 Figure clé 2

Plus de timbres: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html

  • filtrage des données cutadapt

Supprimez les liens ajoutés lors de la construction de la bibliothèque, les bases de mauvaise qualité aux deux extrémités des lectures, les N-bases et les lectures courtes.

Alignement du génome de référence

Utilisez le logiciel de comparaison de transcriptome pour comparer les lectures propres obtenues à l'étape précédente avec le génome de l'espèce correspondante.

Logiciel de comparaison de transcriptome , vous pouvez choisir HISAT2 ou STAR ou TopHat (à choisir sur demande), la différence entre les trois:

  • La vitesse de comparaison de HISAT2 est 2,5 fois celle de STAR et 100 fois celle de TopHat;
  • 相比于STAR et TopHat,STAR允许更多的soft-clipped事件和错配,会得到更多比对reads;

Le rôle de la comparaison : 1. Évaluer la qualité de la construction de la bibliothèque (interrompue au hasard pendant la construction de la bibliothèque, si la bibliothèque est de haute qualité, le caractère aléatoire de l'interruption est bon, et les lectures seront uniformément réparties sur le génome lors de la comparaison) 2. Évaluer si le séquençage de l'ARNm est disponible Importance (en théorie, les lectures doivent être principalement comparées à CDS_Exons, la raison est comme le montre la figure ci-dessous, CDS_Exons occupe la majeure partie de l'ARNm).


Assemblage de transcription

La raison de l'assemblage est qu'en raison de la limitation de la longueur de lecture du séquençage de deuxième génération, l'ARNm doit être divisé en petits fragments pour le séquençage. Le but de l'assemblage est de ré-épisser le transcrit complet en utilisant la méthode de biosynthèse.

Le logiciel d'assemblage principal est Stingtie et Cufflinks , les deux différences logicielles:

  • StringTie比CufflinksPlus précis et sensible;
  • StringTiePlus vite que Cufflinksvite;
  • StringTieLe nombre de transcriptions assemblées est plus élevé Cufflinks;

Analyse de l'expression génique

  • La quantité d'expression génique fait référence au nombre de transcrits comparés à un gène spécifique dans une cellule ou à une certaine quantité molaire d'ARN (quantification absolue, le nombre de cellules doit être connu) ou comparés au transcrit dans les conditions de recherche actuelles. ratio (quantitatif relatif), plus directement, consiste à comparer le nombre de lectures;
  • La quantité d'expression génique est positivement corrélée avec la longueur du gène et la profondeur de séquençage : dans un échantillon, plus le gène A est long, plus il y aura de fragments interrompus au hasard lors de la construction de la base de données, plus la probabilité d'être séquencé sera élevée et plus les lectures seront être comparé au gène A; parmi différents échantillons, plus la profondeur de séquençage de l'échantillon est élevée, plus le gène A est détecté, et plus les lectures sont comparées au gène A. Par conséquent, la méthode de comptage direct des lectures pour calculer l'expression est problématique. Il existe trois méthodes de standardisation TPM / FPKM / RPKM. Le nombre de lectures est divisé par la longueur du gène et la profondeur de séquençage est utilisée pour corriger l'influence des deux sur l'expression .

La différence entre TPM, RPKM, FPKM

  • Différences dans les trois méthodes de standardisation de TPM / FPKM / RPKM:

  • TPM ( Transcriptions PerKilobase Million ) ,

Xi, le nombre de lectures par rapport au gène i

Li, la longueur du gène i ( la somme des longueurs de tous les exons )

Xi / Li, le nombre de lectures après correction du gène i, utilise la longueur du gène pour corriger le nombre de lectures pour chaque gène

i gène TPM c'est-à - dire lit le nombre i correction de la longueur du gène échantillonner tous les gènes après avoir corrigé la longueur du nombre de lectures et

  • RPKM ( Lectures par million de kilobases

Le RPKM du gène i est le nombre de lectures après correction de la longueur du gène i / la  somme du nombre de lectures de tous les gènes de l'échantillon

Autrement dit, le RPKM d'un gène dans un échantillon est égal au nombre total de lectures qui tombent sur le gène (lectures d'exons totales) et au nombre total de lectures (lectures mappées (millions)) et à la longueur du gène (longueur d'exon (Ko )) de cet échantillon Le ratio des produits.

  • FPKM ( Fragments par million de kilobases

La différence entre FPKM et RPKM est visible dans le nom. FPKM remplace le nombre de lectures par le nombre de fragments (la figure ci-dessous montre la différence entre les lectures et les fragments). Pour la stratégie de séquençage SE, FPKM équivaut à RPKM; pour PE stratégie de séquençage, FPKM utilise le calcul des fragments;

Analyse d'expression

Bien que je pense que TPM est plus précis, parce que les trois peuvent être convertis l'un à l'autre, ils sont tous utilisés.

Selon différentes préoccupations, différentes combinaisons de logiciels peuvent être utilisées:

  • Concentrez-vous sur la quantification des transcriptions connues et nouvelles, en utilisant des boutons de manchette ou StringTie;
  • Concentrez-vous sur la quantification du niveau de transcription, utilisez RSEM ou eXpress pour comparer directement les lectures aux transcriptions de référence;
  • Sans comparaison quantitative, des ressources de calcul d'économie sont disponibles Sailfish, ou Salmon, ou quasi-mapping, oukallisto;

Analyse de l'expression différentielle des gènes

Le but important de l'analyse du transcriptome est de trouver des gènes qui sont différentiellement exprimés entre les échantillons du groupe de cas et du groupe témoin;

L'analyse d'expression différentielle dépend de l'expression de chaque gène obtenu à l'étape précédente;

Il existe de nombreux outils analytiques, selon la dépendance à la technologie, peuvent être divisés en:

  • méthode basée compte, disponible DESeq, limmaetedgeR;
  • assembly-based方法,可用CuffdiffavecBallgown;
  • alignment-free方法,détective;

Selon qu'il y a duplication biologique , DESeq est disponible sans duplication biologique, et DESeq2 est disponible pour duplication biologique;

Analyse d'enrichissement du gène différentiel KEGG | GO

Évaluer les fonctions biologiques et les voies que les gènes différentiels affectent principalement.

  • KEGG (Encyclopédie de Kyoto des gènes et des génomes)

Découvrez quelles voies métaboliques biochimiques et voies de transduction du signal sont principalement affectées par des gènes différentiellement exprimés .

  • ALLER (GENE ONTOLOGY)

Découvrez quels termes GO (processus moléculaire à biologique, divisés en trois catégories: fonction moléculaire, composant cellulaire et processus biologique) des gènes différentiellement exprimés sont principalement enrichis en, et évaluez quelles fonctions biologiques des gènes différentiellement exprimés sont significativement liées à l'up- régulation des fonctions biologiques Régulation toujours en baisse.

Analyse de fusion génique

Les CDS de deux gènes ou plus sont connectés bout à bout, partageant le même ensemble de séquences régulatrices pour former un nouveau gène, c'est-à-dire un événement de fusion de gène, qui peut se produire au niveau du génome et du transcriptome, comme le montre la figure ci-dessous. .

Différences de fusion entre le transcriptome et le niveau du génome ( https://www.cnblogs.com/aipufu/p/11615336.html )

L'identification de la fusion génique peut être basée sur le séquençage du génome entier (WGS), les données de séquençage du transcriptome (RNA-seq) ou une meilleure combinaison des deux technologies.

La fusion génique identifiée par WGS peut être essentiellement déterminée comme étant causée par une certaine mutation au niveau du génome, mais s'il n'y a pas de données de séquençage du transcriptome, il est impossible de déterminer avec précision si le nouveau gène généré après la fusion peut être exprimé, ou le niveau d'expression .

Les données de séquençage du transcriptome ont identifié la fusion de gènes , l'expression des gènes peut clairement être capable d'intégration, mais on ne peut pas être complètement sûr si elle est produite par la variation génomique , l'ARN ou par la survenue d'une fusion post-transcriptionnelle de deux gènes différents.

Par conséquent, si les conditions le permettent, la combinaison du séquençage du génome entier et du séquençage du transcriptome pour identifier les fusions géniques peut obtenir des résultats d'identification plus précis.

Importance de la recherche: les causes de certains cancers sont étroitement liées à la survenue du cancer. Dans la conception du panel Gene de l'article précédent, la fusion de gènes est également un type important de mutation, comme le montre la figure ci-dessous (gène de fusion VS tumeur )

Fusion de gènes et médicaments ciblés

L'analyse des informations de fusion génique peut être utilisée pour l' analyse STAR , et d'autres logiciels sont comme indiqué dans la figure ci-dessous.

Le mécanisme principal des événements de fusion génique : translocation, insertion, inversion, voir la figure ci-dessous

Analyse de cisaillement variable

Importance de la recherche: Faites attention à cet article "Shi Yigong: Environ 35% des maladies génétiques connues chez l'homme proviennent de l'héritage d'épissage", comme l'atrophie musculaire spinale familière (SMA), la maladie d'Alzheimer et la maladie de thalassémie, etc. .

Un épissage alternatif se produit entre le pré-ARNm et l'ARNm mature dans le processus de transcription. Le corps d'épissage de l'ARN supprime les introns et réintègre les exons en différents nombres (comme le montre la figure ci-dessous), ce qui entraîne plusieurs transcriptions et la traduction de plusieurs transcrits. En différentes protéines, rendant les protéines riches et diversifiées.

Lors de l'analyse de la biosynthèse, ASprofile peut être utilisé pour effectuer une analyse d'épissage variable sur la transcription assemblée par StringTie et compter les types d'événements d'épissage variables et les niveaux d'expression . Les catégories d'événements d'épissage variables communes sont illustrées dans la figure ci-dessous, y compris le saut d'exon et l'extension d'intron, 5'end ou 3'end, etc.

Référence

Je suppose que tu aimes

Origine blog.csdn.net/qq_21478261/article/details/111106913
conseillé
Classement