Assemblage et quantification de transcription (stringtie) pour l'apprentissage du transcriptome [version facile à comprendre des notes d'étude]

date : 2023.07.25

flûte à bec : CYH-BI

Remarque spéciale : Cet article est un dossier d'étude de ma propre étude, sans aucune autorité, il ne peut que fournir des idées et des références pour les débutants.
Cet article connaît l'adresse : https://zhuanlan.zhihu.com/p/645770755

outil stringtie pour l'assemblage et la quantification de transcriptions

Présentation du logiciel

StringTie est un assembleur d'alignement de séquences RNA-Seq rapide et efficace . Son entrée comprend non seulement des alignements d'autres assembleurs de transcription, mais également des séquences à lecture courte. Pour identifier les gènes exprimés de manière différentielle entre les expériences, Ballgown, Cuffdiff ou un autre logiciel spécialisé ( DESeq2 , edgeR, etc.) peut être utilisé pour traiter la sortie de StringTie .

Stringtie applique un algorithme de flux de réseau dérivé de la théorie de l'optimisation, ainsi qu'une stratégie d'assemblage de novo facultative, pour assembler ces lectures courtes en transcriptions. Comparé à d'autres logiciels d'assemblage de transcriptions actuels, stringtie a un effet d'assemblage de gènes plus précis et une meilleure estimation de l'expression des gènes, et le nombre de transcriptions assemblées obtenues grâce à celui-ci est également supérieur à celui des autres logiciels.

Adresse utile : https://phantom-aria.github.io/2022/04/17/a.html (cet article résout de nombreux problèmes)

Installation de l'outil Stringtie

Méthode 1 : Utilisez le package d'installation du site Web officiel pour installer

1. Télécharger le package

wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.2.1.Linux_x86_64.tar.gz

2. Décompressez

tar -zxvf stringtie-2.2.1.Linux_x86_64.tar.gz

3. Environnement de configuration

vim ~/.bashrc
export PATH=$PATH:"/home/cyh/biosoft/stringtie-2.2.1.Linux_x86_64: $PATH"
source ~/.bsahrc

Méthode 2 : Installer à l'aide de conda

conda install -c bioconda stringtie

Utilisation de strings

Utilisez -h ou –help pour afficher les paramètres et l'utilisation

 --mix : both short and long read data alignments are provided
        (long read alignments must be the 2nd BAM/CRAM input file)
 --rf : assume stranded library fr-firststrand
 --fr : assume stranded library fr-secondstrand
 -G reference annotation to use for guiding the assembly process (GTF/GFF)
 --conservative : conservative transcript assembly, same as -t -c 1.5 -f 0.05
 --ptf : load point-features from a given 4 column feature file <f_tab>
 -o output path/file name for the assembled transcripts GTF (default: stdout)
 -l name prefix for output transcripts (default: STRG)
 -f minimum isoform fraction (default: 0.01)
 -L long reads processing; also enforces -s 1.5 -g 0 (default:false)
 -R if long reads are provided, just clean and collapse the reads but
    do not assemble
 -m minimum assembled transcript length (default: 200)
 -a minimum anchor length for junctions (default: 10)
 -j minimum junction coverage (default: 1)
 -t disable trimming of predicted transcripts based on coverage
    (default: coverage trimming is enabled)
 -c minimum reads per bp coverage to consider for multi-exon transcript
    (default: 1)
 -s minimum reads per bp coverage to consider for single-exon transcript
    (default: 4.75)
 -v verbose (log bundle processing details)
 -g maximum gap allowed between read mappings (default: 50)
 -M fraction of bundle allowed to be covered by multi-hit reads (default:1)
 -p number of threads (CPUs) to use (default: 1)
 -A gene abundance estimation output file
 -E define window around possibly erroneous splice sites from long reads to
    look out for correct splice sites (default: 25)
 -B enable output of Ballgown table files which will be created in the
    same directory as the output GTF (requires -G, -o recommended)
 -b enable output of Ballgown table files but these files will be 
    created under the directory path given as <dir_path>
 -e only estimate the abundance of given reference transcripts (requires -G)
 --viral : only relevant for long reads from viral data where splice sites
    do not follow consensus (default:false)
 -x do not assemble any transcripts on the given reference sequence(s)
 -u no multi-mapping correction (default: correction enabled)
 --ref/--cram-ref reference genome FASTA file for CRAM input

Transcript merge usage mode: 

  stringtie --merge [Options] {
    
     gtf_list | strg1.gtf ...}
With this option StringTie will assemble transcripts from multiple
input files generating a unified non-redundant set of isoforms. In this mode
the following options are available:
  -G <guide_gff>   reference annotation to include in the merging (GTF/GFF3)
  -o <out_gtf>     output file name for the merged transcripts GTF
                    (default: stdout)
  -m <min_len>     minimum input transcript length to include in the merge
                    (default: 50)
  -c <min_cov>     minimum input transcript coverage to include in the merge
                    (default: 0)
  -F <min_fpkm>    minimum input transcript FPKM to include in the merge
                    (default: 1.0)
  -T <min_tpm>     minimum input transcript TPM to include in the merge
                    (default: 1.0)
  -f <min_iso>     minimum isoform fraction (default: 0.01)
  -g <gap_len>     gap between transcripts to merge together (default: 250)
  -i               keep merged transcripts with retained introns; by default
                   these are not kept unless there is strong evidence for them
  -l <label>       name prefix for output transcripts (default: MSTRG)

assemblage d'un seul échantillon

Utilisez le fichier d'annotation du génome pour chaque échantillon après le tri et le format de conversion ( fichier .bam ) pour générer .gtf pour un assemblage ultérieur ( remarque : le fichier d'entrée doit être trié. )

stringtie -p 3 -e -G /home/cyh/Desktop/hugene_dir/GCF_000001405.40_GRCh38.p14_genomic.gff -o ly1.gtf -i /home/cyh/Desktop/his_result_sample1/sample1_sorted.bam

-p 3 : fil numéro 3
-G : informations d'annotation du génome (.gff peut aussi être un fichier .gtf)
-o : générer un échantillon (.gtf)
-i : fichier d'échantillon trié en entrée (fichier .bam)

-e : Si vous n'avez pas besoin d'une nouvelle transcription, assurez-vous d'ajouter le paramètre -e,

Si l'échantillon que nous étudions ne contient pas de bonnes informations d'annotation, qu'il y a peu de personnes qui l'étudient et que les informations d'annotation existantes ne sont pas parfaites, nous devons reconstruire la transcription pour l'annotation. paramètre -e.
Si les informations d'annotation de l'échantillon sont très complètes, comme un organisme modèle tel qu'Arabidopsis, nous n'avons pas besoin de reconstruire de nouvelles transcriptions pour l'annotation, seul le fichier d'annotation du génome de référence existant est suffisant, alors utilisez le paramètre -e, pas Novel les transcriptions doivent être prédites.

Le paramètre -e est également plus important.Ce n'est qu'après l'utilisation du paramètre -e que le script prepDE.py3 peut être exécuté pour obtenir la matrice du nombre de lectures (c'est-à-dire pour quantifier).

Cette partie de l'adresse recommandée :

1. Instructions d'utilisation de Stringtie - Short Book (jianshu.com)

2、https://phantom-aria.github.io/2022/04/17/a.html

Assemblage de plusieurs échantillons

Une fois qu'une seule transcription est assemblée, plusieurs transcriptions peuvent être assemblées

stringtie --merge -p 3 \
ly1.gtf \
ly2.gtf \
...(省略)\
lyn.gtf \
-G 
/home/cyh/Desktop/hugene_dir/GCF_000001405.40_GRCh38.p14_genomic.gff \
-o stringtied_merged.gtf

Les données d'entrée sont des fichiers .gtf assemblés à partir de transcriptions individuelles

-G : fichier d'annotation du génome

Les données de sortie sont un fichier .gtf assemblé (je l'ai nommé ici : stringtied_merged.gtf )

stringtie --merge [options] gtf.list : Mode de fusion du transcriptome, dans ce mode, Stringtie peut utiliser une liste gtf d'entrée et y organiser les transcriptions de manière non redondante. Lors du traitement de plusieurs échantillons d'ARN-seq , en raison de la spécificité spatio-temporelle du transcriptome, le transcriptome de chaque échantillon peut être intégré de manière non redondante. Si -G fournit un fichier gtf de référence , il peut être intégré ensemble dans un fichier, et enfin sortir dans un fichier gtf complet , qui peut être utilisé pour la quantification.

Le stringtied_merged.gtf résultant peut être utilisé pour générer des résultats pour le package Ballgown , voir la section quantitative

Quantitatif

Il existe de nombreuses façons de quantifier

Le premier : ( déconseillé )

Cette partie des résultats est utilisée dans le package Ballgown . Utilisez le paramètre -B pour générer des fichiers * .ctab pour l'analyse d'expression différentielle à l'aide du package ballgown. En prenant les données sample1 comme exemple, 6 fichiers seront générés (un .gtf , cinq * .ctab ), il est recommandé d'utiliser un dossier pour installer les résultats générés par chaque échantillon, sinon les résultats de chaque échantillon seront écrasés. Utilisez ensuite le package Ballgown pour lire les résultats (le contenu de Rsudio n'est pas expliqué ici)

stringtie -e -B -p 4 -G stringtied_merged.gtf -o sample1-ballgown.gtf /home/cyh/Desktop/his_result_sample1/sample1_sorted.bam

Spécifiez le fichier gtf ou gff après -G . Il est recommandé d'utiliser le fichier stringtied_merged.gtf après –merge ci-dessus

-o fichier de sortie .gtf

Dans le fichier de sortie au format GTF, pour chaque transcription, les trois niveaux d'expression suivants
1, couverture
2, TPM
3, FPKM seront donnés

Par exemple, dans mon script, il y aura un dossier pour chaque résultat d'échantillon, car chaque échantillon a le même nom de fichier à l'exception du fichier .gtf , et le résultat sera écrasé. J'ai trois fichiers .bam . J'utilise le stringtie_merged.gtf après l'assemblage de plusieurs échantillons pour quantifier. Un fichier .gtf et 5 fichiers .ctab seront générés. Le fichier ctab doit être lu par le package Ballgown .

for i in {
    
    1,2,3}
do
mkdir sample_ly${i}
cd ./sample_ly${i}
stringtie -e -B -p 20 -G /home/chenyh/ly_NT_RNAseq/stringtie_result/stringtie_merged.gtf -o ly${i}-ballgown.gtf /home/chenyh/ly_NT_RNAseq/samtools_result/ly${i}.bam
cd ../
done

En utilisant le logiciel stringtie, le fichier *.ctab généré après l'ajout du paramètre -B à chaque échantillon a cinq résultats pour chaque échantillon, qui sont :

e_data.ctab: 外显子水平表达值
i_data.ctab:内含子水平表达值
t_data.ctab:转录组水平表达值
e2t.ctab:表中有两列，e_id和t_id，表示哪些外显子属于哪些转录本。这些id与e_data和t_data表中的id匹配。
i2t.ctab:表中有两列，i_id和t_id，表示哪些内含子属于哪些转录本。这些id与i_data和t_data表中的id匹配。

Pour savoir comment utiliser le package Ballgown pour une quantification ultérieure, veuillez consulter d'autres tutoriels.

Le deuxième : (recommandé)

Utilisez le script python fourni avec stringTie pour quantifier

prepDE.py

Essentiellement, stringTie ne fournit qu'une expression au niveau de la transcription et les méthodes quantitatives incluent les valeurs TPM et FPKM. Afin de quantifier le décompte brut, l'officiel fournit prepED.pyun script permettant de calculer l'expression du décompte brut. L'utilisation est la suivante

python prepDE.py \
-i sample_list.txt  \
-g gene_count_matrix.csv  \
-o transcript_count_matrix.csv

Le fichier d'entrée est sample_list.txt, qui est \tdivisé en deux colonnes. La première colonne est le nom de l'échantillon et la deuxième colonne est le chemin du fichier gtf quantitatif. L'exemple est le suivant

sampleA A.stringtie.gtf
sampleB B.stringtie.gtf

Le fichier .gtf de cette partie peut être le résultat généré par l'assemblage d'une seule transcription.

Le script génère simultanément des valeurs d'expression de comptage brut aux niveaux du gène et de la transcription. Générez deux résultats gene_count_matrix.csv et transcript_count_matrix.csv . Une analyse de suivi peut être effectuée à l'aide de DEseq2 .

À ce stade, le contenu de cet article est terminé.Cet article est basé sur ma propre étude et ma propre pratique, et j'ai fait référence à de nombreuses informations.如若有大佬能指出错误，我将感激