Ensamblaje y cuantificación de transcripciones (stringtie) para el aprendizaje de transcriptomas [versión fácil de entender de las notas de estudio]

Ensamblaje y cuantificación de transcripciones (stringtie) para el aprendizaje de transcriptomas [versión fácil de entender de las notas de estudio]

fecha : 2023.07.25

registrador : CYH-BI

Nota especial: este artículo es un registro de aprendizaje de mi propio aprendizaje, sin ninguna autoridad, y solo puede proporcionar ideas y referencias para principiantes.
Este artículo conoce la dirección: https://zhuanlan.zhihu.com/p/645770755

herramienta stringtie para ensamblaje y cuantificación de transcripciones

Introducción al software

StringTie es un ensamblador de alineación de secuencias RNA-Seq rápido y eficiente . Su entrada incluye no solo alineaciones de otros ensambladores de transcripciones, sino también secuencias de lectura corta. Para identificar genes expresados ​​diferencialmente entre experimentos, se puede usar Ballgown, Cuffdiff u otro ( DESeq2 , edgeR, etc.) software especializado para procesar la salida de StringTie .

Stringtie aplica un algoritmo de flujo de red derivado de la teoría de la optimización, junto con una estrategia de ensamblaje de novo opcional, para ensamblar estas lecturas cortas en transcripciones. En comparación con otro software de ensamblaje de transcripción actual, stringtie tiene un efecto de ensamblaje de genes más preciso y una mejor estimación de la expresión génica, y la cantidad de transcripciones ensambladas obtenidas a través de él también es mayor que la de otro software.

Dirección útil: https://phantom-aria.github.io/2022/04/17/a.html (este artículo resuelve muchos problemas)

Instalación de la herramienta Stringtie

Método 1: use el paquete de instalación del sitio web oficial para instalar

1. Descargar paquete

wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.2.1.Linux_x86_64.tar.gz

2. Descomprimir

tar -zxvf stringtie-2.2.1.Linux_x86_64.tar.gz

3. Entorno de configuración

vim ~/.bashrc
export PATH=$PATH:"/home/cyh/biosoft/stringtie-2.2.1.Linux_x86_64: $PATH"
source ~/.bsahrc

Método 2: Instalar usando conda

conda install -c bioconda stringtie

Uso de cuerdas

Use -h o –help para ver los parámetros y el uso

 --mix : both short and long read data alignments are provided
        (long read alignments must be the 2nd BAM/CRAM input file)
 --rf : assume stranded library fr-firststrand
 --fr : assume stranded library fr-secondstrand
 -G reference annotation to use for guiding the assembly process (GTF/GFF)
 --conservative : conservative transcript assembly, same as -t -c 1.5 -f 0.05
 --ptf : load point-features from a given 4 column feature file <f_tab>
 -o output path/file name for the assembled transcripts GTF (default: stdout)
 -l name prefix for output transcripts (default: STRG)
 -f minimum isoform fraction (default: 0.01)
 -L long reads processing; also enforces -s 1.5 -g 0 (default:false)
 -R if long reads are provided, just clean and collapse the reads but
    do not assemble
 -m minimum assembled transcript length (default: 200)
 -a minimum anchor length for junctions (default: 10)
 -j minimum junction coverage (default: 1)
 -t disable trimming of predicted transcripts based on coverage
    (default: coverage trimming is enabled)
 -c minimum reads per bp coverage to consider for multi-exon transcript
    (default: 1)
 -s minimum reads per bp coverage to consider for single-exon transcript
    (default: 4.75)
 -v verbose (log bundle processing details)
 -g maximum gap allowed between read mappings (default: 50)
 -M fraction of bundle allowed to be covered by multi-hit reads (default:1)
 -p number of threads (CPUs) to use (default: 1)
 -A gene abundance estimation output file
 -E define window around possibly erroneous splice sites from long reads to
    look out for correct splice sites (default: 25)
 -B enable output of Ballgown table files which will be created in the
    same directory as the output GTF (requires -G, -o recommended)
 -b enable output of Ballgown table files but these files will be 
    created under the directory path given as <dir_path>
 -e only estimate the abundance of given reference transcripts (requires -G)
 --viral : only relevant for long reads from viral data where splice sites
    do not follow consensus (default:false)
 -x do not assemble any transcripts on the given reference sequence(s)
 -u no multi-mapping correction (default: correction enabled)
 --ref/--cram-ref reference genome FASTA file for CRAM input

Transcript merge usage mode: 

  stringtie --merge [Options] {
    
     gtf_list | strg1.gtf ...}
With this option StringTie will assemble transcripts from multiple
input files generating a unified non-redundant set of isoforms. In this mode
the following options are available:
  -G <guide_gff>   reference annotation to include in the merging (GTF/GFF3)
  -o <out_gtf>     output file name for the merged transcripts GTF
                    (default: stdout)
  -m <min_len>     minimum input transcript length to include in the merge
                    (default: 50)
  -c <min_cov>     minimum input transcript coverage to include in the merge
                    (default: 0)
  -F <min_fpkm>    minimum input transcript FPKM to include in the merge
                    (default: 1.0)
  -T <min_tpm>     minimum input transcript TPM to include in the merge
                    (default: 1.0)
  -f <min_iso>     minimum isoform fraction (default: 0.01)
  -g <gap_len>     gap between transcripts to merge together (default: 250)
  -i               keep merged transcripts with retained introns; by default
                   these are not kept unless there is strong evidence for them
  -l <label>       name prefix for output transcripts (default: MSTRG)

ensamblaje de una sola muestra

Use el archivo de anotación del genoma para cada muestra después de ordenar y convertir el formato ( archivo .bam ) para generar .gtf para el ensamblaje posterior ( nota: el archivo de entrada debe estar ordenado ) .

stringtie -p 3 -e -G /home/cyh/Desktop/hugene_dir/GCF_000001405.40_GRCh38.p14_genomic.gff -o ly1.gtf -i /home/cyh/Desktop/his_result_sample1/sample1_sorted.bam

-p 3: subproceso número 3
-G : información de anotación del genoma (.gff también puede ser un archivo .gtf)
-o : generar muestra (.gtf)
-i : ingresar archivo de muestra ordenado (archivo .bam)

-e : si no necesita una nueva transcripción, asegúrese de agregar el parámetro -e,

  1. Si la muestra que estamos estudiando no tiene buena información de anotación, hay pocas personas estudiándola y la información de anotación existente no es perfecta, entonces necesitamos reconstruir la transcripción para la anotación. En este momento, no es necesario agregar la parámetro -e.
  2. Si la información de anotación de la muestra es muy completa, como un organismo modelo como Arabidopsis, no necesitamos reconstruir nuevas transcripciones para la anotación, solo el archivo de anotación del genoma de referencia existente es suficiente, luego use el parámetro -e, no Novel las transcripciones necesitan ser predichas.

El parámetro -e también es más importante Solo después de que se usa el parámetro -e se puede ejecutar el script prepDE.py3 para obtener la matriz de conteo de lectura (es decir, para cuantificar).

Esta parte de la dirección recomendada:

1. Instrucciones para usar Stringtie - Libro corto (jianshu.com)

2、https://phantom-aria.github.io/2022/04/17/a.html

Montaje de múltiples muestras

Una vez que se ensambla una sola transcripción, se pueden ensamblar múltiples transcripciones

stringtie --merge -p 3 \
ly1.gtf \
ly2.gtf \
...(省略)\
lyn.gtf \
-G 
/home/cyh/Desktop/hugene_dir/GCF_000001405.40_GRCh38.p14_genomic.gff \
-o stringtied_merged.gtf

Los datos de entrada son archivos .gtf ensamblados a partir de transcripciones individuales

-G : archivo de anotación del genoma

Los datos de salida son un archivo .gtf ensamblado (lo nombré aquí: stringtied_merged.gtf )

stringtie --merge [opciones] gtf.list : modo de fusión de transcriptomas , en este modo, Stringtie puede usar una lista gtf de entrada y organizar las transcripciones en ellas de forma no redundante. Cuando se procesan varias muestras de RNA-seq , debido a la especificidad espaciotemporal del transcriptoma, el transcriptoma de cada muestra se puede integrar de forma no redundante. Si -G proporciona un archivo gtf de referencia , se puede integrar en un archivo y, finalmente, generar en un archivo gtf completo , que se puede utilizar para la cuantificación.

El stringtied_merged.gtf resultante se puede usar para generar resultados para el paquete Ballgown , consulte la sección cuantitativa

Cuantitativo

Hay muchas formas de cuantificar

El primero: ( no recomendado )

Esta parte de los resultados se usa en el paquete Ballgown . Use el parámetro -B para generar archivos * .ctab para el análisis de expresión diferencial usando el paquete ballgown. Tomando los datos de muestra1 como ejemplo, se generarán 6 archivos (uno .gtf , cinco * .ctab ), se recomienda utilizar una carpeta para instalar los resultados generados por cada muestra, de lo contrario se sobrescribirán los resultados de cada muestra. Luego use el paquete Ballgown para leer los resultados (el contenido de Rsudio no se explica aquí)

stringtie -e -B -p 4 -G stringtied_merged.gtf -o sample1-ballgown.gtf /home/cyh/Desktop/his_result_sample1/sample1_sorted.bam

Especifique el archivo gtf o gff después de -G Se recomienda usar el archivo stringtied_merged.gtf después de –merge arriba

-o archivo de salida .gtf

En el archivo de formato GTF de salida, para cada transcripción, se darán los siguientes tres niveles de expresión
1, cobertura
2, TPM
3, FPKM

Por ejemplo, en mi secuencia de comandos, habrá una carpeta para cada resultado de muestra, porque cada muestra tiene el mismo nombre de archivo, excepto el archivo .gtf , y el resultado se sobrescribirá. Tengo tres archivos .bam . Uso stringtie_merged.gtf después del ensamblaje de muestras múltiples para cuantificar. Se generarán un archivo .gtf y 5 archivos .ctab . El paquete Ballgown debe leer el archivo ctab .

for i in {
    
    1,2,3}
do
mkdir sample_ly${i}
cd ./sample_ly${i}
stringtie -e -B -p 20 -G /home/chenyh/ly_NT_RNAseq/stringtie_result/stringtie_merged.gtf -o ly${i}-ballgown.gtf /home/chenyh/ly_NT_RNAseq/samtools_result/ly${i}.bam
cd ../
done

Usando el software stringtie, el archivo *.ctab generado después de agregar el parámetro -B a cada muestra tiene cinco resultados para cada muestra, que son:

e_data.ctab: 外显子水平表达值
i_data.ctab:内含子水平表达值
t_data.ctab:转录组水平表达值
e2t.ctab:表中有两列,e_id和t_id,表示哪些外显子属于哪些转录本。这些id与e_data和t_data表中的id匹配。
i2t.ctab:表中有两列,i_id和t_id,表示哪些内含子属于哪些转录本。这些id与i_data和t_data表中的id匹配。

Para obtener información sobre cómo usar el paquete Ballgown para la cuantificación posterior, consulte otros tutoriales.

El segundo: (recomendado)

Use el script de python que viene con stringTie para cuantificar

prepDE.py

Esencialmente, stringTie solo proporciona expresión a nivel de transcripción, y los métodos cuantitativos incluyen valores de TPM y FPKM. Para cuantificar el conteo sin procesar, el funcionario proporciona prepED.pyun script que puede calcular la expresión del conteo sin procesar. El uso es el siguiente

python prepDE.py \
-i sample_list.txt  \
-g gene_count_matrix.csv  \
-o transcript_count_matrix.csv

El archivo de entrada es sample_list.txt, que se \tdivide en dos columnas. La primera columna es el nombre de la muestra y la segunda columna es la ruta del archivo gtf cuantitativo. El ejemplo es el siguiente

sampleA A.stringtie.gtf
sampleB B.stringtie.gtf

El archivo .gtf de esta parte puede ser el resultado generado por el ensamblaje de una sola transcripción.

El script genera simultáneamente valores de expresión de conteo sin procesar en los niveles de gen y transcripción. Genere dos resultados gene_count_matrix.csv y transcript_count_matrix.csv . El análisis de seguimiento se puede realizar utilizando DEseq2 .


En este punto, el contenido de este artículo ha terminado.Este artículo se basa en mi propio estudio y práctica, y me he referido a mucha información.如若有大佬能指出错误,我将感激

Supongo que te gusta

Origin blog.csdn.net/qq_74093550/article/details/131915315
Recomendado
Clasificación