Filtrar lecturas de cloroplasto y mitocondrias en los datos del transcriptoma

¡El transcriptoma también puede extraer cloroplasto y lecturas mitocondriales!

Hoy, seguí el proceso de ensamblaje del transcriptoma de Ya Yang para probar [haga clic para ingresar] Lo más destacado es la capacidad de extraer el genoma del orgánulo. Para obtener una introducción detallada a la extracción de transcriptomas de genes de orgánulos, consulte la publicación del blog: Intercambio de literatura: datos de RNA-Seq: una mina de oro para la investigación de orgánulos

Esta publicación habla principalmente sobre el control de calidad y el cribado de los datos brutos del transcriptoma. Después de ejecutarlo, verá que se han realizado estos pasos:


  1. Corrección de errores de secuencia aleatoria con Rcorrector
  2. Elimina los pares de lectura que no se pueden corregir
  3. Elimine los adaptadores de secuenciación y las secuencias de baja calidad con Trimmomatic
  4. Filtrar organelos lee (cpDNA, mtDNA o ambos) con Bowtie2 . Se producirán archivos que contengan solo lecturas de orgánulos que se pueden usar para ensamblar, por ejemplo, los plastomas con Fast-Plast
  5. Ejecuta FastQC para verificar la calidad de lectura y detectar lecturas sobrerrepresentadas
  6. Eliminar secuencias sobrerrepresentadas

Descargar bloque de código

wget https://bitbucket.org/yanglab/phylogenomic_dataset_construction/get/00bf25405914.zip

instalar software:

Me he acostumbrado a instalar software con conda estos días, que es más rápido.

El siguiente script recomienda usar python2.7,python3不兼容!!!

El software utilizado en el control de calidad y la selección incluye:

biopython
fastqc
rcorrector
trimmomatic
bowtie2

Es posible que necesite otro software, porque ya he instalado algunos en mi sistema Linux. No estoy seguro de que falte algo, como BLAST?

Cambiar la ubicación del software very important


Después de clonar el repositorio, debe cambiar varias rutas dentro de los siguientes scripts para que funcionen en su computadora local :
- Uso no autorizado de vi: / xxx; y el comando find -name XXX para buscar archivos -

extract_sequences.py : Cambie la ruta de CP_DATABASE y MT_DATABASE ambos archivos estarán en la carpeta del repositorio llamada bases de datos .

Cambie CP_DATABASE y MT_DATABASE en extract_sequences.py a la ruta donde se encuentran las bases de datos en su carpeta

rcorrector_wrapper.py : Cambie la ruta de APPS_HOME que es donde se encuentra Rcorrector en su computadora.
Cambie APPS_HOME en rcorrector_wrapper.py por la ruta donde está instalado Rcorrector en su carpeta, preste atención a la ubicación de run_rcorrector.pl en la siguiente línea , al modificar Tenga en cuenta que se modifican dos líneas, porque diferentes versiones pueden tener diferentes nombres de ruta

trimmomatic_wrapper.py : Cambie la ruta de APPS_HOME que es donde se encuentra Trimmomatic en su computadora. También cambie TruSeq_ADAPTER, este archivo estará en la carpeta del repositorio llamada bases de datos .
Cambie APPS_HOME en trimmomatic_wrapper.py a la carpeta donde Trimmomatic está instalado Ruta, pague preste atención a la ubicación de la siguiente línea de trimmomatic.jar, al modificar, preste atención a modificar dos líneas, porque diferentes versiones pueden tener diferentes nombres de ruta; cambie TruSeq_ADAPTER por la ruta de las bases de datos en su carpeta

run_chimera_detection.py : Cambie la ruta de SCRIPTS_HOME, esta será la ruta a la carpeta de scripts del repositorio clonado.

Cambie SCRIPTS_HOME en run_chimera_detection.py a la ruta donde se encuentran los scripts en su carpeta

transdecoder_wrapper.py : Cambie la ruta de BLASTP_DB_PATH, esta será la ruta a su base de datos de explosión personalizada. Una con proteomas de Arabidopsis y Beta se proporciona en la carpeta del repositorio llamada bases de datos como db.
Cambie BLASTP_DB_PATH en transdecoder_wrapper.py a su carpeta El ruta donde se encuentran las bases de datos,特可以自己下载fasta格式的叶绿体基因组做参考基因组,其实本质上就是一个bowtie2:


Ejecuta el programa para comenzardebug

Instrucciones oficiales:

Para lecturas finales emparejadas:
python filter_fq.py taxonID_1.fq.gz taxonID_2.fq.gz Order_name genome_to_filter [cp, mt o ambos] num_cores output_dir

Los dos primeros argumentos son los archivos leídos. Order_name es la orden de la planta (por ejemplo, Caryophyllales) que se utilizará para bowtie2 para crear una base de datos para filtrar las lecturas de orgánulos y se puede reemplazar con cualquier orden de planta (o cualquier rango taxonómico según la taxonomía NCBI) al que pertenezca el grupo de estudio. Para obtener una lista de genomas disponibles con su taxonomía de correspondencia, verifique las tablas cp_lookout o mt_lookout en la carpeta de bases de datos. Para el genoma de los orgánulos, puede especificar cpDNA, mtDNA o ambos. num_core es el número de cpus o subprocesos que se utilizarán. output_dir es donde se guardarán todos los archivos de salida (se puede usar cualquier directorio existente).

filter_fq.py taxonID_1.fq.gz taxonID_2.fq.gz : Los dos primeros parámetros son los archivos que se van a leer.

Order_name : es el orden de las plantas, que será utilizado por bowtie2 para crear una base de datos para filtrar las lecturas de orgánulos, y puede ser reemplazado por cualquier orden de planta (o cualquier clasificación de clasificación bajo la clasificación NCBI) perteneciente a su grupo de investigación. Para obtener una lista de los genomas disponibles y su taxonomía correspondiente, consulte la tabla cp_lookout o mt_lookout en la carpeta de la base de datos.

genome_to_filter [cp, mt o ambos] : para el genoma de orgánulos, puede especificar cpDNA, mtDNA o ambos para filtrar.

num_core : es el número de cpus o hilos que se utilizarán.

output_dir : es la ubicación para guardar todos los archivos de salida (se puede usar cualquier directorio existente).

El comando que utilicé es el siguiente (ejecutar en el directorio de scripts):

python filter_fq.py ../SRR11559267_1.fastq ../SRR11559267_2.fastq Caryophyllales cp  5  ../results

El archivo de resultados es como se muestra:

$ ls -al
total 642660
drwxrwxr-x 4 user user      4096 11月 27 21:20 .
drwxrwxr-x 7 user user      4096 11月 27 21:20 ..
-rw-rw-r-- 1 user user   6221991 11月 27 20:13 Caryophyllales_cp.1.bt2
-rw-rw-r-- 1 user user   1513468 11月 27 20:13 Caryophyllales_cp.2.bt2
-rw-rw-r-- 1 user user       728 11月 27 20:13 Caryophyllales_cp.3.bt2
-rw-rw-r-- 1 user user   1513462 11月 27 20:13 Caryophyllales_cp.4.bt2
-rw-rw-r-- 1 user user   6163301 11月 27 20:13 Caryophyllales_cp.fa
-rw-rw-r-- 1 user user   6221991 11月 27 20:13 Caryophyllales_cp.rev.1.bt2
-rw-rw-r-- 1 user user   1513468 11月 27 20:13 Caryophyllales_cp.rev.2.bt2
-rw-rw-r-- 1 user user  57869675 11月 27 20:13 SRR11559267_1.cor.fq
-rw-rw-r-- 1 user user  53354170 11月 27 20:13 SRR11559267_1.fix.fq
drwxrwxr-x 4 user user      4096 11月 27 20:13 SRR11559267_1.org_filtered_fastqc
-rw-rw-r-- 1 user user    233889 11月 27 20:13 SRR11559267_1.org_filtered_fastqc.html
-rw-rw-r-- 1 user user    251358 11月 27 20:13 SRR11559267_1.org_filtered_fastqc.zip
-rw-rw-r-- 1 user user  53275949 11月 27 20:13 SRR11559267_1.org_filtered.fq
-rw-rw-r-- 1 user user      2676 11月 27 20:13 SRR11559267_1.org_reads.fq
-rw-rw-r-- 1 user user  50319461 11月 27 20:13 SRR11559267_1.overep_filtered.fq
-rw-rw-r-- 1 user user  53278625 11月 27 20:13 SRR11559267_1.paired.trim.fq
-rw-rw-r-- 1 user user     70912 11月 27 20:13 SRR11559267_1.unpaired.trim.fq
-rw-rw-r-- 1 user user  56126823 11月 27 20:13 SRR11559267_2.cor.fq
-rw-rw-r-- 1 user user  51650784 11月 27 20:13 SRR11559267_2.fix.fq
drwxrwxr-x 4 user user      4096 11月 27 20:13 SRR11559267_2.org_filtered_fastqc
-rw-rw-r-- 1 user user    241238 11月 27 20:13 SRR11559267_2.org_filtered_fastqc.html
-rw-rw-r-- 1 user user    265855 11月 27 20:13 SRR11559267_2.org_filtered_fastqc.zip
-rw-rw-r-- 1 user user  51574065 11月 27 20:13 SRR11559267_2.org_filtered.fq
-rw-rw-r-- 1 user user      2672 11月 27 20:13 SRR11559267_2.org_reads.fq
-rw-rw-r-- 1 user user  48706654 11月 27 20:13 SRR11559267_2.overep_filtered.fq
-rw-rw-r-- 1 user user  51576737 11月 27 20:13 SRR11559267_2.paired.trim.fq
-rw-rw-r-- 1 user user       328 11月 27 20:13 SRR11559267_2.unpaired.trim.fq
-rw-rw-r-- 1 user user       129 11月 27 20:13 SRR11559267_fix_pe.log
-rw-rw-r-- 1 user user        69 11月 27 20:13 SRR11559267_over_pe.log
-rw-rw-r-- 1 user user 106052315 11月 27 20:13 SRR11559267.sam

XXX.overep_filtered.fq son los datos del transcriptoma que se han filtrado de cp (cloroplasto) y también se realiza el control de calidad, mientras que XXX.org_reads.fq es el archivo que almacena las lecturas del cloroplasto.
Es una lástima que no me di cuenta de que estaba usando un transcriptoma bacteriano hasta que ejecuté el proceso.Las lecturas de 6 cp filtradas ya me daban cara, y si no se filtraba ninguna, ¡depuraría durante varios días! Asombroso.

Si no realiza el control de calidad en el proceso yang o desea realizar el control de calidad usted mismo, solo desea deducir un gen del cloroplasto, puede consultar el siguiente contenido

# Mi archivo de referencia es demasiado grande, lo dividí y tiene unos 300 M

split -l 5000000 SRR11554880_1.fastq
mv xaf mollen300_1.fq
rm x*
split -l 5000000 SRR11554880_2.fastq
mv xaf mollen300_2.fq
rm x*

# Obtenga cada archivo original de transcriptoma mollendorffi de aproximadamente 300 M

# Solo cribar cloroplastos, sin control de calidad

python ./scripts/filter_organelle_reads.py ./databases/mollendorfi.fasta.txt  mollen300_1.fq mollen300_2.fq  5 ./results_mi/
cd results_mi/
#mollendorfi.fasta.txt:NCBI上下载的mollendorfi叶绿体叶绿体基因组文件
more mollen300_1.org_reads.fq

Supongo que te gusta

Origin blog.csdn.net/mushroom234/article/details/110247207
Recomendado
Clasificación