Control de calidad y filtrado de datos brutos del transcriptoma · Pruebe varios métodos

   Como comencé directamente con trinity, comencé a agregar procesamiento previo de datos más tarde, después de todo, está bien practicar con las manos. Pero, de hecho, esta parte debe colocarse primero.
   Descargue una bacteria con un genoma muy pequeño para su prueba: Pelagibacter phage Greip EXVC021P

1. Descarga y descomprime

nohup wget www.XXXX &
nohup fastq-dump -gzip -split-3 -A  SRR11559267 &
gunzip SRR11559267_1.fastq.gz

2. Gráfico de control de calidad de datos sin procesar ##### fastqc ######

   Instalar fastqc

conda create -n fastqc
conda activate fastqc
conda install -c bioconda fastqc
fastqc --help

   Ejecute fastqc

fastqc -t 4 -o ./ SRR11559267_1.fastq SRR11559267_2.fastq

   Obtenga el archivo SRR11559267_1_fastqc.html SRR11559267_2_fastqc.html
   navegador para ver el archivo de control de calidad, el resultado no es muy bueno

3. Filtrar lecturas

   El sitio web oficial de NGSQCToolkit no se puede abrir y no mucha gente lo usa.
   Instale libgd y GD antes de instalar NGSQCToolkit [la biblioteca gd proporciona una serie de API para procesar imágenes, el uso de la biblioteca GD puede procesar imágenes o generar imágenes. La biblioteca GD en el sitio web se usa generalmente para generar miniaturas o para agregar marcas de agua a las imágenes o para generar informes sobre los datos del sitio web. Es decir, con la biblioteca gd, seremos útiles cuando usemos php para procesar imágenes. ]
   #conda install libgd #

   URL de referencia

A. Kit de herramientas FASTX

   Antes de usar el proceso, simplemente debemos juzgar si el formato de secuencia es Phred + 33 o Phred + 64. Aquellos con = son generalmente Phred + 33. De hecho, los resultados de secuenciación en los últimos años son generalmente Phred + 33. Los primeros datos descargados de Internet pueden ser Phred + 64. Algunas personas también juzgaron de esta manera:

grep 2 rosalind_filt_1_dataset.txt  #有结果
grep X rosalind_filt_1_dataset.txt  # 无结果
# 基本上断定这个是Phred33

B. FASTQ / delinker A Clipper    secuencia

   Aquí -v puede mostrar las funciones de entrada y salida, -l 18 es para eliminar lecturas con una longitud menor a 18nt, debe hacer un buen uso de fastx_clipper -h, para que pueda elegir los parámetros que desee. -Q 33 debe agregarse en la aplicación Fastx Toolkit. Esto no se muestra en -h. La explicación que puedo encontrar por el momento es que -Q es un parámetro no documentado para indicar que los valores de calidad usan codificación ASCII 33. Los resultados son los siguientes:

fastx_clipper -Q 33 -l 18 -a TGGAATTCTCGGGTGCCAAGG -v -i SRR11559267_1.fastq -o SRR11559267_1_clipped.fastq

   Con respecto a la secuencia del adaptador: es fácil decir que su propia secuencia es natural. Algunas secuencias descargadas en Internet, como NCBI, no pueden encontrar la secuencia del adaptador. En este momento, puede usar la herramienta Fastqc para encontrar el contenido del adaptador con el Cruz roja en el Contenido del adaptador en el resultado Se puede hacer una estadística a partir de estas varias secuencias como un adaptador de enlazador. Si no quedan demasiados conectores, este paso se puede omitir.

C. fastq_quality_filter    a lecturas de baja calidad

fastq_quality_filter -Q 33 -v -q 30 -p 80 -i SRR11559267_1.fastq -o SRR11559267_1_qualified.fastq

   Acerca de -q y -p La siguiente imagen explica muy claramente, las lecturas filtradas por -q 30 -p 80 están entre -q 20 -p 90 y -q 20 -p 100.

D.    filtros trimmomatic bases de baja calidad

   Si usa Fastqc para encontrar que la calidad de algunas bases antes y después de la secuencia no es buena, podemos usar el filtrado trimmomatic para filtrar antes y después de la lectura de acuerdo con un cierto umbral. Por ejemplo,
   java -classpath trimmomatic-0.22.jar org.usadellab.trimmomatic.TrimmomaticSE -phred33 data / s1.fq data / tmp.fq TRAILING: 30 MINLEN: 50
   es filtrar las bases por debajo de 30 antes y después del filtrado, y luego eliminar las bases de menos de 50 leídas.

#单端
trimmomatic SE -phred33 SRR11559267_2.fastq out1.fq LEADING:22 TRAILING:22
#双端
trimmomatic PE -threads 5 -phred33 SRR11559267_1.fastq SRR11559267_2.fastq -baseout SRR11559267.fastq SLIDINGWINDOW:4:5 LEADING:5 TRAILING:5 MINLEN:25

   Durante el proceso de aprendizaje, el autor descubrió que existen muchos softwares que pueden hacer filtrado de control de calidad, como el mencionado FASTX-Toolkit, trimmomatic, así como también hoz y seqtk.
   Una publicación comparó trimmomatic, hoz y seqtk. Los
   resultados muestran:
   Si necesita eliminar la secuencia del adaptador de secuenciación al mismo tiempo, se recomienda usar Trimmomatic;
   si solo necesita filtrar bases de baja calidad o de baja calidad lee, puede elegir Trimmomatic o hoz, a veces la hoz será más rápida,
   si no desea leer se filtra y el sistema de valor de calidad es phred33, puede elegir seqtk.

   En la propia prueba del autor, hay muy poca información sobre el conector, pero FASTX-Toolkit parece no poder resolver el problema de los archivos de secuenciación desequilibrados en los extremos izquierdo y derecho causado por la eliminación de lecturas de baja calidad de PE ( por favor criticar y corregir si se puede equilibrar ), así aprendí hoz . Para obtener instrucciones detalladas, consulte la siguiente publicación del blog: Sickle Transcriptome Data Filter · Caso de uso


PD : Cómo usar conda para instalar el paquete de software descargado:
   1. Descargue el archivo .tar.gz2 con wget y muévalo a la carpeta miniconda / pkgs /
   2. Busque el archivo urls.txt en pkgs y agregue manualmente la dirección de descarga
   3. instalar

Más tutoriales de trimmomatic

Varios casos de buen ensamblaje:
   1. Ensamblar el genoma bacteriano-Trimmomatic
   2. Notas de estudio del análisis del transcriptoma (suplemento continuo)
  3. phylogenomic_dataset_construction

Supongo que te gusta

Origin blog.csdn.net/mushroom234/article/details/110133613
Recomendado
Clasificación