Controle de qualidade e filtragem de dados brutos do transcriptoma · Experimente vários métodos

   Como comecei diretamente com o trinity, comecei a adicionar pré-processamento de dados mais tarde, afinal, não há problema em praticar as mãos. Mas, na verdade, essa parte deve ser colocada em primeiro lugar.
   Baixe uma bactéria com um genoma muito pequeno para teste: Pelagibacter phage Greip EXVC021P

1. Baixe e descompacte

nohup wget www.XXXX &
nohup fastq-dump -gzip -split-3 -A  SRR11559267 &
gunzip SRR11559267_1.fastq.gz

2. Gráfico de controle de qualidade de dados brutos ##### fastqc ######

   Instale fastqc

conda create -n fastqc
conda activate fastqc
conda install -c bioconda fastqc
fastqc --help

   Execute fastqc

fastqc -t 4 -o ./ SRR11559267_1.fastq SRR11559267_2.fastq

   Obtenha o arquivo SRR11559267_1_fastqc.html SRR11559267_2_fastqc.html
   navegador para visualizar o arquivo de controle de qualidade, o resultado não é muito bom

3. Leituras de filtro

   O site oficial do NGSQCToolkit não pode ser aberto e poucas pessoas o usam.
   Instale libgd e GD antes de instalar NGSQCToolkit [biblioteca gd fornece uma série de APIs para processamento de imagens, usando a biblioteca GD pode processar imagens ou gerar imagens. A biblioteca GD no site geralmente é usada para gerar miniaturas ou adicionar marcas d'água a imagens ou para gerar relatórios sobre os dados do site. Ou seja, com a biblioteca gd, seremos úteis quando usarmos php para processar imagens. ]
   #conda install libgd #

   URL de referência

A. FASTX-Toolkit

   Antes de usar o processo, precisamos simplesmente julgar se o formato de sequenciamento é Phred + 33 ou Phred + 64. Aqueles com = geralmente são Phred + 33. Na verdade, os resultados de sequenciamento nos últimos anos são geralmente Phred + 33. Os primeiros dados baixados da Internet podem ser Phred + 64. Algumas pessoas também julgaram desta forma:

grep 2 rosalind_filt_1_dataset.txt  #有结果
grep X rosalind_filt_1_dataset.txt  # 无结果
# 基本上断定这个是Phred33

B. FASTQ / delinker um cortador de    sequência

   Aqui -v pode exibir as funções de entrada e saída, -l 18 é para remover leituras com um comprimento menor que 18nt, você deve fazer bom uso de fastx_clipper -h, para que possa escolher os parâmetros que deseja. -Q 33 deve ser adicionado no aplicativo Fastx Toolkit. Isso não é exibido em -h. A explicação que posso encontrar por enquanto é que -Q é um parâmetro não documentado para indicar que os valores de qualidade usam codificação ASCII 33. Os resultados são os seguintes:

fastx_clipper -Q 33 -l 18 -a TGGAATTCTCGGGTGCCAAGG -v -i SRR11559267_1.fastq -o SRR11559267_1_clipped.fastq

   Em relação à sequência do adaptador: É fácil dizer que sua própria sequência é natural. Algumas sequências baixadas da Internet, como o NCBI, não conseguem encontrar a sequência do adaptador. Neste momento, você pode usar a ferramenta Fastqc para encontrar o conteúdo do adaptador com o no resultado, uma cruz vermelha no conteúdo do adaptador. Uma estatística pode ser feita a partir dessas várias sequências como um adaptador de link. Se não houver muitos conectores restantes, esta etapa pode ser omitida.

C. fastq_quality_filter    para leituras de baixa qualidade

fastq_quality_filter -Q 33 -v -q 30 -p 80 -i SRR11559267_1.fastq -o SRR11559267_1_qualified.fastq

   Sobre -q e -p A figura a seguir explica muito claramente, as leituras filtradas por -q 30 -p 80 estão entre -q 20 -p 90 e -q 20 -p 100.

D.    filtros trimmomatic bases de baixa qualidade

   Se você usar Fastqc para descobrir que a qualidade de algumas bases antes e depois da sequência não é boa, podemos usar a filtragem trimmomatic para filtrar antes e depois da leitura de acordo com um determinado limite. Por exemplo,
   java -classpath trimmomatic-0.22.jar org.usadellab.trimmomatic.TrimmomaticSE -phred33 data / s1.fq data / tmp.fq TRAILING: 30 MINLEN: 50
   é para filtrar as bases abaixo de 30 antes e depois da filtragem, e então exclua as bases com menos de 50 lidas.

#单端
trimmomatic SE -phred33 SRR11559267_2.fastq out1.fq LEADING:22 TRAILING:22
#双端
trimmomatic PE -threads 5 -phred33 SRR11559267_1.fastq SRR11559267_2.fastq -baseout SRR11559267.fastq SLIDINGWINDOW:4:5 LEADING:5 TRAILING:5 MINLEN:25

   Durante o processo de aprendizagem, o autor constatou que existem diversos softwares que podem fazer filtragem de controle de qualidade, como o mencionado FASTX-Toolkit, trimmomatic, além de foice e seqtk.
   Uma comparação pós-trimmomatic, foice e seqtk. Os
   resultados mostram:
   Se você precisa remover a sequência do adaptador de sequenciamento ao mesmo tempo, é recomendado usar Trimmomatic;
   se você só precisa filtrar bases de baixa ou baixa qualidade lê, você pode escolher Trimmomatic ou foice, às vezes foice será mais rápido.
   Se você não quiser ler é filtrado e o sistema de valor de qualidade for phred33, você pode escolher seqtk.

   No próprio teste do autor, há muito poucas informações sobre o conector, mas o FASTX-Toolkit parece ser incapaz de resolver o problema de arquivos de sequenciamento desequilibrado nas extremidades esquerda e direita causados ​​pela remoção de leituras de baixa qualidade do PE ( por favor criticar e corrigir se puder ser equilibrado ), então aprendi foice . Para obter instruções detalhadas, consulte a próxima postagem do blog: Filtro de Dados do Transcriptoma Sickle · Caso de Uso


PS : Como usar o conda para instalar o pacote de software baixado:
   1. Baixe o arquivo .tar.gz2 com wget e mova-o para a pasta miniconda / pkgs /
   2. Encontre o arquivo urls.txt em pkgs e adicione manualmente o endereço de download
   3. instalar

Mais tutoriais trimmomatic

Vários bons casos de montagem:
   1. Monte o genoma bacteriano-Trimmomatic
   2. Notas de estudo de análise de transcriptoma (suplemento contínuo)
  3. phylogenomic_dataset_construction

Acho que você gosta

Origin blog.csdn.net/mushroom234/article/details/110133613
Recomendado
Clasificación