トランスクリプトーム生データの品質管理とフィルタリング・さまざまな方法をお試しください

   私は三位一体から直接始めたので、後でデータの前処理を追加し始めました。結局のところ、手を練習しても大丈夫です。しかし実際には、この部分を最初に配置する必要があります。
   トライアルのために非常に小さなゲノムを持つ細菌をダウンロードしてください:ペラジバクターファージGreip EXVC021P

1.ダウンロードして解凍します

nohup wget www.XXXX &
nohup fastq-dump -gzip -split-3 -A  SRR11559267 &
gunzip SRR11559267_1.fastq.gz

2.生データの品質管理図##### fastqc ######

   fastqcをインストールします

conda create -n fastqc
conda activate fastqc
conda install -c bioconda fastqc
fastqc --help

   fastqcを実行する

fastqc -t 4 -o ./ SRR11559267_1.fastq SRR11559267_2.fastq

   ファイルSRR11559267_1_fastqc.htmlSRR11559267_2_fastqc.html
   ブラウザーを取得して、品質管理ファイルを表示します。結果はあまり良くありません。

3.読み取りをフィルターします

   NGSQCToolkitの公式サイトを開くことができず、多くの人が利用していません。
   NGSQCToolkitをインストールする前にlibgdとGDをインストールします[gdライブラリは画像を処理するための一連のAPIを提供し、GDライブラリを使用して画像を処理したり画像を生成したりできます。WebサイトのGDライブラリは通常、サムネイルを生成したり、画像に透かしを追加したり、Webサイトデータに関するレポートを生成したりするために使用されます。つまり、gdライブラリを使用すると、phpを使用して画像を処理するときに便利です。]
   #conda install libgd#

   参照URL

A.FASTX-ツールキット

   プロセスを使用する前に、シーケンス形式がPhred +33であるかPhred + 64であるかを簡単に判断する必要があります。=が付いているものは一般的にPhred + 33です。実際、近年のシーケンス結果は一般的にPhred +33です。インターネットからダウンロードされた初期のデータはPhred + 64である可能性があります。一部の人々もこのように判断しました:

grep 2 rosalind_filt_1_dataset.txt  #有结果
grep X rosalind_filt_1_dataset.txt  # 无结果
# 基本上断定这个是Phred33

B. FASTQ / Aクリッパーデリンカー   シーケンス

   ここで、-vは入力関数と出力関数を表示できます。-l18は、18nt未満の長さの読み取りを削除するためのものです。必要なパラメーターを選択できるように、fastx_clipper-hを十分に活用する必要があります。-Q 33はFastxToolkitアプリケーションに追加する必要があります。これは-hには表示されません。当面の説明では、-Qは、品質値がASCII33エンコーディングを使用していることを示す文書化されていないパラメーターであるということです。結果は次のとおりです。

fastx_clipper -Q 33 -l 18 -a TGGAATTCTCGGGTGCCAAGG -v -i SRR11559267_1.fastq -o SRR11559267_1_clipped.fastq

   アダプターシーケンスについて:あなた自身のシーケンスは自然であると言うのは簡単です。NCBIなどのインターネットでダウンロードされたいくつかのシーケンスはアダプターシーケンスを見つけることができません。現時点では、Fastqcツールを使用してアダプターコンテンツを見つけることができます。結果のアダプタコンテンツに赤い十字が表示されます。これらのいくつかのシーケンスから、リンカーアダプタとして統計を作成できます。残っているコネクタが多すぎない場合は、この手順を省略できます。

C.fastq_quality_filter    から低品質の読み取り

fastq_quality_filter -Q 33 -v -q 30 -p 80 -i SRR11559267_1.fastq -o SRR11559267_1_qualified.fastq

   -qと-pについて次の図は非常に明確に説明しています。-q30-p80でフィルタリングされた読み取りは、-q 20 -p90と-q20 -p100の間にあります。

D.トリムモマティック    フィルター低品質の塩基

   Fastqcを使用して、シーケンスの前後の数塩基の品質が良くないことがわかった場合、トリムモマティックフィルタリングを使用して、特定のしきい値に従って読み取りの前後をフィルタリングできます。たとえば、
   java -classpath trimmomatic-0.22.jar org.usadellab.trimmomatic.TrimmomaticSE -phred33 data / s1.fq data / tmp.fq TRAILING:30 MINLEN:50
   は、フィルタリングの前後に30未満の塩基をフィルタリングします。読み取り50未満の塩基を削除します。

#单端
trimmomatic SE -phred33 SRR11559267_2.fastq out1.fq LEADING:22 TRAILING:22
#双端
trimmomatic PE -threads 5 -phred33 SRR11559267_1.fastq SRR11559267_2.fastq -baseout SRR11559267.fastq SLIDINGWINDOW:4:5 LEADING:5 TRAILING:5 MINLEN:25

   学習プロセス中に、著者は、前述のFASTX-Toolkit、trimmomatic、sickle、seqtkなど、品質管理フィルタリングを実行できるソフトウェアが多数あることを発見しました。
   投稿では、trimmomatic、sickle、およびseqtkを比較しました。
   結果は次ことを示しています。
   シーケンスアダプターシーケンスを同時に削除する必要がある場合は、Trimmomaticを使用することをお勧めします。
   低品質の塩基または低品質の塩基のみをフィルタリングする必要がある場合読み取り、Trimmomaticまたはsickleを選択できます。場合によっては、sickleの方が高速に
   なります。読み取りたくない場合はフィルター処理され、品質値システムがphred33の場合は、seqtkを選択できます。

   著者自身の試験では、コネクタに関する情報はほとんどありませんが、FASTX-Toolkitは、PEからの低品質の読み取りの削除によって引き起こされる、左右のシーケンスファイルの不均衡の問題を解決できないようです(お願いします)バランスが取れているかどうかを批判して訂正する)ので、を学びました詳細な手順については、次のブログ投稿を参照してください:Sickle Transcriptome DataFilter・ユースケース


PS:condaを使用してダウンロードしたソフトウェアパッケージをインストールする方法:
   1。wgetで.tar.gz2ファイルをダウンロードし、miniconda / pkgs /フォルダーに移動します
   。2。pkgsでurls.txtファイルを見つけ、ダウンロードアドレスを手動で追加します。
   3.インストール

その他のトリムモマティックチュートリアル

いくつかの良いアセンブリの例:
   1.細菌のゲノム-Trimmomatic組み立て
   2.トランスクリプトーム解析の研究ノート(連続サプリメント)
  3. phylogenomic_dataset_constructionを

おすすめ

転載: blog.csdn.net/mushroom234/article/details/110133613