FastQC 配置及基本使用

FastQC 安装

$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
$ unzip fastqc_v0.11.7.zip
$ chmod 744 fastqc
# 将 fastqc 设置为可执行程序 ↑ or ↓
$ chmod u+x fastqc

基础质量控制

# -o output_dic -t -thread
$ fastqc -o output_dic -t num_thread reads.fastq

质量控制结果简要说明:
Basic Statics 序列基本信息：
文件名，文件类型，文件编码信息（phred33/64），实际总序列条数，序列长度
Per Base Sequence Quality: 每个碱基位置序列质量信息，标题为 fastQ 文件使用的质量编码信息
Per Sequence Quailty Score：查看序列子集是否存在普遍低质量
长时间运行会导致质量下降 --> 质量修整
Per Base Sequence Content: 每个碱基位置的 AGTC 比例：
过度表达 --> 衔接子二聚体， rRNA
Biased Composition Libraries：某些文库固有的偏向它们的序列组成，如被 Na2SO3 处理的序列，大量 C 突变为 T
Per Sequence GC content:：测量每个序列的全长 GC 含量，与 GC 正态分布建模进行比较
锐利峰：特定污染物
扁平峰：多种污染
Per Base N content：当测序仪无法充分置信地识别碱基位点的碱基时，产生N。计算每个位点的 N 数目
warning 可能代表质量普遍下降，检查特定bin中覆盖分布，可能最后一个bin中包含的序列很少，产生错误
可能是早期少数位置上高比例的N，总体质量较好，序列组成非常偏向碱基测序仪偏差
Sequence Length Distribation：计算所有序列长度分布
一些高通量测序仪产生长度一致的片段，但其他序列片段可能含有大量不同的读书
即使长度统一，一些管道也会调整序列，从最后删除质量差的 base call.
警告十分正常，可忽略
Daplicate Sequence：计算每个序列的重复程度
PCR
RNA-seq 过度排列高表达的转录物
chip-seq 受限制的起始位点（无影响）
Overrepresented：有无过表达序列
Adapter Content：对文本库中所有Kmers进行通用分析，以查找哪些在阅读时无法覆盖的内容，查找Adapter
每个碱基位点已看到的每个Adapter序列的文库比例
Kmer Content：计算每个重复段序列出现的次数
如果序列质量很差的序列很长，那么随机序列错误率就会大大增大，减少完全重复序列的计数
如果序列中出现了子序列重复，那么这将不会被Per base content plot of the duplicate sequence analysis 察觉
Per Tile Sequence Quality：显示每个 tail 的测序质量。
冷色高于平均质量
热色低于平均质量
可能仅仅是某个特定时间触发
出现大面积热色 --> 事件遍布流通池

命令行参数说明

fastqc [-o output dir] [ -(no) extract] [-f fastq | bam | sam] [-c 污染文件] seqfile1 | seqfile2 |...

-h --help

-v --version

-o -output dir

- casave 文件来自原始 casave 输出

-nano 文件来自 naopore 序列，采用 fast5 格式

-extract 如果设置，则压缩输出

-j --java  java二进制文件完整路径

-nogroup 禁止读取2500bp以上的碱基组

-f 跳过正常文件格式检测，强制使用指定格式 bam | sam | bam_mapped | sam_mapped | fastq

-t --threads 多线程，每个线程 250 M

-c --contamin 指定包含列表的非默认文件，污染物筛选过多的序列（哈希）

-a -adapters 指定包含列表的非默认文件，包含一组已经命名的Adapter（哈希）

-l 指定一个非默认文件，限制将用于确认 warning / Fairure，或者从结果中删除一些模块， cofiguration --> limits.txt

 -k -kmers 指定要在Kmer中查找的长度，必须在2-10 之间，默认为7

-q -quiet 安静模式，在标准输出上禁止所有的进度消息，只报错

-d --dir 一个目录用于写入临时文件当生成图像时， 默认系统临时目录

FastQC 配置 及 基本使用

猜你喜欢

FastQC 配置及基本使用