FastQC 配置 及 基本使用

  • FastQC 安装
    $ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
    $ unzip fastqc_v0.11.7.zip
    $ chmod 744 fastqc
    # 将 fastqc 设置为可执行程序 ↑ or ↓
    $ chmod u+x fastqc
  • 基础质量控制
    # -o output_dic -t -thread
    $ fastqc -o output_dic -t num_thread reads.fastq
  • 质量控制结果 简要说明:

  • Basic Statics 序列基本信息:
    文件名, 文件类型,文件编码信息(phred33/64), 实际总序列条数, 序列长度
  • Per Base Sequence Quality: 每个碱基位置序列质量信息,标题为 fastQ 文件使用的质量编码信息
  • Per Sequence Quailty Score: 查看序列子集是否存在普遍低质量
    长时间运行会导致质量下降 --> 质量修整
  • Per Base Sequence Content: 每个碱基位置的 AGTC 比例:
    过度表达 --> 衔接子二聚体, rRNA
    Biased Composition Libraries: 某些文库固有的偏向它们的序列组成, 如被 Na2SO3 处理的序列, 大量 C 突变为 T
  • Per Sequence GC content::测量每个序列的全长 GC 含量,与 GC 正态分布建模进行比较
    锐利峰:特定污染物
    扁平峰:多种污染
  • Per Base N content:当测序仪无法充分置信地识别碱基位点的碱基时,产生N。计算每个位点的 N 数目
    warning 可能代表质量普遍下降,检查特定bin中覆盖分布,可能最后一个bin中包含的序列很少,产生错误
    可能是早期少数位置上高比例的N,总体质量较好,序列组成非常偏向碱基测序仪偏差
  • Sequence Length Distribation:计算所有序列长度分布
    一些高通量测序仪产生长度一致的片段,但其他序列片段可能含有大量不同的读书
    即使长度统一,一些管道也会调整序列,从最后删除质量差的 base call.
    警告十分正常,可忽略
  • Daplicate Sequence:计算每个序列的重复程度
    PCR
    RNA-seq 过度排列高表达的转录物
    chip-seq 受限制的起始位点(无影响)
  • Overrepresented:有无过表达序列
  • Adapter Content:对文本库中所有Kmers进行通用分析,以查找哪些在阅读时无法覆盖的内容,查找Adapter
    每个碱基位点已看到的每个Adapter序列的文库比例
  • Kmer Content:计算每个重复段序列出现的次数
    如果序列质量很差的序列很长,那么随机序列错误率就会大大增大,减少完全重复序列的计数
    如果序列中出现了子序列重复,那么这将不会被Per base content plot of the duplicate sequence analysis 察觉
  • Per Tile Sequence Quality:显示每个 tail 的测序质量。
    冷色 高于平均质量
    热色 低于平均质量
    可能仅仅是某个特定时间触发
    出现大面积热色 --> 事件遍布流通池

  • 命令行参数说明
    fastqc [-o output dir] [ -(no) extract] [-f fastq | bam | sam] [-c 污染文件] seqfile1 | seqfile2 |...
  • -h --help
    
    -v --version
    
    -o -output dir
    
    - casave 文件来自原始 casave 输出
    
    -nano 文件来自 naopore 序列,采用 fast5 格式
    
    -extract 如果设置,则压缩输出
    
    -j --java  java二进制文件完整路径
    
    -nogroup 禁止读取2500bp以上的碱基组
    
    -f 跳过正常文件格式检测,强制使用指定格式 bam | sam | bam_mapped | sam_mapped | fastq
    
    -t --threads 多线程,每个线程 250 M
    
    -c --contamin 指定包含列表的非默认文件,污染物筛选过多的序列(哈希)
    
    -a -adapters 指定包含列表的非默认文件,包含一组已经命名的Adapter(哈希)
    
    -l 指定一个非默认文件,限制将用于确认 warning / Fairure,或者从结果中删除一些模块, cofiguration --> limits.txt
    
     -k -kmers 指定要在Kmer中查找的长度,必须在2-10 之间,默认为7
    
    -q -quiet 安静模式,在标准输出上禁止所有的进度消息,只报错
    
    -d --dir 一个目录用于写入临时文件当生成图像时, 默认系统临时目录

猜你喜欢

转载自blog.csdn.net/boringfantasy/article/details/80612886
今日推荐