USEARCH11命令大全,200+命令中文简介,快速查找需要功能

image

USEARCH是继Mothur、QIIME后的第三大流行扩增子分析流程,目前引用7350次。由Robert Edgar大神独立编写。官方网址:http://www.drive5.com/usearch/

详细介绍,请参阅

由于它有近200个命令和功能,对于新手在帮助文档中查找自己想要的功能也是非常困难的。特翻译此文,方便同行快速找到自己需要的功能,高效解决分析困难,专注科学问题。

对于具体命令使用存在困难,可在如下命令主页,查看单个命令的详细帮助页。

http://www.drive5.com/usearch/manual/cmds_all.html

命令按功能类别分为以下16大类,部分命令可以重复出现在不同类别中,如下翻译与上方英文页面一致。更新时间为2018年8月2日。

序列比对

Sequence alignment commands

命令 功能简介
allpairs_global 全局两两所有组合比较-全长匹配
allpairs_local 本地两两比较-部分匹配即可,类似blast
pairs_global 全局成对比较,即1vs2,3vs4
pairs_local 本地成对比较,即1vs2,3vs4

嵌合体检测和过滤

Chimera detection and filtering

命令 功能简介
annot 基于数据库注释序列
uchime2_ref 使用UCHIME2算法基于数据库去除嵌合体序列
uchime3_denovo 使用UCHIME3算法基于OTU集合自身(de novo)去除嵌合体序列
unoise3 扩增子去除噪音序列(低频扩增和测序错误等),获得精确的序列变异,非聚类法获得较真实代表序列的新算法

序列、树和基于图形的聚类

Sequence, tree and graph-based clustering

命令 功能简介
closed_ref 生成有参OTU表
cluster_aggd 使用聚集法生成聚类距离矩阵
cluster_edges 查找图中可连接的元素
cluster_fast UCLUST算法聚类
cluster_otus UPARSE算法聚类
cluster_smallmem UCLUST算法小内存模式聚类,适合低配电脑
cluster_tree 基于距离阈值和树构建簇

距离矩阵

Distance matrices

命令 功能简介
calc_distmx 计算稀疏的距离矩阵
calc_lcr_probs 基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率
distmx_split_identity 拆分距离矩阵为测试和训练集用于CVI
tree2distmx 基于树计算距离矩阵

多样性分析

Commands for diversity analysis

命令 功能简介
alpha_div 基于OTU表计算Alpha多样性
alpha_div_rare 采用稀疏方法计算Alpha多样性累得丰富度曲线
alpha_div_sig 统计alpha多样性组间差异
beta_div 基于OTU表计算beta多样性矩阵

fastq格式文件处理

Commands for reads in FASTQ format

命令 功能简介
fastq_chars 质量评估,报告质量值Q的分布频率
fastq_eestats 报告每个碱基位置的质量值
fastq_eestats2 报告不同长度reads的数量
fastq_filter 按错误率或其它阈值对序列进行质量控制
fastq_join 直接到双端序列按行连接为单个文件
fastq_mergepairs 合并双端序列,需要双端序列末端有重叠,否则抛弃
fastq_sra_splitpairs 拆分SRA格式为双端双文件格式

Fasta和fastq文件处理格式

Commands for sequences in FASTx format (FASTA and FASTQ)

命令 功能简介
fasta_explode 将去冗余的fasta序列按序列名中size=N进行去唯一化,还原为原始冗余状态
fasta_stripgaps 移除fasta文件中的空白N序列
fastx2qiime 转换usearch格式为qiime格式
fastx_demux 拆样,按barcode序列将序列按样品名重命名(demultiplex)
fastx_findorfs 鉴定核酸中的ORF,功能基因
fastx_get_sample_names 提取样品名
fastx_getlabels 提取序列标签
fastx_getseq 提取某个序列名对应的序列
fastx_getseqs 提取一组序列名对应的序列
fastx_getsubseq 按序列标签、起始、终止提取序列
fastx_info 汇报序列的摘要报告
fastx_learn 估计扩增序列的错误率
fastx_mask 屏蔽低复杂序列
fastx_relabel 按样本名重命名序列
fastx_revcomp 序列取反向互补
fastx_split 文件拆分为多个小文件
fastx_strip_annots 移除序列名中usearch格式的注释信息部分
fastx_subsample 提取序列的随机子集,相当于序列抽样
fastx_syncpairs 对应双端序列中的序列顺序,适合双端无法对应时使用
fastx_trim_primer 移除序列中的引物序列
fastx_truncate 去除序列左、右的部分,如barcode、引物
fastx_uniques 序列去冗余 (dereplicate)
fastx_uniques_persample 鉴定单样品中的非冗余序列
filter_lowc 过滤低复杂序列
filter_phix 过滤PhiX序列
sortbylength 按序列长度降序排序
sortbysize 按序列丰度size=N降序排列

机器学习和鉴定有用OTUs

Machine learning and finding informative OTUs

命令 功能简介
forest_classify 随机森林分类
forest_train 训练集建立随机森林模型
otutab_core 鉴定OTU表中的核心OTUs
otutab_forest_classify OTU表中样品的随机森林分类
otutab_forest_train 基于OTU表的随机森林训练
otutab_select 鉴定有用OTUs (predictive of metadata)

其它命令

Miscellaneous commands

命令 功能简介
search_16s 在染色体或叠连群上鉴定16S序列
udb2bitvec 建立16S数据库索引,用于search_16s

OTU分析和去噪

Commands for OTU analysis and denoising

命令 功能简介
alpha_div 计算OTU表的17种Alpha多样性指数,输入OTU表需要抽平才合理
alpha_div_rare 计算Alpha多样性稀释曲线原始数据,可用Excel或R绘图
alpha_div_sig 按实验设计分组统计Alpha多样性组间显著性
annot 注释OTUs,如已知(人工重组模拟群落、参考数据库),嵌合体等
beta_div 计算近10种beta多样性距离矩阵
closed_ref 基于参考数据库构建OTU表
cluster_aggd 使用凝聚法聚类距离矩阵
cluster_otus 采用UPARSE算法聚类序列
fastx_learn 估计扩增子序列中的错误率
filter_lowc 过滤低复杂度序列
filter_phix 过滤PhiX序列
nbc_tax 使用RDP分类算法物种分类
otutab 生成OTU表
otutab2biom 转换OTU表为biom(json)格式
otutab_binary 转换OTU表为0/1(有/无)二元格式
otutab_core 鉴定微生物组核心OTUs
otutab_counts2freqs 转换原始counts值为频率(相对丰度)
otutab_forest_classify 使用随机森林分类
otutab_forest_train 基于OTU表进行随机森林学习建决策树
otutab_group 按分组进行合并样品,多样品数值求合为一组
otutab_merge 合并两个或多个OTU表
otutab_octave 八度图展示OTU丰度分布
otutab_otu_subset 提取OTUs表子集
otutab_otus 提取OTUs表中OTUs的名字
otutab_rare 抽样OTUs数据量至相同
otutab_sample_subset 提取OTU表中部分样品
otutab_samples 提取OTU表中样品名
otutab_select 鉴定有用的OTUs(分组预测)
otutab_sortotus OTU表按丰度降序排列
otutab_stats OTU表基本信息统计,如样本、OTU数量,样本测序量分位数等
otutab_trim 按OTU表counts, OTU和样品数据量等条件过滤
otutab_xtalk 估计和过滤OTU表中的cross-talk
qiimemap2otutab 转换QIIME比对文件为OTU表
search_oligodb 检索匹配短序列,如引物
search_pcr 电子PCR,在数据库中检索成对引物(可以为多对引物)
search_pcr2 检索一对引物
search_phix 检索PhiX
sinaps 预测性状
sintax 预测物种分类
sintax_summary 按分类级汇总OTU表
tabbed2otutab 转换比对文件(read+OTU)为OTU表
uchime2_ref 基于参考数据库和UCHIME2算法检测嵌合体
uchime3_denovo 使用UCHIME3算法和OTU自身序列集检测嵌合体
unbias 校正OTU表中丰度偏差
unoise3 扩增子序列去噪,获得精度序列变异的特征序列(Features)
uparse_ref 分类来自人工重组群体的序列,类似于closed reference

OTU表命令

OTU table commands

命令 功能简介
alpha_div 基于OTU表计算Alpha多样性
alpha_div_rare 采用稀疏方法计算Alpha多样性丰富度曲线原始数值
alpha_div_sig 统计alpha多样性组间差异是否显著
beta_div 基于OTU表计算beta多样性矩阵
otutab 创建OTU表
otutab2biom 转换OTU表为biom(json)格式
otutab_binary 转换OTU表为0/1二元格式
otutab_core 鉴定核心微生物组OTUs
otutab_counts2freqs 转换counts值为频率(相对丰度)
otutab_forest_classify 使用随机森林分类
otutab_forest_train 基于OTU表进行随机森林学习建决策树
otutab_group 按分组进行样品求和合并
otutab_merge 合并两个或多个OTU表
otutab_octave 八度图展示OTU丰度分布
otutab_otu_subset 提取OTU表子集
otutab_otus 提取OTU表中OTU的名字
otutab_samples 提取OTU表中样品名
otutab_rare 抽样OTU数据量相同
otutab_sample_subset 提取OTU表中部分样品
otutab_select 鉴定有信息的OTUs(分组预测)
otutab_sortotus OTU表按降序排列
otutab_stats OTU表基本信息统计
otutab_trim 按OTU表count值, OTU和样品等条件过滤
otutab_xtalk 估计和过滤OTU表中的cross-talk
qiimemap2otutab 转换QIIME比对文件为OTU table
tabbed2otutab 转换比对文件(read+OTU)为OTU表
unbias 校正OTU表中丰度偏差

二代测序序列处理

Next-generation reads

命令 功能简介
fastq_chars 质量评估,报告质量值Q的质量分布频率
fastq_eestats 报告每个碱基位置的质量值
fastq_eestats2 报告不同长度reads的数量
fastq_filter 按fastq质量值的错误率或其它阈值对序列进行质量控制
fastq_join 直接到双端序列按行连接为单个文件
fastq_mergepairs 合并双端序列,需要双端末端有重叠,否则抛弃
fastq_sra_splitpairs 拆分SRA格式为双端双文件格式
fastx2qiime 转换usearch格式为qiime格式
fastx_demux 拆样,按barcode序列为分配序列的样品来源(demultiplex)
fastx_findorfs 鉴定核酸中的ORF,功能基因
fastx_get_sample_names 提取样品名
fastx_getlabels 提取序列标签
fastx_getseq 提取某个序列名对应的序列
fastx_getseqs 提取一组序列名对应的序列
fastx_getsubseq 按序列标签、起始、终止提取序列
fastx_info 汇报序列的摘要报告
fastx_learn 估计扩增序列的错误率
fastx_subsample 提取序列的随机子集,相当于序列抽样
fastx_syncpairs 对应双端序列的顺序
fastx_trim_primer 移除序列中的引物序列
fastx_truncate 去除序列左、右的部分,如barcode、引物
filter_lowc 过滤低复杂序列
filter_phix 过滤PhiX序列
search_oligodb 检索匹配短序列,如引物
search_pcr 电子PCR,在数据库中检索成对引物(可以为多对引物)
search_pcr2 检索一对引物
search_phix 检索PhiX

序列和数据库检索

Sequence database search

命令 功能简介
makeudb_sintax 制作物种注释数据库UDB格式索引,可节约计算时间
makeudb_ublast 创建ublast数据库索引
makeudb_usearch 创建usearch_global数据库索引
search_exact 检索完全相同的序列
search_global 全局比对检索数据库,不使用试探法加速
search_local 局部、本地比对检索数据库,不使用试探法加速
search_oligodb 检索匹配短序列,如引物
search_pcr 电子PCR,在数据库中检索成对引物(可以为多对引物)
search_pcr2 检索一对引物
search_peptidedb 检索匹配短肽序列
search_phix 检索PhiX
ublast 本地比对方法快速在数据库在检索,比BLAST更快
usearch_global 全局比对方法快速在数据库中检索
usearch_local 本地比对方法快速在数据库中检索,类似blast

物种命令

Taxonomy commands

命令 功能简介
calc_lcr_probs 基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率
makeudb_sintax 制作物种注释数据库UDB格式索引,可节约计算时间
nbc_tax 使用RDP分类算法物种分类
sintax 预测物种分类
sintax_summary 按分类级汇总OTU表,常用门、纲、目、科、属、种

树命令

Tree commands

命令 功能简介
calc_distmx 计算稀疏的距离矩阵
cluster_tree 基于距离阈值和树构建簇
subtree 提取指定结点下的子树
tree2distmx 基于树计算矩阵矩阵
tree_cvt 转换树文件格式,制表分隔与Newick格式相互转换
tree_subset 按叶子集提取树

标签与注释

Labels and annotations

命令 功能简介
fastx2qiime 转换usearch格式为qiime格式
fastx_getlabels 提取序列标签
fastx_relabel 按样本名重命名序列
fastx_strip_annots 移除序列名中usearch格式的注释信息
otutab_otus 提取OTUs表中OTU名字
otutab_samples 提取OTU表中样品名

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1800+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

猜你喜欢

转载自blog.csdn.net/woodcorpse/article/details/81369000
今日推荐