数据模拟工具wgsim

数据模拟工具wgsim

 

  (2015-12-03 10:55:55)
标签: 

基因组

 

生物软件

 

生物信息

分类: 生物软件
软件介绍:
wgsim是一块用于高通量数据模拟的软件,whole genome simulation。这款软件可以模拟出illumina测序数据,并且可以自由调整测序reads的读长,插入片段大小以及错误率等,使用起来比较方便。模拟数据主要用于软件的测试与评估。例如对序列拼接软件的评估。因为模拟数据是根据已有的参考序列来的,我们可以将模拟出来的数据进行拼接,再将拼接的结果与原序列进行比对。这样就能每次调整单因素变量,例如比较不同reads读长,不同插入片段大小或者不同错误率条件下,对序列拼接的影响。
也可以为参考序列模拟变异位点,例如点突变、片段获得缺失等,然后模拟数据,评估软件是否可以检测出这些变异位点。
这个过程中,模拟出可控条件的数据是非常重要的。
但是,这里面我们也要认识到,实际测序中影响的因素是非常多的,模拟数据是很难和实际数据相匹配的,比如拼接软件对模拟数据表现出非常好的效果,但是对实际测序数据可能非常差。
下载安装:
https://github.com/lh3/wgsim
我们登录github网站搜索wgsim软件,进行下载,下载之后上传到服务器。然后上传至Linux服务器。加压缩折后进入到wgsim目录wgsim-master。进入我们看到README文件,里面提示如何进行安装编译。
我们在当前目录下,可以直接使用gcc进行编译。
敲 gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm进行编译。
编译完成之后我们看到一个绿色的wgsim文件。
或者安装samtools程序中,某些版本中会包含编译好的wgsim文件。
使用案例:
敲wgsim命令即可运行程序。
软件会弹出帮助信息,

数据模拟工具wgsim


 
软件比较简单,输入文件为基因组序列,fasta格式,输出为illumina的fastq格式,这些格式我们在前面都介绍过。然后是一些选项。
-e 是错误率,默认是0.02
-d reads两头的距离,也就是插入片段长度,默认250bp,注意插入片段本身是包含reads长度的,而不是reads之间的距离
-s 是-d插入片段的偏差,默认是20,也就是-d的值加减20,我们知道插入片段长度并不是固定的,而是一个范围
-N 是测序的层数,控制输出数据量
-1 是reads1长度,默认70bp
-2 是reads2长度,默认70bp
-r 突变率
-R -X 都是调整indels的
-h 是单倍体模式
下面我们来运行一下
wgsim 参考序列 reads1 reads2 这里插入片段我们选择500bp,偏差-s在50,reads长度-1 -2为100bp,二者可以不一样,其余默认。
注意事项:
1、模拟出的reads质量值是无法更改的,都是“I”,如果程序用到reads的质量值模拟数据就会有问题。
2、不支持Mate-pair文库,就是即使把-d设置微6K,那么它是不能像实际过程中发生环化的,两条reads的方向和小片段还是一样的。

Guess you like

Origin blog.csdn.net/u010608296/article/details/121440042