Windows 7 64位 配置PSI-Blast 生成PSSM矩阵

blast+的本地化构建

1.1程序下载 链接到:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

1.2安装流程

建议安装在非系统盘,如将下载的 BLAST 程序安装到 E:\blast,生成 bin、doc 两个子目录,其中 bin 是程序目录,doc是文档目录,这样就安装完毕了。

1.3用户环境变量设置

右 键点击“我的电脑”-“属性”,然后选择“高级系统设置”标签-“环境变量”(图1),在用户变量下方“Path”随安装过程已自动添加其变量值,即 “E:\Blast\bin”。 此时点击“新建”-变量名“BLASTDB”,变量值为“E:\Blast\db”(即数据库路径,图2)。 

1.4查看程序版本信息
点击 Windows 的“开始”菜单,输入“cmd”(XP系统在运行中输入cmd)(图3)调出 MS-DOS 命令行,转到 Blast 安装目录,输入命令“blastn -version”即可查看版本(图4):

2.blast+本地数据库的构建

2.1 数据的获取

法 1:直接从 NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是 fasta,名字可以自己随便命名,具体做法下面有说明 )。

法 2:从NCBI中的 ftp 库下载所需要的某一个库或几个库,其链接为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/其中 nr.gz 为非冗余的数据库,nt.gz 为核酸数据库,month.nt.gz 为最近一个月的核酸序列数据。下载的month.nt.gz先用winrar解压缩,然后用makeblastdb.exe格式化。

法 3:利用新版 blast自带的 update_blastdb.pl进行下载,这需要安装 perl 程序。

上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是是 NCBI 中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。

2.2数据的格式化

本文以ratwy.fasta作为查询序列,以rat.fasta作为数据库文件为例进行讲解。首先将rat.fasta放到E:\blast\db文件夹下,然后调出MS-DOS命令行,转到E:\blast\db文件夹下运行以下命令:

格式化rat.fasta命令:makeblastdb.exe -in rat.fasta -parse_seqids -hash_index -dbtype prot

-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype  后接所格式化的序列的类型,核酸用 nucl,蛋白质用prot;

至此,本地数据库已经建立完毕!!!

3.生成pssm打分矩阵

       3.1 在dos环境下进入db文件输入命令:psiblast -db pdbaa.fasta -in_msa k.fasta-num_iterations 3 -evalue 0.001 -out_ascii_pssm pssm2.txt

       3.2 使用python或dos命令批量调用3.1代码即可


 

猜你喜欢

转载自blog.csdn.net/solumin/article/details/84315031