A Sequence-Based Mesh Classifier for the Prediction of Protein-Protein Interactions调试工作

第一天:
1)如何在Ubuntu 18.04中安装Linux Kernel 4.17
https://www.linuxidc.com/Linux/2018-06/152714.html
https://kernel.ubuntu.com/~kernel-ppa/mainline/v4.17/
安装c/c++的函数依赖
http://blog.sina.com.cn/s/blog_6dd71c3c0101mh3h.html

2)Windows版本
1.安装perl脚本编辑器
https://jingyan.baidu.com/article/948f5924f28b41d80ef5f945.html
https://blog.csdn.net/qq_34296043/article/details/54427786
2.安装本地化的blast
http://www.cnblogs.com/yahengwang/p/9414163.html
blastdb:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
3)用Perl下载NCBI的Blast库(Blastdb)
有时你要构建本地的Blast,需要用到NCBI已经构建好的Blastdb。可以用FTP下载。这里NCBI还提供一个Perl程序来下载NCBI的blast库。

update_blastdb.pl – Download pre-formatted BLAST databases from NCBI。右键另存为

运行

perl update_blastdb.pl

查看各个命令的用法,其中

perl update_blastdb.pl --show

可以查到在NCBI里所有的Blastdb。

perl update_blastdb.pl Blastdb

Blastdb换为需要下载的Blast库的名称。

Blastdb的FTP地址是ftp.ncbi.nlm.nih.gov/blast/db/

2.blast+本地数据库的构建

2.1 数据的获取

法 1:直接从 NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(

格式必须是 fasta,名字可以自己随便命名,具体做法下面有说明 )。

2.2数据的格式化

本文以sample.fasta作为查询序列,以rat.fasta作为数据库文件为例进行讲解。首先将

rat.fasta放到E:\blast\db文件夹下,然后调出MS-DOS命令行,转到E:\blast\db文件夹下运

行以下命令:

makeblastdb.exe -in sample.fasta -parse_seqids -hash_index -dbtype prot

-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要

是为blastdbcmd取子序列时使用,-dbtype 后接所格式化的序列的类型,核酸用 nucl,蛋白质

用prot

3.序列间的相似性检索

BLAST+ 系列程序均要求查询序列以fasta格式存在,fasta格式已经程序事实上的序列标准被广泛采用,几乎所有的序列处理程序都要求fasta格式。所谓 FASTA格式是指DNA序列第一行开始于一个标识符:">",紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列 的描述(也可以没有),从第二行开始就是一行行的序列,中间的空格,换行没有影响。为了方便阅读,每一行序列最好不要超过80个字母。详细的说明请看着这 里http://biocompute.bmi.ac.cn/MPprimer/Fasta_help.html 。本文以ratwy.fasta作为查询序列,以rat.fasta作为数据库文件为例进行讲解。首先将ratwy.fasta放到E:\blast文件夹下,然后调出MS-DOS命令行,转到E:\blast文件夹下运行以下命令:

猜你喜欢

转载自blog.csdn.net/zjguilai/article/details/89578636