遺伝子予測賞2

 この方法を使用する場合は、この記事を引用してください。ありがとうございます。

ジョフ | 無料の全文 | サンファンポルス・サンファンのゲノム再アノテーションとトランスクリプトーム解析

MAKER を使用した遺伝子アノテーション (高度な AUGUSTUS モデルのトレーニング)

https://www.cnblogs.com/southern-xyx/p/4497497.html

オーガスタスのトレーニングと予測 | チェン・リアンフーの健康ブログ

遺伝子アノテーションに MAKER を使用する (高度な SNAP モデル トレーニング)_snap 遺伝子予測_Xu Zhougeng hoptop のブログ-CSDN ブログ アノテーションにMAKER を使用: SNAP 遺伝子モデルのトレーニング_Xu Zhougeng hoptop のブログ-CSDN ブログ遺伝子アノテーションに MAKER を使用する (高度な SNAP モデル トレーニング)_snap 遺伝子予測_Xu Zhougeng hoptop のブログ-CSDN ブログ

SNAP のインストールと使用 | Chen Lianfu のブログ

真核生物ゲノムの遺伝子解析と予測_遺伝子構造予測_wangyunpeng_bioのブログ-CSDNブログ

反復配列データベースを構築する「ゲノムアノテーション」

MITE-Hunter はゲノム MITE 配列を特定します - ScienceDirect

MAKERの使い方 | 陳蓮福のライフレターブログ

メーカー3 

遺伝子アノテーション: SNAP+Augustus+GeneMark に基づく Maker3 パイプライン 

# 新建文件夹
mkdir 10.gene_prediction && cd 10.gene_prediction
mkdir maker3 && cd maker3
# 进入conda环境
sudo su
密码
conda activate training
# 创建maker控制文件
maker -CTL
# 将创建三个控制文件:maker_boopts.ctl、maker_exe.ctl、maker_opts.ctl
# 也可直接复制之前使用的!!

ラウンド1

vi maker_opts.ctl
# 修改以下参数
genome=/media/aa/DATA/SZQ2/bj/my/genome/5.1216/03plion_primary/pilon02.fasta

est=/media/aa/DATA/SZQ2/bj/my/genome/5.1216/08.RNA-seq_analysis/zonghe/transcripts.fasta #转录组序列
protein=/media/aa/DATA/SZQ2/protein.fa #uniprot中下载的同源蛋白序列

rmlib=/media/aa/DATA/SZQ2/bj/my/genome/5.1216/04genome_feature_analysis_primary/repeat_analysis/repeatModeler/RM_630350.TueMar211317052023/consensi.fa.classified
softmask=1 #软屏蔽,将重复序列转为小写而不是N,因此基因内的短重复序列仍然可以作为基因的一部分进行注释
est2genome=1 #使用转录组证据
protein2genome=1 #使用同源蛋白证据
trna=0
cpus=12
AED_threshold=1
keep_preds=0
# 运行
mpiexec -n 20 maker -fix_nucleotides -base rnd1 &> maker.log1

エラーを報告する

Can't locate forks.pm in @INC (you may need to install the forks module) (@INC contains: /media/aa/DATA/SZQ2/maker/bin/../perlperl/5.30.0/lib /media/aa/DATA/SZQ2/maker/bin/../lib /media/aa/DATA/SZQ2/maker/bin/../src/inc/perl/lib /etc/perl /usr/local/lib/x86_64-linux-gnu/perl/5.30.0 /usr/local/share/ /usr/lib/x86_64-linux-gnu/perl5/5.30 /usr/share/perl5 /usr/lib/x86_64-linux-gnu/perl/5.30 /usr/share/perl/5.30 /usr/local/lib/site_perl /usr/lib/x86_64-linux-gnu/perl-base) at /media/aa/DATA/SZQ2/maker/bin/maker line 25.
BEGIN failed--compilation aborted at /media/aa/DATA/SZQ2/maker/bin/maker line 25.

@INC で XXX/XXX.pm が見つかりません (XXX::XXX モジュールをインストールする必要があるかもしれません)_Augus qqq のブログ - CSDN ブログ antiSMASH の使用| Chen Lianfu のライフ レター ブログ@ INC で XXX/XXX.pm が見つかりませんINC (XXX::XXX モジュールのインストールが必要な場合があります)_Augus qqq のブログ-CSDN ブログ

# 尝试解决
cpan install forks
# 失败
# 按如下方法解决:安装perl模块
cpan -i BioPerl Bit::Vector DBD::SQLite DBI Error Error::Simple File::NFSLock File::Which forks forks::shared Inline Inline::C IO::All IO::Prompt PerlIO::gzip Perl::Unsafe::Signals Proc::ProcessTable Proc::Signal threads URI::Escape

ラウンド2

1. SNAP遺伝子モデルのトレーニング 

まず、前のラウンドで生成された比較結果 rnd1.all.gff をトレーニングに使用します。

# 新建文件夹
mkdir SNAP1 && cd SNAP1
# merge
gff3_merge -d ../rnd1.maker.output/rnd1_master_datastore_index.log
maker2zff -l 50 -x 0.5 rnd1.all.gff
# 过滤
fathom -categorize 1000 genome.ann genome.dna 
fathom -export 1000 -plus uni.ann uni.dna
forge export.ann export.dna
# assembly
hmm-assembler.pl snap . > ../snap1.hmm
mv rnd1.all.gff ../ 
cd ..

2. SNAP を使用した遺伝子の予測

# 为第一轮的maker_opts.ctl 保存副本
cp maker_opts.ctl maker_opts.ctl_backup_rnd1
# 编辑第二轮的maker_opts.ctl
vi maker_opts.ctl 
# 修改如下
maker_gff=rnd1.all.gff
est_pass=1 # 使用第一轮的EST比对结果
protein_pass=1 #使用第一轮的protein比对结果
rm_pass=1 # 使用gff文件中的repeats

est= # 删除est文件,这一步不需要再跑EST比对了
protein= # 同上
model_org= #同上
rmlib= # 同上
repeat_protein= #同上
est2genome=0 # 不需要再构建基于EST证据的基因模型
protein2genome=0 #同上

snaphmm=snap1.hmm

pred_stats=1 #report AED stats
alt_splice=0 # 0: keep one isoform per gene; 1: identify splicing variants of the same gene
keep_preds=1 # keep genes even without evidence support, set to 0 if no
# 运行
mpiexec -n 20 /media/aa/DATA/SZQ2/maker/bin/maker -fix_nucleotides -base rnd2 &> maker.log2

ラウンド3

SNAP モデルを再トレーニングし、別のラウンドの SNAP 遺伝子予測を実行します。

SNAPは合計2~3ラウンド実行する必要があります

1. まず新しい SNAP モデルをトレーニングします

# 新建文件夹
mkdir SNAP2 && cd SNAP2
# merge
gff3_merge -d ../rnd2.maker.output/rnd2_master_datastore_index.log
maker2zff -l 50 -x 0.5 rnd2.all.gff
# 过滤
fathom -categorize 1000 genome.ann genome.dna
fathom -export 1000 -plus uni.ann uni.dna
forge export.ann export.dna
hmm-assembler.pl snap . > ../snap2.hmm
mv rnd2.all.gff ../
cd ..

2. SNAP を使用した遺伝子の予測

# 为第二轮的maker_opts.ctl 保存副本
cp maker_opts.ctl maker_opts.ctl_backup_rnd2
# 编辑第三轮的maker_opts.ctl
vi maker_opts.ctl 
# 修改如下
maker_gff=rnd2.all.gff
snaphmm=snap2.hmm
# 运行
mpiexec -n 20 /media/aa/DATA/SZQ2/maker/bin/maker -fix_nucleotides -base rnd3 &> maker.log3
# 为第三轮的maker_opts.ctl 保存副本
cp maker_opts.ctl maker_opts.ctl_backup_rnd3
# 新建文件夹
mkdir SNAP3 && cd SNAP3
gff3_merge -n -d ../rnd3.maker.output/rnd3_master_datastore_index.log
mv rnd3.all.gff rnd3.noseq.gff
fasta_merge -d ../rnd3.maker.output/rnd3_master_datastore_index.log
cd ..

ラウンド4

AUGUSTUS モデルをトレーニングする
braker2 によって取得された augutus モデルを使用して Maker を実行します

# Braker2结果:/media/aa/DATA/SZQ2/bj/my/genome/5.1210/10.gene_prediction/braker/species/5.1210
vi maker_exe.ctl
augustus=/root/anaconda3/envs/training/bin/augustus 已改

vi maker_opts.ctl
# 在上一步的文件中修改以下值
maker_gff=rnd1.all.gff
est_pass=1 # use est alignment from round 1
protein_pass=1 #use protein alignment from round 1
rm_pass=1 # use repeats in the gff file
snaphmm=snap2.hmm #SNAP HMM file 不变
augustus_species=/media/aa/DATA/SZQ2/bj/my/genome/5.1210/10.gene_prediction/braker/species/5.1210 # augustus species model you just built
est= # remove est file, do not run EST blast again
protein= # remove protein file, do not run blast again
model_org= #remove repeat mask model, so not running RM again
rmlib= # not running repeat masking again
repeat_protein= #not running repeat masking again
est2genome=0 # do not do EST evidence based gene model
protein2genome=0 # do not do protein based gene model.
pred_stats=1 #report AED stats
alt_splice=0 # 0: keep one isoform per gene; 1: identify splicing variants of the same gene
keep_preds=1 # keep genes even without evidence support, set to 0 if no
# 运行
mpiexec -n 20 /media/aa/DATA/SZQ2/maker/bin/maker -fix_nucleotides -base rnd4 &> maker.log4
# 备份
cp maker_opts.ctl maker_opts.ctl_backup_rnd4

ラウンド5


Maker を実行するために Braker2 によって取得された GeneMark モデルを使用するようにGeneMark をトレーニングする

# Braker2结果:/media/aa/DATA/SZQ2/bj/my/genome/5.1216/10.gene_prediction/braker/GeneMark-ET/gmhmm.mod
# 将上面的maker_exe.ctl修改如下:
gmhmme3=/media/aa/DATA/SZQ2/gmes_linux_64_4/gmhmme3 #location of eukaryotic genemark
# 将gmhmm.mod添加到maker_opts.ctl文件中
vi maker_opts.ctl
# 修改如下
gmhmm=/media/aa/DATA/SZQ2/bj/my/genome/5.1216/10.gene_prediction/braker/GeneMark-ET/gmhmm.mod
# 最后一次运行maker5.log
mpiexec -n 20 /media/aa/DATA/SZQ2/maker/bin/maker -fix_nucleotides -base rnd5 &> maker.log5
# 备份
cp maker_opts.ctl maker_opts.ctl_backup_rnd5

最終統合

ゲノム配列を含まない gff3 ファイル (rnd5.all.gff) と、タンパク質およびトランスクリプトーム fasta ファイルのセットを取得します。

gff3_merge -n -d rnd5.maker.output/rnd5_master_datastore_index.log
fasta_merge -d rnd5.maker.output/rnd5_master_datastore_index.log
grep -P "\tmaker\t" rnd5.all.gff > genome.maker.gff3
/media/aa/DATA/SZQ2/Zhanmengtao_bin-master/gff3_clear.pl --prefix maker genome.maker.gff3 > maker.gff3
cd ..

おすすめ

転載: blog.csdn.net/weixin_58269397/article/details/130108234