私の CSDN へようこそ: https://spike.blog.csdn.net/
この記事のアドレス: https://blog.csdn.net/caroline_wendy/article/details/131229922
HHBlits は、大規模なデータベース内の相同配列を迅速に検索できる効率的なタンパク質配列アライメント ツールです。HHBlits の原理は、隠れマルコフ モデル (HMM) を使用してタンパク質ファミリーを表現し、それによってアライメントの感度と精度を向上させることです。HHBlits の利点は、検索が数分で完了し、最大数千のシーケンスを含むクエリを処理できることです。HHBlits の欠点は、事前に構築された HMM データベースが必要であり、非常にまれなタンパク質配列や新しいタンパク質配列の場合、十分な相同配列を見つけることができない可能性があることです。
エラー原因:
AlphaFold2 は HHBlits ツールを使用して BFD および UniRef30 ライブラリを検索し、次の例外が発生します。
I0615 03:59:25.956802 140204622899008 hhblits.py:129] Launching subprocess "/root/miniconda3/envs/alphafold/bin/hhblits -i mydata/gly-fasta-211/7n28_X.fasta -cpu 128 -oa3m /tmp/tmp335fuu56/output.a3m -o /dev/null -n 3 -e 0.001 -maxseq 1000000 -realign_max 100000 -maxfilt 100000 -min_prefilter_hits 1000 -d af2_data_dir/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt -d af2_data_dir/uniref30/UniRef30_2021_03"
...
HHblits failed. HHblits stderr begin:
...
maximum number of residues 32763 exceeded in sequence UniRef100_UPI001401E5A6_consensus
...
理由は、場合によっては HHblits の検索量が大きすぎて異常が発生するためです。検索量を減らし、以下を変更してくださいalphafold/data/tools/hhblits.py
。
...
class HHBlits:
"""Python wrapper of the HHblits binary."""
# BUG: maximum number of residues 32763 exceeded in sequence UniRef100_UPI001401E5A6_consensus
# 降低参数,以及去除异常
def __init__(self,
*,
binary_path: str,
databases: Sequence[str],
# n_cpu: int = 4,
n_cpu: int = 64, # 根据服务器设定
n_iter: int = 3,
e_value: float = 0.001,
# maxseq: int = 1_000_000,
maxseq: int = 2_00_000,
# realign_max: int = 100_000,
realign_max: int = 50_000,
# maxfilt: int = 100_000,
maxfilt: int = 50_000,
min_prefilter_hits: int = 1000,
all_seqs: bool = False,
alt: Optional[int] = None,
p: int = _HHBLITS_DEFAULT_P,
z: int = _HHBLITS_DEFAULT_Z):
...