多重配列アラインメントからダウンロード処理シーケンス(NCBI)を検索----あまり成功の試みを記録

まず、問題が提示しました

ストレプトマイセス属、-10領域と-35領域を推定することを望んで、HRDB遺伝子プロモーター(hrdbp)保存された配列に見出されます。

第二に、プロセス

1、15-20ダウンロードHRDB遺伝子プロモーター配列、およびFASTAファイルを形成するために処理

1.1ブラストによって最初の50の配列の最も高いスコアを見つけ、HRDB遺伝子の供給源としてA3(2)セリカラーします。ダウンロードファイルのダウンロードのヒット表(TXT)形式は、ファイルヘッダには、各列に表示されているものを教えてくれます。

次に、エクセルでファイルを開き、最初の少ない削除1500bpよりも、すべてのアライメント長の、対象acc.ver、s.startを見つけて、URLを生成するためにそれを使用するために、これらの3、3待機をs.end。

例のURLます。https:URLを以下のように//www.ncbi.nlm.nih.gov/nuccore/LT629768.1レポート= FASTA&= 6444177&= 6445864までから、生成されたコードはあります?:

1  读入数据
2 FO =オープン(' D:\\一時\\ hrdb_related \\ ZECB16FT01N-Alignment.csv '' R ' 3つの LS = []
 4  のためのラインFO:
 5      行= line.replace(' \ n ''' 6      ls.append(line.split(' ' ))
 7 fo.close()
 8 写出成URL 9 FO1 =オープン(' D:\\一時\\ hrdb_related \\ output.csv "  
' W ' 10  のためのラインLS:
 11      IFライン[-1] == ' 0 ' :#0が使用s.start-400 s.stsrt + 5、及び開始及び終了DOすることができ、順方向配列を示します位置
 12は、          (fo1.write ' https://www.ncbi.nlm.nih.gov/nuccore/ ' +ライン[1] + \
 13である               ' ?= FASTA&=報告' +ライン[9] + ' &=に'ライン+ [11] + ' \ N- ' 14 fo1.close()

1.2、それは非同期ロードに関連すると思われる、爬虫類と直接20 URLの対応する配列を取得したかったが、対応するシーケンスは、インターネットで暗号化されていることを発見したのビットを検索していました。、URLごとにダイレクトマニュアルを開き、適切な配列をダウンロードしますので、私は、それぞれの配列を含む、20個のFASTAファイルを得ました。

1.3、私は1つのファイル、後で比較するために、複数のシーケンスに20個のFASTAファイルをしようとしている隣。私はLinux仮想マシンにこれらのファイルを送信したいので、WinSCP3を試し、catコマンドは、Linuxの下で解決することができます聞いたが、何の接続が成功しない、NATモードは、ネットワークすることができますが、ブリッジモードにいなくても変更ネットワーク上の、WinSCP3が正常に私のLinux仮想マシンに接続しませんでしたので。後でそれはDOS WIN10の下で発見されたコピーコマンドで同じ機能を実現することができます。ただでマージされるすべてのファイル名を入れて、プラス、トラブルの少しをサインアップする必要があります。これは、コードで実装されています。

1つの インポートOS
 2  ため(DIRNAME、サブディレクトリ、サブファイル) os.walk(R ' D:\一時\ hrdb_related ' ):
 3      用の F サブファイル:
 4          プリント(F + ' + '、末端= '' 

ここで取得するにはFASTAファイルには、複数の配列アライメントのために使用することができます。

2、ミーム分析とメガ分析

メガリドーに配列アラインメントは非常に保守的である200bpの開始コドンの上流に見出され、3つの保存領域のミームによる分析うち、clustaxと比較した結果、上流100-150bpを逃したが、いくつか実際には非常に保守的でミームはいくつかの制限がありそうです。

ここではあまり成功した試みはオーバー、ちょうど非常に保守的な結論を得る200bpの開始コドンの上流、これは長い間報告されています。そして、-10領域および-35領域には対応する配列は存在しません。

図3は、上記の分析に加えて、私はオンラインソフトウェアのダイレクト予測プロモーターを試してみました。ストレプトマイセスは、GC含量が原因である可能性が高すぎる、予測サブ予測ソフトウェアは、特殊な細菌や極めて不正確で出て起動しませんが、右のソフトウェアをオンラインで見つけることができませんでした。

おすすめ

転載: www.cnblogs.com/s-qw/p/12089150.html