サム・フォーマット

SAM配列アラインメントは、タブ区切り文字などのテキスト形式で、サンガーによって開発された標準フォーマットです。シーケンシングマッピングシーケンスは、主にゲノム上の結果を表すために使用されます。

AlNのフォーマットは、ビューの表示の割合で、情報が構造化ストレージはない、プログラムできない簡単追加入力として。

SAMは次のとおりです。

  • 非常に多くの配列(読み取り)、参照ゲノム(参照)の複数のマッピング。
  • 参照ゲノムにアライン同一の配列、複数段(セグメント)。
  • 構造化された情報の無制限の量は、幾何学的な情報を挿入、削除、不一致を含め、言いました。

 

SAM二つの部分、コメント情報(ヘッダ部)と結果の特定の部分(アライメント部)

オプションのコメント情報は、異なるタグを、あなたは主に@SQ、説明した参照配列と異なる情報を表示@を始めている。@RGを、整列された配列(読み取り)説明

 

アラインメント部(アライメント部)、各行が一つのセグメント(セグメント)配向11必須フィールド(必須フィールド)を含む情報、およびオプションのフィールドを表す、タグフィールドは間で分割されます。

フィールド11は、11フィールドであり、フィールド定義によれば、利用できない、それは「0」または「*」であってもよいし、固定配列を有していなければならない含みます。

  1. QNAME、フラグメントの数よりも(テンプレート)。
  2. FLAG、識別ビットのデジタル表現テンプレートマッピング場合、各数値は、値が数値の和を添加した場合と一致している場合の比率を表します。
  3. RNAME番号、参照配列、SQ-SNの注釈が定義されており、それは、ここに「*」マッピングのための追加の順序一貫してはならない場合。
  4. POS、音符の位置が1対を超えないからカウントされるよりも、ここで、0。
  5. MAPQ、mappintの品質。
  6. シガー、デジタル比較結果を用いて、参照配列に基づいている式(コンパクト特異体質ギャップアラインメント報告)、より簡単な情報を取り出し最初の3つの塩基は、その後、6以上を切断するよう3S6M1P1I4Mなどの文字を示しペア、及びその後のためにギャップ、塩基の挿入、および4つの最終的配向を開きます。
  7. RNEXT、参照配列は、追加のセグメント、「=」と「*」、同じセグメントの次のセグメントの番号。
  8. PNext、次のセグメントの位置、ここでは、利用可能でない場合よりも、0。
  9. 長TLEN、テンプレートの左端は、ここでは、セグメントに関係なく(単一セグメント)配向、または利用できないが、中間負に定義されていない、正、負の右端を有する0。
  10. 配列の配列情報系列断片、そのような情報は、ここに格納されていない場合、「*」、ノートシガーM / I / S / = / X対応する数及び配列の長さに等しいです。
  11. QUAL、品質情報系列、FASTQと同じ形式。

このようなフォーマットのような任意のフィールド(オプションフィールド):TAG:TYPE:2つの大文字が存在する、請求VALUEは、TAG、情報の各タイプのTAGを表す、行ごとにTAG回のみ、TYPEは、対応するタグ値の型を表します、文字列、整数、バイト配列などであり得ます。

参考資料:

http://boyun.sh.cn/bio/?p=1890

 

おすすめ

転載: www.cnblogs.com/bio-mary/p/11647093.html