一般的に使用されるバイオインフォマティクスフォーマットの紹介(fasta、fastq、gff2、gtf(gff2.5)、gff3、bed、sam、bam、vcf)

 

 

序文

さまざまな業界に業界標準があり、それらを統一して標準化し、その後の分析を容易にすることができます。バイオインフォマティクスの分野では、主にさまざまな大量の配列データ、注釈データなどがあり、特定の形式で表現されます。以下にリストされているようにいくつかの一般的なフォーマット。これらを理解することは、その後のバイオインフォマティクス分析に必要な知識です。バイオインフォマティクス分析を行っている人もいますが、GFF3フォーマットが何であるかを今まで知らない人もいるかもしれません。


速い

fasta形式は、配列情報(ヌクレオチドまたはタンパク質)を表すための最も基本的な形式です。 http://genetics.bwh.harvard.edu/pph/FASTA.html https://en.wikipedia.org/wiki/FASTA_format ここに簡単な紹介があります。Fasta形式のファイルには通常、接尾辞.fastaまたは.faが付いています。実際、これらはすべてテキストファイルであるため、問題ではありません。fasta形式のファイル(複数のシーケンスを含むことができる)でのシーケンスの通常の表現は次のとおりです。

>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP

これは主に2つの部分に分かれています

  • 最初の部分はシーケンスの定義行(単一行)です。行の先頭は>記号であり、シーケンスの名前(一意、つまり他のシーケンスと同じ名前にすることはできません)、つまり、>記号とそれに続く名前の最初の文字の間にスペースはありません。通常、最初のスペースの後のコンテンツはオプションの説明情報です。上記のように、gi | 129295 | sp | P01013 | OVAX_CHICKはシーケンス名であり、GENE X PROTEIN(OVALBUMIN-RELATED)は説明情報です。注:一部のソフトウェアは行全体を名前として扱うため、エラーが発生したときに形式が正しいかどうかを確認できます。
  • 2番目の部分はシーケンスです。すべてのシーケンスの塩基またはアミノ酸は1行または複数行に格納できますが、複数行に格納することをお勧めします。1行の長さは80文字を超えないようにしてください。読みやすい。また、シーケンスの複数の行の間に空白行があってはならず、シーケンス情報によって記述された最初の行とシーケンスデータの最初の行の間に空白行があってはなりません。配列データは主にコード表に従って表現され、*はタンパク質翻訳の終了を意味します。

複数行のシーケンスの例は次のとおりです。

>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

fastq

fastq(  https://en.wikipedia.org/wiki/FASTQ_format )もシーケンス情報をテキスト形式で保存するための形式です。サフィックスは通常.fastqまたは.fqですが、保存するという点でfastaとは異なります。シーケンス情報シーケンス内の各ユニットに対応する品質スコアも保存されるため、通常、fastq形式が高スループットのテストデータの保存に使用されます。初期のサンガー組織によって開発されましたが、現在はハイスループットシーケンス標準に進化しています。

fastq形式ファイルの完全なユニットは4行に分割され、各行の意味は次のとおりです。

最初の行:@で始まり、内容はfastaの説明行に似ています

2行目:特定の塩基配列

3行目:+で始まり、その後のコンテンツは最初の行と同様にすることができます。+以外はありません。

4行目:対応するベースのシーケンス品質を示すASCII文字セット(スコア)エンコーディング

たとえば、次の例:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

イルミナとNCBISRAシーケンスデータソースの違いは次のとおりです。

通常、シーケンスデータを取得する方法は2つあります。1つは自分で測定する方法、もう1つは公開データベース(前述のNCBIのSRAデータベースなど)で取得する方法です。これら2つの方法は、主に命名に基づいています。シーケンス名の。シーケンスとシーケンスの品質を表現する方法に違いがあります。

イルミナのシーケンス名:

@HWUSI-EAS100R:6:73:941:1973#0/1

で区切られた各フィールドの意味は次のとおりです。

| HWUSI-EAS100R | ユニークな楽器名|
| 6 | フローセルレーン|
| 73 | フローセルレーン内のタイル番号|
| 941 | 'x'-タイル内のクラスターの座標|
| 1973 | 'y'-タイル内のクラスターの座標|
| #0 | 多重化されたサンプルのインデックス番号(インデックスなしの場合は0)|
| / 1 | ペアのメンバー、/ 1または/ 2  (ペアエンドまたはメイトペアの読み取り専用)  |

NCBI SRAデータベース:

シーケンスデータがNCBIのSRAデータベースに送信されると、SRAデータベースは各サンプルの番号(通常はSRRxxxxx)を提供するため、SRAデータベースから公開テストデータをダウンロードします(元の形式は

.sra、fastqに変換するには特定のツールが必要です)、fastq形式ファイルの各ユニットの名前は、SRA番号とそれに続く番号で区別されます。たとえば、次の例:

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
  • シーケンスデータをSRAデータベースにアップロードすると、通常、品質スコア**が標準のサンガー形式**に変換されることに注意してください。

品質スコア表記:

シーケンス機器などのさまざまな要因により、ベースシーケンスの品質を表現する方法が異なります。Fastq形式のファイルでは、ASCIIコードテーブルを使用して各ベースの品質を表現します。いくつかの異なるソリューションを次に示します。

 

image.png

 

5つの表現方法があります。サンガーのコードテーブルの範囲は!からIであり、対応する値は33〜73です。33(つまり、Phred + 33表記)を引くと、範囲は0〜40に変換されます。つまり、特定の塩基のシーケンス品質が!の場合、対応するシーケンス品質スコアは0であり、シーケンス品質が低いことを示します。他のいくつかの表記法も同様です(X、I、J、L)。シーケンス品質を表現する方法は、その背後にあるソフトウェアがシーケンスデータの品質を表現する方法を指定することであるため、ここで紹介します。


gff2

http://gmod.org/wiki/GFF2

GFF(General Feature Format)は、遺伝子またはその他の配列要素を記述するために使用されるファイル形式です。GFFにはいくつかのバージョンがあります。初期バージョン2と現在のバージョン3。バージョン2はSanger組織によって作成され、バージョン3は作成されています。シーケンスオントロジープロジェクトによる。GFF形式のファイルがマッピングやゲノムデータの視覚化に広く使用されているのは、遺伝子などの要素を表す統一された形式があるからです。

GFF2ファイル形式は、タブで区切られた9列の値です。各行の9つのフィールドの意味は次のとおりです。

Chr1  curated  CDS 365647  365963  .  +  1  Transcript "R119.7"

最初の列:参照配列。この列は、特徴要素が配置されている染色体(または足場、またはコンティグ)、つまりゲノム内の座標系を示します。以降のすべての注釈情報は、この列に基づいています。

2番目の列:source、この列は、行変更のコメント情報のソースを示します。たとえば、上記の行は、この行のCDSコメント情報が「curated」という名前のコメントからのものであることを示しています。

3番目の列:機能、またはメソッド、タイプは、コメントのタイプを示します。たとえば、上記は、コメントがCDS情報に変更され、ソースと機能を組み合わせてより詳細に説明できることを示します。

4番目の列:開始位置、参照シーケンスの開始位置(座標)。通常は0ではなく1から始まります。

5番目の列:終了位置、参照シーケンスの終了位置(座標)。通常、開始位置よりも大きくなります。

6番目の列:scoreは、シーケンスの類似性など、行内の特徴のスコアを示します。対応するスコアがない場合は、を使用できます。代わりに。

7番目の列:ストランド、フィーチャが配置されているチェーン、+は正のチェーンを意味し、-は負のチェーンを意味します。チェーンに不確実または無関係であることを意味します。

8番目の列:タンパク質のコーディングに関連し、一般的にCDSに使用されるフェーズ。値の範囲は0〜2で、コーディング中のリーディングフレームの移動フェーズを示します。

次の説明は非常に詳細です。

「0」は、指定された領域がフレーム内にあること、つまり、その最初の塩基がコドンの最初の塩基に対応することを示します。「1」は、余分な塩基が1つあることを示します。つまり、領域の2番目の塩基がコドンの最初の塩基に対応し、「2」は、領域の3番目の塩基がコドンの最初の塩基であることを意味します。ストランドが「-」の場合、対応するコーディング領域は逆ストランド上で<end>から<start>まで実行されるため、領域の最初のベースは<end>の値になります。

9番目の列:グループまたは属性は、キーと値のペアの形式で、行の変更についてさらにコメントするために使用されます。たとえば、上記の例は、CDSがR119.7という名前のトランスクリプトに属していることを示しています。この列には複数の属性を含めることができ、属性は;で区切られます。

GFF形式の理解は、主に最後の列に集中しており、次のような状況が集中しています。

1.単一の機能の場合

Chr3   giemsa heterochromatin  4500000 6000000 . . .   Band 3q12.1

2.同じコレクションに属する複数の機能の場合

IV     curated exon    5506900 5506996 . + .   Transcript B0273.1
IV     curated exon    5506026 5506382 . + .   Transcript B0273.1
IV     curated exon    5506558 5506660 . + .   Transcript B0273.1
IV     curated exon    5506738 5506852 . + .   Transcript B0273.1

たとえば、上記の例は、4つのエクソンがB0273.1という名前の同じ転写産物に属していることを示しています。これは、完全な転写産物構造の最も基本的な要件です。

GFF2は、ここでは紹介しない配列アラインメント結果の表現など、他の側面にも使用できます。


gtf(gff2.5)

http://mblab.wustl.edu/GTF2.html

GTF(Gene Transfer Format)形式は、GFF2.5とも呼ばれるGFF2形式から借用されています。各行の9番目の列に次の4つのフィールド、具体的にはgene_idが含まれている必要があることを除いて、ほとんどのフィールド定義はGFF2と同じです。 value; transcript_id値;この設計は遺伝子の複数の転写物の状況に適応するためのものです。たとえば、次の例:

AB000123    Twinscan     CDS    193817    194022    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    199645    199752    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    200369    200508    .    -    1    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    215991    216028    .    -    0    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     start_codon   216026    216028    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     stop_codon    193814    193816    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";

gff3

http://gmod.org/wiki/GFF3  http://www.sequenceontology.org/gff3.shtml

GFF2形式は、初期には多く使用されていましたが、現在はGFF3形式が主に使用されており、Gbrowse、Jbrowse、その他のゲノムデータ視覚化ツールなどの多くのソフトウェアでもサポートされています。

次の簡単な例を考えてみましょう。

##gff-version 3
ctg123  .  exon  1300  1500  .  +  .  ID=exon00001
ctg123  .  exon  1050  1500  .  +  .  ID=exon00002
ctg123  .  exon  3000  3902  .  +  .  ID=exon00003
ctg123  .  exon  5000  5500  .  +  .  ID=exon00004
ctg123  .  exon  7000  9000  .  +  .  ID=exon00005

通常、最初の行の## gff-version 3が必要であり、ファイルの最初の行にある必要があります。

最初の8列はGFF2およびGFF2.5に似ていますが、主にゲノムブラウザでGFF3アノテーションデータを使用する場合、スペース、>%などのフィールドの特殊文字に特に注意する必要がある点がいくつかあります。 。、URLを使用する必要がありますエンコーディングは、Web上に正確に表示するように変換できます。

9番目の列も属性を表しており、これもキーと値のペア(tag = value)の形式ですが、次のようにいくつかの特定のキーがあります。

ID、GFF3ファイル全体の機能の一意の識別子。

機能の名前である名前はIDとは異なります。名前は一意である必要はありませんが、ユーザーが参照するのに便利です。

エイリアス。機能のエイリアスと同等です。

親は、機能が属する上位レベルの機能のIDを示します。この関係は、エクソン-トランスクリプト、トランスクリプト-遺伝子に使用でき、機能が複数の子機能を持つことができることがわかります。

ターゲット。主にシーケンス比較結果の表示に使用されます。値の形式はtarget_idstart end [strand]です。ここで、target_idにスペースが含まれている場合は、%20に変換する必要があります。

Noteなど、他にもいくつかの属性がありますが、ここでは詳しく説明しません。

典型的な例を見てみましょう:

  • タンパク質をコードする遺伝子構造
ctg123 example gene            1050 9000 . + . ID=EDEN;Name=EDEN;Note=protein kinase

ctg123 example mRNA            1050 9000 . + . ID=EDEN.1;Parent=EDEN;Name=EDEN.1;Index=1
ctg123 example five_prime_UTR  1050 1200 . + . Parent=EDEN.1
ctg123 example CDS             1201 1500 . + 0 Parent=EDEN.1
ctg123 example CDS             3000 3902 . + 0 Parent=EDEN.1
ctg123 example CDS             5000 5500 . + 0 Parent=EDEN.1
ctg123 example CDS             7000 7608 . + 0 Parent=EDEN.1
ctg123 example three_prime_UTR 7609 9000 . + . Parent=EDEN.1

ctg123 example mRNA            1050 9000 . + . ID=EDEN.2;Parent=EDEN;Name=EDEN.2;Index=1
ctg123 example five_prime_UTR  1050 1200 . + . Parent=EDEN.2
ctg123 example CDS             1201 1500 . + 0 Parent=EDEN.2
ctg123 example CDS             5000 5500 . + 0 Parent=EDEN.2
ctg123 example CDS             7000 7608 . + 0 Parent=EDEN.2
ctg123 example three_prime_UTR 7609 9000 . + . Parent=EDEN.2

ctg123 example mRNA            1300 9000 . + . ID=EDEN.3;Parent=EDEN;Name=EDEN.3;Index=1
ctg123 example five_prime_UTR  1300 1500 . + . Parent=EDEN.3
ctg123 example five_prime_UTR  3000 3300 . + . Parent=EDEN.3
ctg123 example CDS             3301 3902 . + 0 Parent=EDEN.3
ctg123 example CDS             5000 5500 . + 1 Parent=EDEN.3
ctg123 example CDS             7000 7600 . + 1 Parent=EDEN.3
ctg123 example three_prime_UTR 7601 9000 . + . Parent=EDEN.3

EDENという名前の遺伝子には、EDEN.1 EDEN.2 EDEN.3という名前の3つの転写産物があり、各転写産物にはUTRおよびCDS情報があります。

  • 配列アラインメント
ctg123 est EST_match 1050 1500 . + . ID=Match1;Name=agt830.5;Target=agt830.5 1 451
ctg123 est EST_match 3000 3202 . + . ID=Match1;Name=agt830.5;Target=agt830.5 452 654

ctg123 est EST_match 5410 5500 . - . ID=Match2;Name=agt830.3;Target=agt830.3 505 595
ctg123 est EST_match 7000 7503 . - . ID=Match2;Name=agt830.3;Target=agt830.3 1 504

ctg123 est EST_match 1050 1500 . + . ID=Match3;Name=agt221.5;Target=agt221.5 1 451
ctg123 est EST_match 5000 5500 . + . ID=Match3;Name=agt221.5;Target=agt221.5 452 952
ctg123 est EST_match 7000 7300 . + . ID=Match3;Name=agt221.5;Target=agt221.5 953 1253
  • 定量的データ
ctg123 affy microarray_oligo   1 100 281 . . Name=Expt1
ctg123 affy microarray_oligo 101 200 183 . . Name=Expt1
ctg123 affy microarray_oligo 201 300 213 . . Name=Expt1
ctg123 affy microarray_oligo 301 400 191 . . Name=Expt1
ctg123 affy microarray_oligo 401 500 288 . . Name=Expt1
ctg123 affy microarray_oligo 501 600 184 . . Name=Expt1
  • Fasta形式のGFF3形式ファイル
##gff-version 3
ctg123 . exon            1300  1500  .  +  .  ID=exon00001
ctg123 . exon            1050  1500  .  +  .  ID=exon00002
ctg123 . exon            3000  3902  .  +  .  ID=exon00003
ctg123 . exon            5000  5500  .  +  .  ID=exon00004
ctg123 . exon            7000  9000  .  +  .  ID=exon00005
##FASTA
>ctg123
cttctgggcgtacccgattctcggagaacttgccgcaccattccgccttg
tgttcattgctgcctgcatgttcattgtctacctcggctacgtgtggcta
tctttcctcggtgccctcgtgcacggagtcgagaaaccaaagaacaaaaa
aagaaattaaaatatttattttgctgtggtttttgatgtgtgttttttat
aatgatttttgatgtgaccaattgtacttttcctttaaatgaaatgtaat
cttaaatgtatttccgacgaattcgaggcctgaaaagtgtgacgccattc
...

GFF3ファイルには、## FASTAでマークされた対応するシーケンスが含まれています。


ベッド

http://www.genome.ucsc.edu/FAQ/FAQformat.html#format1 http://bedtools.readthedocs.org/en/latest/content/general-usage.html のhttp://asia.ensembl。 org / info / website / upload / bed.html?redirect = no

ベッドフォーマットは、シーケンスアノテーション情報の表示にも使用され、bedtoolsなど、このフォーマットのファイルを処理するための対応するソフトウェアがあります。GBrowseなどのゲノムデータ視覚化ツールで使用できます。タブで区切られた3つの必須フィールドは、chrom、chromStart、およびchromEndであり、9つのオプションフィールドがあります。

注:GBrowseで関連するコメントを表示するために使用されるベッド形式には、通常、最初の行にトラックの説明があります。

たとえば、次の例:

track name=pairedReads description="Clone Paired Reads" useScore=1
chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512
chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601

サム/バム

http://blog.sina.com.cn/s/blog_670445240101l30k.html 、  http://genome.sph.umich.edu/wiki/SAM https://samtools.github.io/hts-specs/SAMv1。 pdf バイオインフォマティクス、特にハイスループットシーケンシングデータ分析では、ほとんどの操作は、短いフラグメントシーケンスとボウタイなどの参照シーケンスのマッピングを実現することです。これには、統一されたフォーマットの使用方法が含まれます。このマッピング結果を表現するには、 sam(Sequence Alignment / Map)形式は、この問題を解決するためのものです。samファイルには、ヘッダーの説明と詳細な比較の2つの部分があります。ヘッダーの説明は@で始まり、対応する意味を示す2つの略語が続きます。SAMは、ヘッダーセクションと比較結果の2つの部分に分かれています。アノテーション情報はオプションで、すべて@で始まり、さまざまなタグを使用してさまざまな情報を示します。主に、@
HD、標準バージョンと比較シーケンスの順序を示します。
@ SQ、参照シーケンスの説明、
@ RG、シーケンス(読み取り)アライメントの
説明;
@PG、使用されるプログラムの説明; @CO、任意の説明情報。
詳細な比較部分は、11個のタブ区切りフィールドで表されます。

以下は主に、詳細な比較におけるいくつかのフィールドの特定の意味を説明しています。

 

6bb1fa1c-ec5c-4950-81c1-833f78d845b2

 

その中で:

1. QNAMEは、クエリシーケンスの名前、つまり短いフラグメント(読み取り)の名前を表します。

2. FLAGは、比較の結果を整数で表します。値が異なれば意味も異なります。値は、次の数値の組み合わせにすることもできます。

 

d7ba3e7b-45f2-4ec3-ac60-dab59c9678fc

 

たとえば、FLAGが4の場合、読み取りが参照配列にアラインされていないことを意味し、フラグは16で、シングルエンドの読み取りが参照配列のアンチストランドにアラインされていることを示します。

83(64 + 16 + 2 + 1)のフラグは、ペアエンドリードの最初のリードが参照シーケンスにアラインされていることを意味します。

3. RNAMEは、ゲノムの染色体番号などの参照配列の名前を表します。アラインメントがない場合は、*として表示されます。

4. POSは比較の開始位置を示し、1からカウントを開始します。比較がない場合は、0として表示されます。

5.MAPQ比較品質;

6. CIGAR CIGAR文字列、つまり、アラインメントの詳細、簡単なアラインメント情報の表現(Compact Idiosyncratic Gapped Alignment Report)。これは、参照シーケンスに基づいており、数字と文字を使用して、次のようなアラインメント結果を示します。 3S6M1P1I4M、最初の3つのベースを切り取って取り外し、次に6つを位置合わせし、次にギャップを開き、1つのベースを挿入し、最後に4つを順番に位置合わせしました。

7. RNEXTペアエンドシーケンシングでの次のリードアラインメントのリファレンスシリーズの名前。そうでない場合は*で示され、同じリファレンスシーケンスへの前のリードとアラインメントされている場合は=で示されます。 ;

8. PNEXTは、次の読み取りを参照シーケンス上の位置に揃えます。そうでない場合は、0で表されます。

9. ISIZE / TLENクエリシーケンスのテンプレート長または挿入長。テンプレート長は、左側が正、右側が負である必要があります。中央の正と負を定義する必要はありません。単一セグメントではありません。比較。または、使用できない場合、これは0です。

10.読み取りのシーケンス情報。

11.読み取りのシーケンス品質情報はFASTQと同じです。

背面には、次のようなオプションのフィールドがいくつかあります。

オプションフィールド(オプションフィールド)、次のような形式:TAG:TYPE:VALUE、ここでTAGは2つの大文字で構成され、各TAGは情報のタイプを表し、TAGの各行は1回だけ表示でき、TYPEは対応するTAGのタイプを示します値、文字列、整数、バイト、配列などにすることができます。

例:

:497:R:-272+13M17D24M   113 1   497 37  37M 15  100338662   0   CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG   0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>>   XT:A:U  NM:i:0  SM:i:37 AM:i:0  X0:i:1  X1:i:0  XM:i:0  XO:i:0  XG:i:0  MD:Z:37
:20389:F:275+18M2D19M   99  1   17644   0   37M =   17919   314 TATGACTGCTAATAATACCTACACATGTTAGAACCAT   >>>>>>>>>>>>>>>>>>>><<>>><<>>4::>>:<9   RG:Z:UM0098:1   XT:A:R  NM:i:0  SM:i:0  AM:i:0  X0:i:4  X1:i:0  XM:i:0  XO:i:0  XG:i:0  MD:Z:37
:20389:F:275+18M2D19M   147 1   17919   0   18M2D19M    =   17644   -314    GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT   ;44999;499<8<8<<<8<<><<<<><7<;<<<>><<   XT:A:R  NM:i:2  SM:i:0  AM:i:0  X0:i:4  X1:i:0  XM:i:0  XO:i:1  XG:i:2  MD:Z:18^CA19
:21597+10M2I25M:R:-209  83  1   21678   0   8M2I27M =   21469   -244    CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT   <;9<<5><<<<><<<>><<><>><9>><>>>9>>><>   XT:A:R  NM:i:2  SM:i:0  AM:i:0  X0:i:5  X1:i:0  XM:i:0  XO:i:1  XG:i:2  MD:Z:35

説明:

c42b606b-8c86-48d3-8ce6-a9943102865a

 

Aligenment2とAlignment3は、挿入長が314のペアリードであることがわかります。

bam形式のbは、sam形式のバイナリ表現であるバイナリを意味します。なぜバイナリ表現を使用するのですか?sam形式のファイルサイズは通常非常に大きく、通常はG単位であるため、ストレージ容量やその他の要因を減らすために、samは分析を容易にするためにバイナリ形式に変換されます。

sam / bamフォーマットは、フォーマット変換、ソート、インデックス作成、ミューテーション検索などの操作を含む、特定のソフトウェア(samtoolsなど)によって処理されます。samtoolsの使用については、以降の分析で詳しく説明します。


vcf

http://samtools.github.io/hts-specs/VCFv4.2.pdf

vcf(Variant Call Format)形式は、変異情報を表現するために使用されるテキスト形式であり、一塩基多型、挿入/削除、コピー数多型、構造的多型などを表現するために使用できます。VCF形式も2つの部分に分かれており、1つはコメントの説明情報、もう1つは特定のミューテーション情報です。コメント情報は##で始まります。次の例を見てみましょう。

 

bb5e8852-c31c-41c6-bf2f-da6b4000f66d

 

2番目の部分の各列の意味に焦点を当てます。

CHROMは染色体、染色体名の略です。

POSは位置であり、変異が発生した参照配列の位置です(1から数えて)。

ID変異の名前。

REF参照シーケンスPOSベース。

ALT変異ベースは、複数ある場合は接続し、オプションの記号はATCGN *であり、大文字と小文字が区別されます。

QUALは、Phred形式に基づくALTの品質を示します。これは、信頼性としても理解できます。

FILTER後のステータスは、つまり信頼性に従ってフィルタリングされます。

INFO追加情報は、説明情報と併せて理解できます

 

1b45ab62-98fc-4379-b645-7f48feb0d3e2

 

vcf形式の場合、bcftoolsなどのソフトウェアが処理に使用されます。

おすすめ

転載: blog.csdn.net/u010608296/article/details/113042027