前号では、一致、不一致、置換、ギャップ、挿入、欠失、グローバルおよびローカル アラインメント (グローバル および ローカル アラインメント) など、配列アラインメントの基本的な概念をいくつか紹介しました。今回は、これらの概念についてさらに詳しく説明します。
- 一致: 2 つの配列内の対応する位置の塩基またはアミノ酸が同じである状況を指します。通常、一致は同じ文字または記号で表され、たとえば DNA 配列では、A と A、C と C、G と G、T と T の一致は「|」で表されます。
- ミスマッチ: 2 つの配列内の対応する位置の塩基またはアミノ酸が異なる状況を指します。不一致は、異なる文字や記号で表されることがよくあります。
- ギャップ: 配列内の欠落領域を指します。つまり、配列内の特定の位置で塩基またはアミノ酸が欠落しています。シーケンスを整列させる場合、ダッシュまたはその他の記号をシーケンスに挿入してギャップを表し、2 つのシーケンスを整列させることができます。
- 置換: 2 つの配列内の対応する位置での塩基またはアミノ酸の不一致を指します。置換は通常、ある文字または記号を別の文字または記号に置き換えることによって表現されます。
- 挿入: 1 つ以上の塩基またはアミノ酸を配列に挿入し、別の配列とのミスマッチを引き起こすプロセスを指します。挿入は通常、文字または記号で表されます。
- 欠失:配列から 1 つ以上の塩基またはアミノ酸を削除し、別の配列との不一致をもたらすプロセスを指します。削除は通常、文字または記号で表されます。
- ローカルアライメント: 2 つの配列内で最も一致する領域を見つけ、それらを比較して最も一致する解決策を見つけることです。ローカル アラインメントは、類似性の低い配列をアラインメントするためによく使用されます。
- グローバル アライメント: 2 つのシーケンスの全長を比較して、最も一致するソリューションを見つけます。グローバル アラインメントは、類似性の高い配列をアラインメントするためによく使用されます。
(点線の上はローカルアラインメントです。下の配列は上の配列と部分的にのみアラインメントされています。ローカル配列アラインメントは、さまざまな配列アラインメントに必要なギャップの数を減らすため、通常は検出されない短い保存配列または保存された配列を明らかにすることができます。グローバル配列アラインメント。類似領域。点線の下はグローバル アラインメントです。2 つの配列のアラインメントは最初から最後まで行われます。つまり、アラインメントは 1 つの配列の最初の塩基から始まり、配列の最後の塩基で止まります。他の順序です。)
次に、2 つのシーケンス seq1:ATGAAGCGTGC と seq2:ATGAAGAGTGCA を見てみましょう。seq1 の長さは 11、seq2 の長さは 12 です。以下に示すように 2 つの配列をアラインメントできますが、このアラインメントでは 5 塩基のみが一致します (つまり、1、2、3、4、10 の位置の塩基)。他の方法を使用すると、一致する塩基の数は増加しますか?
ここで、以下に示すように、2 つの配列にギャップ (ギャップ) を導入できます (「ギャップ」と訳した方が適切だと思われます)。
seq1 は配列番号の 10 位と 12 位にギャップを挿入し、seq2 は配列番号の 5 位にギャップを挿入すると、元の配列よりも 2 つの配列の長さは同じになり、一致する塩基の数も増加しました。 5拠点は現在の9拠点となりました。
ただし、ギャップの挿入方法は一意ではなく、異なる位置に挿入しても同様のマッチング効果が得られる場合があります。下の図は別の方法を示しています。
上の 2 つの図を注意深く比較すると、2 番目の方法で seq2 によって挿入されたギャップ位置はシーケンス番号 4 であるのに対し、最初の方法で seq2 によって挿入されたギャップ位置はシーケンス番号 5 であることがわかります。以下の図は 2 つの方法の違いを詳しく示していますが、最終結果は同じです。