[学習ノート] 山東大学バイオインフォマティクス-05 ハイスループットシーケンス技術の紹介 + 06 統計的根拠とシーケンスアルゴリズム (原理)

コースの住所:山東大学バイオインフォマティクス


5. ハイスループットシーケンス技術の紹介 (乾物なし)

5.1 精密医療におけるハイスループットシーケンス技術の応用

  1. 新たな疾患遺伝子の同定 疾患遺伝子のスクリーニング
  2. ゲノミクスに基づく診断・スクリーニング 遺伝子疾患の診断・スクリーニング
  3. 精密加工 精密加工

5.2 バイオインフォマティクスが直面する課題

  • データ規模が膨大
  • 複雑なデータ型
  • 方法論が未熟である
  • 技術的な敷居が高い
  • あまり再現性がありません

シーケンスバイアスシーケンスバイアス/エラー

  • 454 配列決定: 連続的に繰り返されるホモポリマーの不確実性
    ここに画像の説明を挿入

  • Illumina :クラスターの数が理想的な数に達しないため、シグナルが弱く、同定が不正確になります。クラスター内のシーケンシング反応が同期していないため、シグナルの衝突や塩基呼び出しエラーが発生します。GC領域が多いとシーケンシング カバレッジが低くなり、順序の偏りにもつながります。
    ここに画像の説明を挿入

  • PacBio : ロングリードシーケンシング (5k-10k)、精度が低い。

● 校正偏差 考えられる解決策

  1. ディープシーケンシング
  2. 統計的評価
  3. エラー訂正

●速度とRAM 計算速度とメモリ

  • 大量のデータの計算とマイニングが主なボトルネックになっている
  • CPU 負荷の高いジョブ (読み取りマッピング、メタゲノミクス)
  • RAM を大量に使用するジョブ (ゲノムアセンブリ)
  • コンピュータクラスタ(パブリックコンピューティングプラットフォーム)ここに画像の説明を挿入

5.3 De novo シーケンス
De novoシーケンス: 得られた配列は断片化して断片化しており (数百 bp)、反復配列のスプライシングは良好ではありません。
ここに画像の説明を挿入
5.4 再シーケンス(ビデオなし)

5.5 トランスクリプトームシーケンスmRNA 配列

5.6 エピゲノミクスChIP-seq

5.7 マンモスゲノム解読プロジェクト

5.8 古代ゲノミクスが直面する課題: DNA 損傷、ゲノムは非常に不安定

5.9 古ゲノミクス研究におけるバイオインフォマティクス

  • De novo アセンブリ
    重複するリードを検索
    適切なリードのペアをより長いコンティグに
    マージ コンティグをリンクしてスーパーコンティグを形成
    コンセンサス配列を生成
  • 比較アセンブリ参照ゲノム(既存のゾウゲノムを参照ゲノムとして) を
    使用して、ターゲット ゲノムのリード (またはコンティグ) をアセンブリ (またはレイアウト) します。

6. 統計的根拠と順序アルゴリズム(原理)

6.1 ベイズの公式とその生物学的応用

ベイズの公式

  • 一般に、イベント B が発生したときにイベント A が発生する確率は、イベント A が発生したときにイベント B が発生する確率と同じではありません。ただし、両者の間には明確な関係があり、ベイズの公式はこの条件付き関係の確率を記述する式です

  • A と B を 2 つのイベントとすると、
    事象Bが発生した場合に事象Aが発生する確率P(A|B) =P(A∩B)/P(B)であり、
    同様に、イベント A が発生するという条件下で、イベント B が発生する確率はP(B|A)=P(A∩B) となります。 ) /P(A)。
    A と B の同時確率の式はP(A∩B)= P(A|B) P(B)= P(B|4)P(A)
    上式の両辺を P(B) で割ります、P( B) がゼロ以外の場合、ベイズの公式を取得できます。P(A|B)=P(B|A)P(A)/P(B)

  • ベイズ式拡張:
    ここに画像の説明を挿入

ベイジアン公式の応用

ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

ベイズ公式の生物学的応用

6.2 バイナリ予測の感度と特異性

  • 感度感度 = TP/(TP+FN) 真陽性率 (間違っているか見逃しているかを選択することをお勧めします)
  • 特異度= TN/(TN+FP) 真陰性率 (むしろ間違った選択をしないように選択する)

生物学における感度と特異性の例

ロイシンリッチリピート配列の予測

  • ロイシンに富んだ反復配列( LRR) は、ウイルス、原核生物、真核生物の何万もの既知のタンパク質に広く存在するアミノ酸断片で、多くの場合、タンパク質間相互作用、または(非タンパク質)相互作用に関与し、細胞内で重要な役割を果たします。接着、シグナル伝達、血小板凝集、細胞外マトリックス凝集、神経系発達、RNAプロセシング、ウイルス侵入および免疫応答における役割。多くの場合、それはタンパク質分子の端から端まで数回、場合によっては数十回繰り返されますが、もちろん、毎回繰り返される配列はまったく同じではありません

  • LRR には特徴的な配列テンプレートがLxxLxLxxNxLあります。
    ここに画像の説明を挿入

  • 50,000 を超える個々の LRR が、すべての既知の Toll 様受容体タンパク質配列(>2500)から半手動で正確に描写されましたこれら 50,000 を超える LRR を標準データセットとして使用して、LRR の配列特性を詳細に記述し、タンパク質配列に LRR が含まれるかどうか、含まれる場合には各 LRR の開始位置がどこにあるかを予測する予測モデルが構築されます。

  • 部位特異的重み付け行列( )によるPosition-Specific Weight Matrix予測モデルの構築: 50,000 を超える LRR 配列を垂直方向にリストし、すべての配列における LRR の各部位のさまざまなアミノ酸の出現頻度を取得します。これは、特徴的な配列テンプレートと一致します。LxxLxLxxNxLLRR 。
    ここに画像の説明を挿入

  • 配列に LRR 配列が含まれるかどうかを予測します
    スコア = 各ポイントに出現するアミノ酸の頻度の合計。したがって、スコアが高いほど、LRR である可能性が高くなります。
    カットオフ スコアは、バイナリ予測の感度と特異度に従って取得されます
    特定の範囲内でカットオフ スコアを 1 つずつ試し、さまざまなカットオフ スコアの下でモデルの感度と特異度を計算します (たとえば、感度と特異度の曲線の交点をカットオフ スコアとして取得します)。
    ここに画像の説明を挿入

6.3 基本的なシーケンスアルゴリズム

  • 配列アルゴリズム:生物学的配列の研究のために開発された、計算の複雑さが可能な限り低いアルゴリズム。たとえば、シーケンスから繰り返しシーケンスを迅速かつ正確に見つける方法などです。
  • 生物学的配列: 生物学的問題から変換された核酸配列、タンパク質配列、またはその他のデジタル文字列または文字列を含みます。

サフィックスツリー

  • サフィックスは、最後の文字を含むサブシーケンスです。最後の文字の後に 1 を追加して$、終了を示します。
  • サフィックスはシーケンスSの最も短いサフィックス$です。
  • シーケンスのすべてのサフィックスの数は、$を含むシーケンスの長さに等しい。
    ここに画像の説明を挿入
  • サフィックス ツリー:シーケンスに含まれるすべてのサフィックスで構成されるツリー。

接尾辞ツリーを描画します

  • 1. 最初に No. 1 シーケンスを描き、根から葉まで枝を描き、枝にシーケンスをマークします。
  • 2. No. 2 シーケンスを描画し、No. 2 シーケンスの頭文字 D で始まる分岐があるかどうかを確認します。ない場合は、別の分岐を作成します。
  • 3. 3 番のシーケンスを描画します。SD から始まるシーケンスがあり、分岐して次のシーケンスを書き終えます。
    ここに画像の説明を挿入
  • 4. 類推して、シーケンスのすべての接尾辞を描画します。
    ここに画像の説明を挿入

サフィックスツリーの機能

文字列 S=SDSDFSDFG

  • 機能 1:文字列 s が文字列 S 内にあるかどうかを調べます(つまり、s が S の部分列であるかどうかを判断します)。
    方法: ツリーのルートから開始して、s の文字を 1 つずつ比較します。(結果はs の長さを比較することによってのみ得られます。)
    s 1 =DFSD (in!)
    s 2 =SDFD (in かどうか?)
    ここに画像の説明を挿入

  • 関数 2:文字列 S 内の文字列 s の繰り返し数を見つける
    方法: ツリーのルートから開始し、関数 1 の方法に従って s を見つけ、次にs の後に葉が何枚あるかを確認し、いくつか繰り返します。回。
    ここに画像の説明を挿入

  • 機能 3:文字列 S 内の最長の繰り返し部分列を検索します。
    方法:ツリーのルートからすべての内部ノード(葉以外) までの部分文字列を検索し、最長のものを見つけます。
    ここに画像の説明を挿入

  • $の役割:サフィックスが別のサフィックスのプレフィックスである場合、$独立したブレードを識別する必要があります。
    ここに画像の説明を挿入

最高分-子序列

最短原理: 複数のサブシーケンスが同時に最高スコア場合、一方が他方に完全に含まれている場合、含まれている方のみが返されます。たとえば、以下の図の配列には2 つの最高分子配列があります。
ここに画像の説明を挿入

  • 生物学的応用:
    (1)タンパク質配列の膜貫通領域 (疎水性セグメント) の予測アミノ酸の親水性と疎水性の違いに応じて、文字列は疎水性アミノ酸[0,5]、親水性アミノ酸[-5,0]という実数配列に変換されます。
    ここに画像の説明を挿入
    (2) DNA 配列内の GC が豊富な領域を予測しますCpG島探しなど。
    ここに画像の説明を挿入
  • 単純なアルゴリズム: アルゴリズムの原理によれば、f(i,j) を 1 回計算するには、n 3ステップの計算が必要です。
    ◆普段はアルゴリズムを実際に適用するには、アルゴリズムの計算量が少なくともn 2未満である必要がありますそうしないと、n が増加するにつれて、計算量が現在の計算能力と許容可能な計算時間を超えます。したがって、Naive アルゴリズムは最上位の分子配列問題には使用できません。
    ここに画像の説明を挿入
  • より効率的なアルゴリズム:
    動的アルゴリズムの合計演算ステップは O(n 2 )
    分割統治法の合計演算ステップは O(nlogn)
    スマート アルゴリズムの合計演算ステップは O(n)

おすすめ

転載: blog.csdn.net/zea408497299/article/details/125206786