進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築

進化的集団の分析は通常、ショートリードプールシーケンスに依存します。これにより、良好な対立遺伝子頻度の変化を得ることができますが、半数体レベルでの変化を無視することがよくあります。本論文では、半数体再構成の方法を、繰り返される時系列のプールシーケンシングデータに対して提案する。この方法では、6.93Mbのサイズの半数体ブロックを特定することに成功しました。これは、フルーツハエの熱適応に重要な役割を果たします。

進化的リシーケンシングは、ウイルスからバクテリア、酵母から高度な多細胞生物まで、ますます広く使用されています。微生物進化実験では、進化は主に新しい突然変異から発生します。多細胞生物の場合、人口は少なく、進化は主に既存の突然変異から発生します。真核生物の以前の進化的リシーケンシング実験では、多くの選択された部位が報告されていますが、もちろん、それらの多くは結合の不均衡によって引き起こされます。したがって、真に選択されたサイトを特定するには、リンケージの不均衡が実験結果に与える影響を減らすための努力が必要です。一般的な方法には、開始集団に多くの種類の半数体を含める、より大きな集団を使用する、より多くの実験世代を経る、繰り返し実験の数を増やすなどがあります。世代間で選択を課すこと(1つの世代が再度選択し、次の世代が選択を削除する)も、リンケージの不均衡の影響を減らすことができます。

特に、選択した部位が開始集団の半数体にある場合、進化的リシーケンシング実験で経験した世代数は通常、十分な組換えをサポートするのに十分ではなく、非常に長い半数体領域が現れます。ブロック、ニュートラルサイトの多くも誤って選択されているように見えます。さらに、開始母集団からサンプリングとシーケンスを行っています。サンプリングされた個人の半数体ブロックとサンプリングされていない個人の半数体ブロックが同じ起源(つまり、IBD)である場合、同時に、サンプリングされていない個人の半数体ブロック内にあります。外に選択されたサイトがあり、サンプリングされた個人には選択されたサイトがありません。これにより、必要な選択されたサイトがない間違った半数体ブロックが識別されます(次の図)。もちろん、この状況を回避することは、開始集団全体をシーケンスすることに依存しますが、これはしばしば達成するのが困難です。

進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築
[開始母集団では、赤いハプロタイプのみをサンプリングしてシーケンスし、選択したサイト(黒モデル)はサンプリングされていない開始母集団にあり、開始母集団に基づいて半数体ブロックがあります。真に選択されたサイトを含めることはできません。

フランセンは、同定されたSNPを開始集団の染色体と比較し、多くのSNPの周波数変化が高度な一貫性を示すことを発見しました。これは、多くのSNPがフリーライディング効果によって周波数を増加させ、ハプロタイプを形成したことを示唆しています。ボディブロック。この研究は、開始集団の各個体を配列決定する必要なしに、フリーライディングSNP部位頻度変化を使用することにより、半数体ブロックを正確に再構築する方法を提供します。

半数体ブロック再構成の精度は、実験全体のSNPサイトの周波数変化の程度に依存します。変化が大きいほど、信号対雑音比が高くなり、精度が高くなります。再構築プロセスでは、SNPサイトが多数ある場合、低周波SNPは半数体特異的であり、スキャンウィンドウ方式が使用されるため、低周波SNPが優先されます。一般に、再結合率が高いほど、ウィンドウは小さくなります。特定のメソッドについては、Rパッケージ「haploReconstruct」を参照してください。

結果

まず、5回の繰り返しで、選択したサイトの変更をシミュレートし、2つのサイトを1Mbで分離しました。60世代の進化の後、選択されたサイトの頻度は大幅に増加しました。

進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築
【選択された半数体部位の可視化と再構築。Drosophilaの2R染色体の5つの実験的複製(R1-R5)。A:60世代の進化の間に選択されたサイトの頻度の実際の変化; B:マーキングによって再構築された半数体ブロックの変化。縦線は、選択したサイトの場所を示しています。

haploReconstructを使用して、1347個のラベル付きサイトを含む7.57Mb半数体ブロックの再構築に成功しました。そして、中間結果は非常に良いです。

さまざまな実験パラメータの組み合わせのシミュレーションを通じて、開始周波数が低いほど、スキャンウィンドウが小さくなり、シーケンス深度が高くなり、マーカーが多くなり、生成ノードが多くなるほど、半数体再構成の精度が高くなることがわかります。もちろん、実験の繰り返し回数も重要な要素です。繰り返し回数が3回を超える場合、上記の要素は結果にあまり影響を与えません。シミュレーション結果では、ブロック内の最小相関係数が0.7に設定され、最小周波数変化が0.2に設定されている場合、半数体ブロック再構成のエラー率はほとんど無視できることがわかりました。したがって、この方法では、上記の2つのパラメーターのデフォルト値は0.7と0.2です。

同時に、再構築されたハプロタイプブロックの長さと精度が矛盾していることもわかりました。再構築の精度を向上させる設定によっては、再構築されたハプロタイプブロックの長さが短くなる傾向があります。生成ノードの数を増やすと、精度が向上するだけでなく、再構築されたハプロタイプブロックの長さもある程度長くなります。

上記の方法を実践し、Drosophilamelanogasterの進化実験に適用します。実際の使用は、コンピューターシミュレーションよりも複雑になります。異なるパラメータの組み合わせを使用することにより、識別された選択されたハプロタイプブロックはそれほど違いはなく、ブロック長がわずかに異なるだけであることがわかります。これまでの研究結果と比較すると、この方法の方が精度が高く、半数体ブロックの確立に成功しており、エラー率は0.46%〜0.87%であることがわかります。

話し合います

進化的リシーケンシングに関するこれまでの多くの研究では、SNPは互いに独立していると想定されていました。しかし実際にはそうではありません。結果でサイト間の相関関係を考慮することができれば、ターゲットを識別して選択する能力が大幅に向上します。この研究で使用された方法は、半数体ブロックを再構築することにより、染色体内の選択された領域を正確に識別することができます。

しかし、この研究の最大の欠点の1つは、実験方法が選択された低周波数サイトに非常に敏感である一方で、中周波数および高周波数の選択されたサイトを認識する能力が制限されていることです。さらに、中周波数のサイトは、迅速な適応においてより大きな役割を果たす傾向があります。これは、この方法の適用範囲にもある程度影響します。

方法

1)データ形式

RパッケージhaploReconstructを使用して、半数体ブロックを再構築します。読み取られたデータの形式は、PoPoolationデータ分析ソフトウェアによって出力される形式である同期形式です。形式は次のとおりです。

進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築
4-n列は、母集団におけるA:T:C:G:N:delの頻度です。

参照:

https://sourceforge.net/p/popoolation2/wiki/Tutorial/

2)データクリーニング

マイナーアレルの最大周波数と最小周波数の変化を制限するインジケーターなど、最大量の情報を含むSNPを選択します。

3)ウィンドウ内のSNPサイトの相関指数(ピアソン相関係数)を計算するためのスライドウィンドウ。ウィンドウをウィンドウサイズの半分のステップでスライドさせます。

4)半数体ブロックを決定します

隣接するポジティブウィンドウを組み合わせて、半数体ブロックを決定します。

アプリケーション

100世代の実験室の進化、10世代ごとのサンプリングとシーケンスの後、4つの複製があります。つまり、11のタイムノードがあります。次に、シーケンスされた染色体chr_785の半数体ブロックを再構築します。


library(haploReconstruct)
# designate the founding population
base_pops <- rep(c(TRUE, rep(FALSE,10)), times = 4) 
# read sync file
ex_dat <- sync_to_frequencies("chr_785.sync", base.pops = base_pops, header = T)

dat_filtered = initialize_SNP_time_series(chr=ex_dat$chr, pos=ex_dat$pos, base.freq=ex_dat$basePops, 
                                        lib.freqs=ex_dat[,7:ncol(ex_dat), with=FALSE],pop.ident=rep(1:4,each=11), 
                                        pop.generation=rep(c(0,10,20,30,40,50,60,70,81,90,100),times = 4), use.libs=rep(TRUE,44))
# Reconstruct
dat_reconst = reconstruct_hb(dat_filtered, chrom=levels(ex_dat$chr))

# plot reconstructed blocks
par(mfrow = c(1,1))
plot(dat_reconst, indicate_shared=TRUE, addPoints=TRUE)

# plot the second block trajectory
par(mfrow=c(4,1),mar=c(4,4,1,1),oma=c(0,0,0,0))
tp = c(0,10,20,30,40,50,60,70,81,90,100)
plot_hbr_freq(dat_reconst, hbr_id=2, replicate=1, timepoint=tp, window=1)
plot_hbr_freq(dat_reconst, hbr_id=2, replicate=2, timepoint=tp, window=1)
plot_hbr_freq(dat_reconst, hbr_id=2, replicate=3, timepoint=tp, window=1)
plot_hbr_freq(dat_reconst, hbr_id=2, replicate=4, timepoint=tp, window=1)
# plot SNP trajectories in the second block
plot_marker_trajectories(dat_reconst, hbr_id=2)

chr_785染色体の染色体は上記のコードによって再構築され、染色体の18Mb-21Mbの間に分布する3つの半数体ブロックが得られました。以下に示すように:

進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築
半数体ブロックNo.2が最長です。下の図は、4つのリピートグループの半数体ブロックNo.2の動的変化を示しています。

進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築
下の図は、半数体ブロックNo.2のSNPサイトの経時変化を示しています。

進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築

このブロックでのSNPの動的変化は高度な一貫性を持っており、最初の3つの繰り返しグループは非常に高い一貫性の傾向を示しています。最初に増加し、次に急速に減少し、ゼロに近くなります。4回目の繰り返しは最初に増加し、次に動的な変動を示します。

4番目のリピートグループによって提示された変化の特徴は、他の多くの研究にも広く存在していることは注目に値します。たとえば、酵母と細菌の進化的リシーケンシング実験では、多くの好ましい突然変異または突然変異部位が予想どおりではありません。そのように:それが人口で固定されるまで、対立遺伝子頻度は増加し続けます。実際の状況では、好ましい遺伝子の頻度が最初に増加し、次にプラトーに達し、中間の遺伝子頻度で変動します。これは、以前の突然変異が可能なバランスの取れた選択の対象となったことを示唆しています。

======終わり=====

ドキュメント来源:Franssen、SU、Barton、NH、&Schlötterer、C。(2016)。実験的進化の間に選択されたハプロタイプブロックの再構築。モレキュラーバイオロジーアンドエボリューション、msw210。

進化的リシーケンシング実験:選択された半数体ブロックの識別と再構築

おすすめ

転載: blog.51cto.com/15069450/2577306