簡単な計算機をシミュレートする
読み取りシミュレーターは、分析用の合成データセットと模擬データセットを作成するために、研究コミュニティ内で広く使用されています。この記事では、最近提案され、一般的に使用されている読み取りシミュレーターをいくつか紹介します。
読書シミュレーターは、分析用の包括的でシミュレートされたデータセットを作成するために、研究コミュニティで広く使用されています。この記事では、最近提案され、一般的に使用されている読書シミュレーターをいくつか紹介します。
DNAシーケンシングと読み取り
DNAシーケンシングデータ分析に関する私の以前の記事に出くわしたことがあれば 、DNAシーケンシングについて読んだことがあるかもしれません。 シーケンシング は、特定のDNA分子のヌクレオチドの正確な順序を決定するプロセスです。私たちは、4つの塩基の順序を決定することができ 、アデニン、 グアニン、 シトシン および チミンを、 DNAの鎖に。DNA配列決定は、生物の個々の遺伝子、完全な染色体、または全ゲノムの配列を決定するために使用されます。
DNAシーケンスデータ分析に関する私の以前の記事を読んだことがあるなら、DNAシーケンスについて読んだことがあるかもしれません。 シーケンシングは、特定のDNA分子内のヌクレオチドの正確な配列を決定するプロセスです。DNA鎖のアデニン 、 グアニン 、 シトシン、チミンの4つの塩基の順序を決定できます。DNA配列決定は、生物の単一の遺伝子、完全な染色体、または完全なゲノムの配列を決定するために使用されます。
シーケンシングマシンと呼ばれる特別なマシン を使用して、決定したい特定のゲノム(ターゲットゲノム)から短いランダムDNAシーケンスを抽出します。現在のDNAシーケンシング技術では、一度に1つの全ゲノムを読み取ることはできません。使用するテクノロジーに応じて、100〜30,000塩基の小片を読み取ります。これらの短い部分は読み取りと呼ばれ ます。
シーケンサーと呼ばれる特別なマシンを使用 して、決定したい特定のゲノム(ターゲットゲノム)から ランダムな短いDNA配列を抽出します。現在のDNAシーケンシング技術では、一度に完全なゲノムを読み取ることはできません。使用するテクノロジーに応じて、100〜30,000塩基の小さなフラグメントを読み取ることができます。これらの短いフラグメントは読み取りと呼ばれます 。
シミュレーターを読む
シーケンスマシンは希望どおりに利用できない場合があり、シーケンスする実際のサンプルを取得できない場合があります。ここで、読み取りシミュレーターが研究目的で役立ちます。読み取りシミュレーターは、シーケンスマシンを模倣して読み取りをシミュレートできます。それらには、特定のシーケンスマシンに関連するエラー率を模倣するための事前定義された統計モデルがあります。さらに、独自のエラーモデル(挿入、削除、置換の割合が異なる)も提供できます。
シーケンシングマシンは私たちが望むことをしないかもしれません、そして私たちはシーケンシングのために実際のサンプルを把握することができないかもしれません。ここでは、読書シミュレーターを研究目的で使用できます。読書シミュレーターは、シーケンサーを模倣して読書をシミュレートできます。それらには、特定のシーケンサーに関連するエラー率をシミュレートできる事前定義された統計モデルがあります。さらに、独自のエラーモデル(挿入、削除、置換の比率が異なる)を提供することもできます。
シーケンスカバレッジの推定
シーケンシングカバレッジ は、リファレンスゲノムの各塩基をカバーするリードの平均数として定義されます。 データセットをシミュレートする場合、シーケンスカバレッジを推定することは非常に重要です。カバレッジ方程式は次のように定義されます。
シーケンシングカバレッジは、リファレンスゲノムの各塩基をカバーするリードの平均数として定義されます。データセットをシミュレートするときは、 シーケンスカバレッジを推定することが重要です。カバレッジ方程式は次のように定義されます。
C = LN / G
C = LN / G
- Cはシーケンスカバレッジです
- Gはゲノムの長さです
- Lは読み取り長です
- Nは読み取りの数です
たとえば、長さが5Mbpのゲノムがあり、1,000,000のHiSeq 2000読み取り(読み取り長は100bp)をシミュレートした場合20x
、次のシーケンスカバレッジが得 られます。
たとえば、ゲノム長が5Mbpで、1,000,000 HiSeq 2000読み取りがシミュレートされている場合(読み取り長は100bp)、次の20x
シーケンスカバレッジが得られます。
C = LN / G = 100 * 1,000,000 / 5,000,000 = 20x
ここでは、リファレンスゲノムの少なくとも各位置が20回の読み取りでカバーされています。
ここでは、リファレンスゲノムの少なくとも各位置が20回の読み取りでカバーされています。
存在量の推定
データセット内の種の 存在量は、その種に属する読み取りの割合と見なされます。10,000,000とのデータセットを読み取り、それらの1,000,000が属する存在する場合、例えば、 大腸菌は、その後の豊富 大腸菌は 0.1であろう。
データセット内の種の存在量は、その種に属する読み取りのスコアと見なされます。例えば、ある場合10,000,000のデータセットを読み取り、それらの何百万人に属する大腸菌 、その後の豊富大腸菌は0.1です。
カバレッジとアバンダンスは同じではないことに注意してください。
カバレッジとアバンダンスが異なることに注意してください。
ショートリードシミュレーター
次世代シーケンシング(NGS)テクノロジーの人気により、多くのNGS読み取りシミュレーターが開発されました。現在、人気のある短い読み取りシミュレーターの多くは、多くのIllumina、454、およびSOLiDプラットフォームを模倣した読み取りをシミュレートするように設計されています。以下にリストされているのは、いくつかの人気のあるショートリードシミュレーターです。それらの出版物へのリンクも提供されています。
次世代シーケンシング(NGS)テクノロジーの普及に伴い、多くのNGS読み取りシミュレーターが開発されました。現在、多くの人気のある短い読み取りシミュレーターは、多くのIllumina、454、およびSOLiDプラットフォームの読み取りをシミュレートするように設計されています。いくつかの人気のある短い読書シミュレータを以下に示します。また、出版物へのリンクも提供しています。
ロングリードシミュレーター
シーケンシング技術の進歩に伴い、科学者は第3世代シーケンシング(TGS)技術の使用にますます関心を示しています。現在、人気のあるロングリードシミュレーターの多くは、2つの主要なTGSテクノロジーを模倣したリードをシミュレートするように設計されています。(1) Pacific Biosciences(PacBio) および(2) Oxford Nanopore(ONT)。以下にリストされているのは、人気があり最近導入されたPacBioおよびONTシミュレーターの一部です。それらの出版物へのリンクも提供されています。
シーケンシング技術の進歩に伴い、科学者は第3世代シーケンシング(TGS)技術の使用にますます関心を持っています。現在、多くの人気のある長時間読み取りシミュレーターは、2つの主要なTGSテクノロジーを模倣する読み取り操作をシミュレートするように設計されています。(1) Pacific Biosciences(PacBio)および(2) Oxford Nano Kong(ONT) 。以下にリストされているのは、最近人気のあるPacBioおよびONTシミュレーターの一部です。また、出版物へのリンクも提供しています。
PacBioシミュレーター (PacBioシミュレーター)
ONTシミュレーター (ONTシミュレーター)
InSilicoSeq(InSilicoSeq)
私は 仕事でInSilicoSeqを頻繁に使用しており 、非常に直感的で使いやすいと感じています。読み取りをシミュレートするためのいくつかのサンプルコマンドについて説明します。conda
または を使用してInSilicoSeqを簡単にインストールできます pip
。
私は仕事でInSilicoSeqをよく使用 しますが、非常に直感的で使いやすいと感じています。読み取りをシミュレートするためのいくつかのサンプルコマンドについて説明します。InSilicoSeqconda
またはを簡単にインストールできます pip
。
conda install -c bioconda insilicoseq
OR
pip install InSilicoSeq
読み取り数を指定して読み取りをシミュレートする
読み取り値の数を提供することにより、読み取り値をシミュレートします
単一のリファレンスゲノムがあり、100万回のイルミナMiSeq読み取りをシミュレートするとします。以下に、InSilicoSeqを使用して実行できるサンプルコマンドを示します。
リファレンスゲノムがあり、100万回のイルミナMiSeq読み取りをシミュレートしたいとします。以下に、InSilicoSeqで実行できるコマンドの例を示します。
iss generate --model miseq --genomes ref.fasta --n_reads 1M --cpus 8 --output reads
カバレッジを提供して読み取りをシミュレートする
カバレッジを提供して読書をシミュレートする
2つのリファレンスゲノムファイルref1.fasta
とが存在する とし ref2.fasta
ます。30x
からの カバレッジとからのカバレッジ をシミュレートする必要が ref1
あり 10x
ます ref2
。coverages.tsv
次のように、という名前のタブ区切りファイルを作成し、カバレッジの詳細を追加する必要があり ます。
2つのリファレンスゲノムファイルref1.fasta
とが存在するとしref2.fasta
ます。ref1
30x
カバレッジとref2
10x
カバレッジをシミュレートする必要があります。coverages.tsv
以下に示すように、という名前のタブ区切りファイルを作成し、カバレッジの詳細を追加する必要があります。
red1_id 30
ref2_id 10
ref1_id
そして ref2_id
、ファイルの識別子を参照してくださいref1.fasta
と ref2.fasta
。あなたはNCBIからの参照ゲノムをダウンロードした場合、識別は、文字と数字で構成され、例えば、このようなものに見えるかもしれNC_007712.1
かを CP001844.2
。これらの識別子は、各リファレンスゲノムに提供されるNCBIアクセッション番号です。
ref1_id
そしてref2_id
参照ファイルref1.fasta
とref2.fasta
。NCBIからリファレンスゲノムをダウンロードすると、ロゴは文字と数字で構成されます 。たとえば、NC_007712.1
またはのように見える場合がありますCP001844.2
。これらの識別子は、各リファレンスゲノムに提供されるNCBIアクセッション番号です。
これで、次のコマンドを使用して読み取りをシミュレートできます。
これで、次のコマンドを使用して読み取りをシミュレートできます。
iss generate --model miseq --genomes ref1.fasta ref2.fasta --coverage coverages.tsv --cpus 8 --output reads
豊富さを提供することにより、読み取りをシミュレートします
リッチコンテンツを提供して読書をシミュレートする
2つのリファレンスゲノムファイルref1.fasta
とが存在する とし ref2.fasta
ます。あなたは、シミュレートしたい 0.4
から豊富 ref1
と 0.6
の豊かさを ref2
。すべての存在量の値の合計はである必要があることに注意してください 1.0
。カバレッジと同様に、abundance.tsv
次のように名前付きのタブ区切りファイルを作成し、存在量の詳細を追加する必要があり ます。
2つのリファレンスゲノムファイルref1.fasta
とが存在するとしref2.fasta
ます。ref1
0.4
豊富さとref2
0.6
豊富さをシミュレートしたい。すべての存在量の値の合計はである必要があることに注意してください1.0
。カバレッジと同様に、タブ区切りファイルを作成し、abundance.tsv
以下に示すようにアバンダンスの詳細を追加する必要があります。
red1_id 0.4
ref2_id 0.6
これで、次のコマンドを使用して読み取りをシミュレートできます。
これで、次のコマンドを使用して読み取りをシミュレートできます。
iss generate --model miseq --genomes ref1.fasta ref2.fasta --abundance abundance.txt --cpus 8 --output reads
詳細については、InSilicoSeqのドキュメントをご覧ください。
詳細については、InSilicoSeqのドキュメントをご覧ください。
PBSIM(PBSIM)
PBSIM は、サンプリングベースとモデルベースの両方のシミュレーションを提供するPacBio読み取りシミュレータです。PBSIMを使用して読み取りをシミュレートするためのいくつかのサンプルコマンドについて説明します。
PBSIMは、サンプリングベースおよびモデルベースのシミュレーションを提供するPacBio読み取りシミュレータです。PBSIMを使用して読み取りをシミュレートするためのサンプルコマンドをいくつか紹介します。
シミュレーションモデルに基づく (モデルベースのシミュレーション)
モデルベースのシミュレーションの場合、次のコマンドを実行できます。
モデルベースのシミュレーションの場合、次のコマンドを実行できます。
pbsim --data-type CLR --depth 100 --length-min 10000 --length-max 20000 --prefix test --model_qc data/model_qc_clr ref.fasta
モデルはPBSIMフォルダーにあります PBSIM-PacBio-Simulator/data/model_qc_clr
。データ型CLRは、 長いエラー率と高いエラー率をシミュレートするContinuous LongReadを指し ます。他のデータ型CCSは、 短いエラー率と低いエラー率をシミュレートするCircular consensusReadを参照し ます。
モデルはPBSIMフォルダーにありますPBSIM-PacBio-Simulator/data/model_qc_clr
。データ型CLRは 、長いエラー率と高いエラー率をシミュレートする連続的な長い読み取りを指します。別のデータ型であるCCSは、「Circular Consensus Reading」を参照し ます。これは、短いエラー率と低いエラー率をシミュレートできます。
サンプリングベースのシミュレーション
サンプリングベースのシミュレーションの場合、次のコマンドを実行できます。
サンプルベースのシミュレーションの場合、次のコマンドを実行できます。
pbsim --data-type CLR --depth 100 --sample-fastq sample/sample.fastq sample/sample.fasta
サンプルのFASTQファイルはPBSIMフォルダーにあります PBSIM-PacBio-Simulator/sample/sample.fastq
。独自のFASTQファイルを使用することもできます。
サンプルのFASTQファイルはPBSIMフォルダーにありますPBSIM-PacBio-Simulator/sample/sample.fastq
。独自のFASTQファイルを使用することもできます。
詳細については、PBSIMのドキュメントをご覧ください。
詳細については、PBSIMのドキュメントをご覧ください。
SimLoRD(SimLoRD)
SimLoRD は、Pacific BiosciencesSMRTエラーモデルに基づくTGS読み取りシミュレータです。SimLoRDを頻繁に使用して、作業用のPacBioデータセットをシミュレートしました。SimLoRDを使用して読み取りをシミュレートするためのサンプルコマンドをいくつか紹介します。
SimLoRDは、Pacific BiosciencesSMRTエラーモデルに基づくTGS読み取りシミュレータです。SimLoRDを使用して、作業用のPacBioデータセットをシミュレートすることがよくあります。SimLoRDを使用して読み取りをシミュレートするためのサンプルコマンドをいくつか紹介します。
読み取り数を指定して、固定長の読み取りをシミュレートします
リファレンスゲノムがあり、60x
カバレッジのある固定長の読み取りをシミュレートするとします 。以下に、SimLoRDを使用して実行できるサンプルコマンドを示します。
リファレンスゲノムがあり、60x
固定長の読み取りのカバレッジをシミュレートしたいとします。以下に、SimLoRDで実行できるコマンドの例を示します。
simlord --read-reference ref.fasta --coverage 60 --fixed-readlength 5000 output_prefix
カバレッジを提供することにより、固定長の読み取りをシミュレートします
リファレンスゲノムがあり、2000個の固定長読み取りをシミュレートするとします。以下に、SimLoRDを使用して実行できるサンプルコマンドを示します。
リファレンスゲノムがあり、2000個の固定長読み取りをシミュレートするとします。以下に、SimLoRDで実行できるコマンドの例を示します。
simlord --read-reference ref.fasta --num-reads 2000 --fixed-readlength 5000 output_prefix
--min-readlength
シミュレーション中にパラメーターを使用して、読み取りの最小長を設定することもでき ます。SimLoRDのドキュメントから詳細を読むことができます。
--min-readlength
パラメータを使用して、シミュレーション中の読み取りの最小長を設定することもできます。SimLoRDのドキュメントから詳細を学ぶことができます。
最終的な考え(最終的な考え)
読み取りシミュレーターは、ゼロエラーから非常に高いエラー率までの範囲の読み取りをシミュレートする機会を与えてくれました。また、さまざまなシーケンスマシンやさまざまな種の構成を模倣した合成データセットとモックデータセットを作成することもできます。
読み取りシミュレーターは、ゼロエラーから非常に高いエラー率までの読み取りをシミュレートする機会を提供します。さらに、さまざまなシーケンサーやさまざまな種の構成を模倣する合成およびシミュレーションデータセットを作成することもできます。
この記事が、読み取りシミュレーターを使用するための出発点として有用で有益であることがわかったことを願っています。これらのツールは無料で入手できるため、プロジェクトや研究作業に自由に使用できます。
この記事が読書シミュレーターの使用に役立ち、役立つ情報を提供してくれることを願っています。これらのツールは、プロジェクトや研究作業に無料で使用できます。
乾杯、そして安全を保ちましょう!
乾杯して安全を確保してください!
バイオインフォマティクスとDNA分析に関連する私の以前の記事を読むことができます。
バイオインフォマティクスとDNA分析に関する私の以前の記事を読むことができます。
翻訳元:https: //medium.com/computational-biology/a-simple-introduction-to-read-simulators-bbeff4f0c0c6
簡単な計算機をシミュレートする