seqtk はバッチで読み取りを抽出します

サンプル内のリード数には差があり、数十万件の場合もあれば、数万件の場合もあります。このとき、抽出には通常 seqkit が使用されます。

一般的に使用される抽出モードは次のとおりです。

抽出するレコード数 (10000) を指定します。

seqtk サンプル -s 100 サンプル 1.fq 10000 | gzip > サンプル1.fq  

seqtk サンプル -s 100 サンプル 2.fq 10000 | gzip > サンプル2.fq

比例的に描画 (0.6)

seqtk サンプル -s 100 サンプル 1.fq 0.6 | gzip > サンプル1.fq  

seqtk サンプル -s 100 サンプル 2.fq 0.6 | gzip > サンプル2.fq

複数のサンプルを処理する必要がある場合に利用可能

* の f の場合; do seqtk サンプル -s 100 $f 0.5 | gzip > temp/$f; 終わり

ただ、元データではない*0.6がなぜ比例抽出されるのかというちょっとした疑問があるんですが、今のところここがよく分かりませんので、ご存知の方はメッセージをお願いします、よろしくお願いします!

おすすめ

転載: blog.csdn.net/whiteof/article/details/130387271