Office Excelの列機能を使用して、プログラムによって生成された複雑なテキストデータを2つのステップで適切な情報に処理します
ダーティデータの例(AntEpiSeekerによって生成され、ここでは感度が低下しています):
Epistatic interactions:
Loci Chi-square P value
93(rs10****1) 6111(rs2****5) 32.2****4 8.4****3e-005
6****5(rs1****7) 237(rs15****6) 32.5****4 7.2****5e-005
8****6(rs15****1) 88(rs6****91) 40.7****24 2.26e-006
35(rs1****73) 7****9(rs****6) 7.61 8.****7e-006
1037(rs1****28) 624(rs9****6) 0.1****3 3.8****9e-008
56(rs1****081) 37(rs2****1) 0.4 9.1****6e-006
9(rs2****9) 3****3(rs1****3) 9.7****7 1.****96e-005
データ機能:純粋なtxtファイル、分割なし、固定構造(Copyright© https
://blog.csdn.net/s_gy_zetrov。AllRightsReserved)抽出ターゲット:軌跡列のノードペア、「rs」で始まり、前面は不要数字と左右の括弧
最初の一歩
Excelはtxtデータを開き、最初の列を選択すると、結果は次のようになります。
遺伝子座 |
---|
93(rs10 **** 1)6111(rs2 **** 5) |
6 **** 5(rs1 **** 7)237(rs15 **** 6) |
8 **** 6(rs15 **** 1)88(rs6 **** 91) |
35(rs1 **** 73)7 **** 9(rs **** 6) |
1037(rs1 **** 28)624(rs9 **** 6) |
56(rs1 **** 81)37(rs2 **** 1) |
9(rs2 **** 9)3 **** 3(rs1 **** 3) |
第二段階
連続して3回ソートする機能を使用し、最初の分割の標準は左括弧で、結果を取得します(Copyright© https://blog.csdn.net/s_gy_zetrov。AllRightsReserved):
93 | rs10 **** 1)6111 | rs2 **** 5) |
6 **** 5 | rs1 **** 7)237 | rs15 **** 6) |
8 **** 6 | rs15 **** 1)88 | rs6 **** 91) |
35 | rs1 **** 73)7 **** 9 | rs **** 6) |
1037 | rs1 **** 28)624 | rs9 **** 6) |
56 | rs1 **** 081)37 | rs2 **** 1) |
9 | rs2 **** 9)3 **** 3 | rs1 **** 3) |
2回目は、列2と3を分割し、標準は右括弧で、結果を取得します。
93 | rs10 **** 1 | 6111 | rs2 **** 5 |
6 **** 5 | rs1 **** 7 | 237 | rs15 **** 6 |
8 **** 6 | rs15 **** 1 | 88 | rs6 **** 91 |
35 | rs1 **** 73 | 7 **** 9 | rs **** 6 |
1037 | rs1 **** 28 | 624 | rs9 **** 6 |
56 | rs1 **** 081 | 37 | rs2 **** 1 |
9 | rs2 **** 9 | 3 **** 3 | rs1 **** 3 |
この時点で、ノードペアのfromノードとtoノードが抽出されています。簡単な処理で、最終結果は次のようになります。
から | に |
---|---|
rs34323 | rs46351014 |
rs3234323 | rs 6659457 |
… | … |
拡張
上記の機能を実現するための機能の使用方法:リンク
(著作権© http://blog.csdn.net/s_gy_zetrov。無断複写・転載を禁じます)
ビジタートラッカー