数学的モデリング_Excelを使用して列のテキストデータを処理し、有用な情報を抽出します

Office Excelの列機能を使用して、プログラムによって生成された複雑なテキストデータを2つのステップで適切な情報に処理します

ダーティデータの例(AntEpiSeekerによって生成され、ここでは感度が低下しています):

Epistatic interactions:
Loci	Chi-square	P value
93(rs10****1) 6111(rs2****5) 	32.2****4	8.4****3e-005
6****5(rs1****7) 237(rs15****6) 	32.5****4	7.2****5e-005
8****6(rs15****1) 88(rs6****91) 	40.7****24	2.26e-006
35(rs1****73) 7****9(rs****6) 	7.61	8.****7e-006
1037(rs1****28) 624(rs9****6) 	0.1****3	3.8****9e-008
56(rs1****081) 37(rs2****1) 	0.4	9.1****6e-006
9(rs2****9) 3****3(rs1****3) 	9.7****7	1.****96e-005

データ機能:純粋なtxtファイル、分割なし、固定構造(Copyright© https
//blog.csdn.net/s_gy_zetrov。AllRightsReserved)抽出ターゲット:軌跡列のノードペア、「rs」で始まり、前面は不要数字と左右の括弧

最初の一歩

Excelはtxtデータを開き、最初の列を選択すると、結果は次のようになります。

遺伝子座
93(rs10 **** 1)6111(rs2 **** 5)
6 **** 5(rs1 **** 7)237(rs15 **** 6)
8 **** 6(rs15 **** 1)88(rs6 **** 91)
35(rs1 **** 73)7 **** 9(rs **** 6)
1037(rs1 **** 28)624(rs9 **** 6)
56(rs1 **** 81)37(rs2 **** 1)
9(rs2 **** 9)3 **** 3(rs1 **** 3)

第二段階

連続して3回ソートする機能を使用し、最初の分割の標準は左括弧で、結果を取得します(Copyright© https://blog.csdn.net/s_gy_zetrov。AllRightsReserved):

93 rs10 **** 1)6111 rs2 **** 5)
6 **** 5 rs1 **** 7)237 rs15 **** 6)
8 **** 6 rs15 **** 1)88 rs6 **** 91)
35 rs1 **** 73)7 **** 9 rs **** 6)
1037 rs1 **** 28)624 rs9 **** 6)
56 rs1 **** 081)37 rs2 **** 1)
9 rs2 **** 9)3 **** 3 rs1 **** 3)

2回目は、列2と3を分割し、標準は右括弧で、結果を取得します。

93 rs10 **** 1 6111 rs2 **** 5
6 **** 5 rs1 **** 7 237 rs15 **** 6
8 **** 6 rs15 **** 1 88 rs6 **** 91
35 rs1 **** 73 7 **** 9 rs **** 6
1037 rs1 **** 28 624 rs9 **** 6
56 rs1 **** 081 37 rs2 **** 1
9 rs2 **** 9 3 **** 3 rs1 **** 3

この時点で、ノードペアのfromノードとtoノードが抽出されています。簡単な処理で、最終結果は次のようになります。

から
rs34323 rs46351014
rs3234323 rs 6659457

拡張

上記の機能を実現するための機能の使用方法:リンク

(著作権© http://blog.csdn.net/s_gy_zetrov無断複写・転載を禁じます)


ビジタートラッカー
訪問者追跡プラグイン


おすすめ

転載: blog.csdn.net/S_gy_Zetrov/article/details/90108214