HGANMDA: miRNA と疾患関連予測のための階層型グラフ アテンション ネットワーク (分子療法)

HGANMDA:miRNAと疾患の関連予測のための階層型グラフアテンションネットワーク

https://www.sciencedirect.com/science/article/pii/S1525001622000806https://www.sciencedirect.com/science/article/pii/S1525001622000806あ>

        多くの生物学的研究により、マイクロ RNA (miRNA) の突然変異と異常な発現がさまざまな疾患を引き起こす可能性があることが示されています。疾患診断のための重要なバイオマーカーとして、miRNA は疾患の病因の理解を助け、疾患の同定、診断、治療を促進します。しかし、miRNA がこれらの疾患の発症にどのように影響するかは完全には理解されていません。したがって、miRNA と疾患との潜在的な関連性を予測することは、臨床医学および創薬研究の発展にとって非常に重要です。本研究では、miRNA と疾患の関連性を予測するための、階層型グラフ アテンション ネットワークに基づく深層学習モデル (HGANMDA) を提案します。 まず、既知の miRNA-疾患、miRNA-lncRNA、および疾患-lncRNA の関連に基づいて、miRNA-疾患-lncRNA アイソフォーム マップを構築しました。第二に、ノードレベルの注意を利用して、さまざまなメタパスに基づいて隣接ノードの重要性を学習します。 3 番目に、意味レベルの注意を活用して、さまざまなメタパスの重要性を学びます。最後に、バイリニア デコーダーを使用して、miRNA と疾患の関係を再構築します。 多数の実験結果は、miRNA と疾患の関連性の予測において、私たちのモデルが良好なパフォーマンスと満足のいく結果を達成することを示しています。 

目次

1. はじめに

2. 結果

2.1.評価指標

2.2.実装内容と性能評価

2.3.他の最新手法との比較(他の最新手法との比較)

2.4. 特徴集約の影響

2.5. セマンティック層注目ベクトル q の次元の影響 (セマンティック層注目ベクトル q の次元の影響)

2.6. ケーススタディ

3. ディスカッション

4. 材料と方法

4.1. ヒト miRNA 疾患関連データベース (ヒト miRNA 疾患関連データベース)

4.2. miRNA の機能的類似性

4.3. 疾患の意味論的な類似性

4.4. miRNA と疾患のガウス相互作用プロファイル カーネル類似性

4.5. miRNA と疾患の統合された類似性

4.6. lncRNA 配列の行列表現

4.7.HGANMDA 

4.8. miRNA-疾患-lncRNAヘテロジニアスグラフの構築 (miRNA-疾患-lncRNAヘテロジニアスグラフの構築)

4.9. ノード層の注意

4.10. セマンティック層の注意

4.11. バイリニアデコーダ


1. はじめに

        RNA (リボ核酸) は、植物、動物、微生物、ウイルスに一般的に見られる重要な分子の 1 つです [1、2]。さまざまな重要な生物学的機能を持っています [3]。マイクロRNA (miRNA) は、長さ約 22 ヌクレオチドの内因性遺伝子によってコードされる小さな非コード RNA 分子のクラスです [4、5]。 1993 年に線虫から lin-4 が発見されて以来、ますます多くの研究者が miRNA の機能に注目するようになりました [6]。 特に近年、miRNA の異常な発現が複雑なヒト疾患の発生と進行に関連していることが多くの研究で判明しています [7]。例えば、miR-155 は、ErbB2 誘導性乳腺上皮細胞形質転換の重要な調節因子であることが確認されており、トロクスズマブに対する ErbB2 陽性乳がんの治療反応を媒介します [8]。したがって、疾患研究者が miRNA と疾患の間の潜在的な関連性を発見できるようにすることは非常に重要です。 

        初期の研究者は主に、逆転写ポリメラーゼ連鎖反応 (PCR) [9]、ノーザンブロッティング [10]、マイクロアレイプロファイリング [11] など、潜在的な miRNA と疾患との関連性を判断するためにいくつかの生物学的手法を使用していました。しかし、従来のバイオテクノロジーの導入には多額の資金と時間がかかることが多く、効率は比較的低い[12]。バイオテクノロジーの発展と以前の実験結果の要約により、研究者は、ヒト miRNA 疾患データベース (HMDD) [13]、ヒト癌における miRNA 発現差データベースなど、miRNA と疾患の関係に関する多くの信頼できるバイオインフォマティクス データベースを確立しました。 (dbDEMC) [14]、ヒト疾患における miRNA 障害のデータベース (miR2Disease) [15]。同時に、コンピュータの計算方法や性能も大幅に向上しました。したがって、一部の研究者は、miRNA と疾患の関連性を予測するための計算手法を検討し始めました [16]。​ 

        ここ数年、miRNA と病気の関係を研究するために、多くの新しく効率的な計算手法が提案されています。これらの手法は、類似性に基づく手法と機械学習に基づく手法の 2 つのカテゴリに大別できます。類似性に基づく予測方法は、miRNA が類似した機能を持っている場合、それらは表現型が類似した疾患に関連する可能性が高いという仮定に基づいています。多くの研究者は、類似性に基づく方法を使用して、miRNA と疾患の関連性を予測してきました。例えば、Jiang らは、機能的に関連した miRNA ネットワークとヒト表現型 miRNA ネットワークを構築して、機能的に関連した miRNA が表現型が類似した疾患に関連するかどうかを研究する方法を開拓しました [17]。データが不十分なため、間接的な隣接ノードが考慮されず、最終的な予測効果が不十分になりました。 Chenらは、miRNAと疾患の関連性を予測するためのスコア内モデルとスコア間モデルを組み合わせたモデルを提案しており、これは既知の関連するmiRNAが欠如している疾患に使用できます [8] 。さらに、関連情報が不明な場合、ほとんどの方法では miRNA と疾患との関連を予測できないことを考慮して、Zhang らは、miRNA と疾患との未知の関連を予測するために加重平均戦略を採用する FLNSNLI モデルを提案しました [18]。 FLNSNLI モデルでは、潜在的な miRNA と疾患の関連性を予測するには、部分的に確認された miRNA と疾患の関連性が依然として必要です。次に、Zhaoらは、確認されたmiRNA-lncRNAの関連性と疾患-lncRNAの関連性を組み合わせてmiRNA-疾患-lncRNAネットワークを構築し、確認されたmiRNAを使用せずにmiRNAと疾患の関連性を予測するDCSMDAモデルを提案した。 19]。

        類似性に基づく予測方法とは異なり、機械学習ベースの方法は、miRNA と疾患の関連性を予測するための分類アルゴリズムと特徴抽出方法に焦点を当てています。例えば、Chenらは、複数のmiRNAと疾患との関連性を予測するための分類子として制限付きボルツマンマシン(RBMMMDA)を使用した[20]。 Liuらは、miRNA-疾患関連ネットワークを構築し、疾患類似性サブネットワークとmiRNA類似性サブネットワークを接続し、ランダムウォークを使用して関連スコアを計算した[21]。 Liu らの方法とは異なり、Zheng らは、特徴抽出にディープ オートエンコーダ ニューラル ネットワークを適用し、分類にランダム フォレスト分類器を適用する新しい方法 MLMDA を提案しました [22]。さらに、Liu らは、スタックされたオートエンコーダーを使用して潜在的な特徴を学習し、XGBoost を使用して miRNA と疾患の間の未知の関連性を予測する SMALF モデルを提案しました [23]。さらに、Li らは、異種ネットワーク内のノードの特徴を抽出する拡散ベースの機械学習手法 (DF-MDA) を設計し、関連性の判断にランダム フォレスト分類器を使用しました。

        グラフ ニューラル ネットワークの普及に伴い、研究者らは、グラフ ニューラル ネットワークを使用したグラフ構造法が miRNA と疾患の関係を予測するのに非常に適していることを発見しました。例えば、Tangらは、グラフ畳み込みネットワークとマルチチャネル注意メカニズムを適用してmiRNAと疾患の特性を強化するMMGCNモデルを提案した[25]。 Wangらは、グラフ畳み込みエンコーダーを使用してノードの潜在表現を学習し、神経マルチリレーションデコーダーを使用してmiRNAと疾患の関連スコアを取得しました[26]。 Jiらは、加重DeepWalkとグラフアテンションネットワークを通じてmiRNAと疾患の特徴を抽出するHGATMDAモデルを提案した[27]。以前の方法では満足のいく予測結果が得られましたが、ほとんどの研究者は、miRNA 疾患の不均一マップに含まれる豊富な意味情報に注意を払ってきませんでした。メタパスは、異なるタイプのノードを接続するパスであり、異種ネットワークで複雑な構造情報と豊富なセマンティック情報をマイニングするために使用できます [28、29]。したがって、グラフニューラルネットワークとメタパスを組み合わせて、異種グラフネットワーク内のノード特徴情報とメタパス意味情報を集約することを検討します。 

        この論文では、miRNA と疾患の関連性を予測するための新しい階層グラフ アテンション ネットワーク モデル HGANMDA を提案します。具体的には、まず複数のデータを統合し、miRNA-疾患-lncRNAアイソフォームマップを構築しました。次に、miRNA と疾患ノードを同じベクトル空間に投影します。 3 番目に、ノードレベルのアテンションを使用して、さまざまなメタパスに基づいて隣接ノード上で機能集約を実行します。セマンティック レイヤー アテンションは、さまざまなメタパスの重要性を学習することでセマンティック情報を取得します。ノード集合体の特徴情報と意味層アテンションの意味情報を融合することにより、最終的なノード埋め込みが得られます。第 4 に、バイリニア デコーダを使用して最終的に埋め込まれた miRNA と疾患ノードをデコードし、miRNA と疾患の間の関連性を再構築します。最後に、クロスエントロピー損失と逆伝播アルゴリズムを使用して、モデル全体がエンドツーエンドでトレーニングされます。 実験では、HGANMDA モデルに対して 5 分割相互検証を実行し、93.74% の平均曲線下面積 (AUC) と再現率以下の精度面積を取得しました。 (AUPR) 93.74%。93.43%。さらに、食道がん、リンパ腫、前立腺腫瘍の症例研究も実施しました。結果は、これらの疾患に関連する上位 50 の miRNA のうち、48、46、および 46 がそれぞれ dbDEMC および miR2Disease データベースによって検証されたことを示しました。すべての実験結果は、HGANMDA モデルが miRNA と疾患の関係を研究するための効果的なツールとなり得ることを示しています。 


2. 結果

2.1.評価指標

        提案モデルの性能をより多くの側面から評価するために、HGANMDA モデルの評価指標として精度 (Acc)、精度 (Prec)、再現率、F1 スコアを選択しました。これらの評価指標は次のように計算されます。 

このうち、TP、TN、FP、FN はそれぞれ真陽性、真陰性、偽陽性、偽陰性を表します。​ 

        さらに、これまでの評価指標ではモデルの研究成果を直観的に反映できないことを考慮して、受信者動作特性(ROC)曲線と適合率-再現率(P-R)曲線を描きました。通常、ROC 曲線の下の領域が大きいほど、モデルの予測パフォーマンスが向上します。​ 

2.2.実装内容と性能評価

        HGANMDA モデルは、PyTorch の深さライブラリに基づいて実装されています。実験のトレーニング段階では、パラメーターをランダムに初期化し、Adam を使用して提案したモデルを最適化しました。 HGANMDA モデルのトレーニング エポックは 1000、学習率は 0.001、重み減衰は 0.005、マルチヘッド アテンション ヘッドの数は 8、セマンティック レイヤー アテンション ベクトルの q 次元は 128 です。過学習の発生を減らすために、ドロップアウトを 0.1 ~ 0.9 に設定してモデルをトレーニングします。最後に、ドロップアウトが 0.6 に設定されている場合、モデルの予測パフォーマンスが最高になることがわかりました。すべての実験データとコードはGitHub - ZTangBo/HGANMDA: HGANMDA からダウンロードできます。 

        この実験では、5 分割交差検証を使用して HGANMDA モデルのパフォーマンスを評価しました。 5 重交差検証を達成するために、選択した miRNA 疾患サンプル セットをランダムに 5 つのサブセットに分割し、そのうち 4 つをトレーニング セットとして選択し、残りの 1 つをテスト セットとして選択しました。次に、トレーニング セットを使用してモデルをトレーニングし、テスト セットを使用して予測結果を取得します。最後に、実験結果に基づいて、モデルの有効性を示すグラフが描かれます。表 1 では、HGANMDA が平均 ACC. 86.28%、Prec. 85.88%、Recall 86.87%、F1 スコア 86.36%、標準偏差 0.60%、1.13%、1.25%、0.59% を達成したことがわかります。それぞれ。 。さらに、平均AUCは93.74%、平均はそれぞれ93.48%、93.86%、94.37%、93.86%、93.16%であり、平均AUPRは93.43%、平均は92.81%、93.25%、94.11%、94.06です。それぞれ%と92.92%。 HGANMDA モデルの ROC 曲線を図 2 に、P-R 曲線を図 3 に示します。

2.3.他の最新手法との比較(他の最新手法との比較)

        miRNA と疾患の関連性を予測する際のモデルのパフォーマンスをさらに確認するために、HGANMDA モデルのパフォーマンスを、IMIPMF[30]、NMCMDA[26]、NCFM[31]、DBMDA[32] を含む他の 7 つの最近のモデルと比較しました。 ]、CEMDA[33]、NIMCCGN[34]、および M2GMDA[35]。結果を説得力のある公平なものにするために、選択したモデルはすべて過去 2 年間のものであり、その評価指標は HMDD v. 2.0 データセットに 5 分割相互検証法を適用することによって取得されました。これらのモデルはパフォーマンスを評価するための重要な指標として AUC 値を選択するため、提案されたモデルとこれらのモデルの AUC 値を比較しました。比較結果を表 2 に示します。他のモデルと比較すると、このモデルの AUC 値が最も高く、2 番目に高い M2GMDA モデルより 0.51% 高いことがわかります。これは、私たちのモデルがノードレベルの注意と意味レベルの注意を組み合わせており、隣接ノードの特徴情報だけでなく隣接ノードの意味情報も考慮に入れているためであると考えられます。これにより、最終的なノードの埋め込みと予測結果がより包括的になります。もっと良い、もっと良い。

2.4. 特徴集約の影響

        この実験では、ノードレベルの注意と意味レベルの注意を組み合わせた方法を使用して、miRNA と疾患ノードの埋め込みを実現します。この方法の実現可能性と説得力のある実験結果を検証するために、HGANMDA 方法の予測パフォーマンスをノードフリー アテンション方法およびセマンティック レイヤ フリー アテンション方法と比較します。メタパスベースの隣接ノード特徴集約ではノードレベルの注意力が採用されるため、ノードレベルの注意力を考慮しなくても各隣接ノードの重要度は同じになります。これをNondと呼びます。対照的に、メタパスの重要度を取得するために意味レベルの注意が使用されるため、意味レベルの注意が考慮されない場合、各メタパスの重要度には、Nosem と呼ばれる同じ重要度が与えられます。比較結果を図 4 に示します。 3 つの方法の中で、HGANMDA は精度、再現率、F1 スコア、および AUC スコアが最も高くなります。 Nond の精度は HGANMDA よりわずかに高いですが、他の 4 つの評価指標では、Nond の精度が HGANMDA よりも大幅に低く、セマンティック層の注意がノード層の注意を補完していることを意味します。 セマンティック レイヤー アテンションは、ノード レベルのアテンションの特定のセマンティック情報を統合して、より包括的なノード集約機能を取得します。したがって、HGANMDA モデルは他の 2 つの方法よりもパフォーマンスが優れています。

2.5. セマンティック層注目ベクトル q の次元の影響 (セマンティック層注目ベクトル q の次元の影響)

        セマンティックレイヤーアテンションベクトルqの次元はセマンティックレイヤーアテンションのパフォーマンスに影響を与える重要な要素であるため、5分割交差検証に基づいてさまざまな次元でHGANMDAのAUC値を比較しました。比較結果を図 5 に示します。結果は、HGANMDA の AUC 値がセマンティック層注目ベクトル q の次元の増加に伴って増加することを示しています。セマンティック層注目ベクトルのq次元を128に設定すると、そのときのAUCが最も大きくなり、モデルの予測効果が最も高くなる。ただし、q の次元が 128 を超えると、AUC は減少し始めます。また、次元が 512 の場合、モデルの AUC 比が 128 で大幅に減少することもわかりました。これは過学習が原因である可能性があります。したがって、セマンティック層の注目ベクトル q の次元をデフォルトの次元として 128 に設定します。

2.6. ケーススタディ

        miRNA と特定の疾患の間の潜在的な関連性の予測における HGANMDA モデルのパフォーマンスをさらに反映するために、食道腫瘍、リンパ腫、および前立腺腫瘍 ケーススタディ。具体的には、まず miRNA ノードと疾患固有のノードを含むエッジを miRNA-疾患-lncRNA 異種グラフから除外します。次に、miRNA ノードと疾患ノードを含む残りのエッジがトレーニング用のトレーニング セットとして使用されます。フィルタリングされます。発信エッジはテスト セットとしてテストされます。最後に、テスト セットの結果をランク付けし、dbDEMC および miR2disease データセットを使用して、予測された miRNA と特定の疾患との関連が確認されたかどうかを判断します。

        食道腫瘍は、最も一般的な消化管腫瘍の 1 つです。これらは、世界の悪性腫瘍トップ 10 の中で 4 位にランクされています。多くの研究により、正常組織と食道腫瘍組織では miRNA の発現に大きな違いがあり、miRNA が食道腫瘍の発生、発生、予後に関与していることが示されています。したがって、モデルの予測性能をテストするための最初のケーススタディとして食道腫瘍が選択されました。表 3 から、dbDEMC および miR2Disease データセットにより、食道腫瘍に関連する上位 50 miRNA のうち 48 が確認されたことがわかります。

        リンパ腫はリンパ造血系の悪性腫瘍です。 miRNA はリンパ腫の病因において重要な役割を果たし、リンパ腫細胞の分化、増殖、およびアポトーシスに関与します。たとえば、miR155 の高発現は、リンパ腫に対する RhoA シグナル伝達経路の阻害効果をブロックし、それによってリンパ腫の発生を促進する可能性があります。表 4 から、リンパ腫に関連する上位 50 miRNA のうち 46 が dbDEMC および miR2Disease データセットによって確認されたことがわかりました。

        実験結果をより完全にするために、前立腺腫瘍に関する 3 番目のケーススタディを実施しました。前立腺腫瘍には前立腺上皮腫瘍と前立腺間質腫瘍が含まれ、そのほとんどは悪性です。前立腺腫瘍の発生も miRNA と密接に関連しているため、前立腺腫瘍を選択しました。表 5 は、前立腺腫瘍に関連する上位 50 miRNA のうち 46 が dbDEMC および miR2Disease データセットによって確認できることを示しています。要約すると、HGANMDA モデルは、miRNA と特定の疾患との関係を予測するケーススタディにおいて満足のいく結果を達成しました。


3. ディスカッション

        Small RNA は、ヒトの病気の発生と進行において重要な役割を果たしていることが示されています。コンピューター的手法を通じて一部の病原性 miRNA をマイニングすることは、生物学的実験手法の高コストと長期サイクルの問題を解決できるだけでなく、研究者が特定の疾患に関連する miRNA について的を絞った研究を実施できるようにすることにもつながります。この論文では、miRNA と疾患の関連性を予測するために、ノードレベルの注意力と意味論的レベルの注意力を含む階層的なグラフ注意力ネットワークを提案します。これを HGANMDA モデルと呼びます。このモデルは、ノード層のアテンションを使用して、異なるメタパスの下で隣接ノードの重要性を学習し、セマンティック層のアテンションを使用して、異なるメタパスの下で隣接ノードの重要性を学習します。このネットワークを通じて、HGANMDA モデルは、miRNA 疾患/ncRNA 異種グラフのノード情報、構造情報、および意味情報を最大限に活用できます。全体として、これらの評価指標とケーススタディは、miRNA と疾患の関連性を予測する際の HGANMDA モデルの優れた予測性能を示しています。私たちが提案したモデルは、研究者が miRNA と疾患の関連性の研究を改善するのに役立つ貴重なアプローチであることが証明されるはずです。ただし、HGANMDA モデルでは、より長いメタパスは使用しませんでした。その理由は、メタパスの長さが2以上になると、メタパスに基づく相関行列が密になるためである。したがって、モデルの予測パフォーマンスをさらに向上させるために、将来的には隣接ノードの数を制限することでより長いメタパスを使用する予定です。


4. 材料と方法

4.1. ヒト miRNA 疾患関連データベース (ヒト miRNA 疾患関連データベース)

        この研究では、ベンチマーク データセット HMDD v 2.0 を使用してモデルを実装します。 https://www.cuilab.cn/hmdd からダウンロードできます。このデータセットには、383 の疾患、495 の miRNA、および miRNA と疾患間の実験的に検証された 5,430 の関連性が含まれています。実験では、miRNA と疾患の関連性を保存するために隣接行列 DM (i, j) を作成しました。マトリックスでは、383 行が疾患の数を表し、495 列が miRNA の数を表します。疾患 d (i) が miRNA m (j) に関連している場合、行列内の対応する位置は 1 として記録され、そうでない場合は 0 として記録されます。

4.2. miRNA の機能的類似性

        同様の機能を持つ miRNA は同様の疾患と関連することが多く、その逆も同様であるという仮定に基づいて、Wang らは miRNA の機能類似性を計算するモデルを提案しました。彼らの以前の研究のおかげで、miRNA の機能的類似性データを https://www.cuilab.cn/files/images/cuilab/misim.zip から直接取得できます。次に、495 行、495 列の行列 MFSM を構築しました。ここで、 は miRNA m (i) と m (j) の間の機能類似性スコアを表します。

4.3. 疾患の意味論的な類似性

        以前の研究に基づいて、Medical Subject Headings (MeSH) データベース (https://www.ncbi.nlm.nih.gov/) からさまざまな疾患間の関係を取得し、疾患の意味論を計算できます。類似性。 MeSH データベースでは、各疾患を有向非巡回グラフ (DAG) で表現できます。 は、疾患 d (i) とその祖先ノードを含む、祖先ノードからエッジのセットまでの疾患 d (i) の有向非巡回グラフを表します。 ノード d (i) 間が直接接続されています。次に、病気 から までの意味的寄与値を計算します。

ここで、 の子ノードを表し、 は意味論的減衰の寄与率を表します。 Xuanらの研究ではそれを0.5に設定した。病気 自体に対する寄与率は 1 に設定されます。病気 から病気 までの距離が増加すると、意味寄与率は減少します。したがって、病気の意味的価値は次のように計算できます :

2 つの疾患の DAG がより多くの部分を共有する場合、その 2 つはより類似しているという仮定に従って、疾患 d (i) と d ( j) 次のように:

        ただし、同じレベルの DAG での疾患の発生数はすべての疾患 DAG で異なる可能性があるため、上記の方法は包括的ではありません。私たちはパスキエとガルデスの研究を組み合わせ、病気の意味的類似性を計算するために別の方法を採用しました [39]。疾患 d (k) から d (i) までの意味的寄与値は次のように計算されます。

このようにして、疾患 d (i) の意味的価値は式 (9) のように計算され、疾患 d (i) と d (j) の間の意味的類似性は式(10)のように計算されます。

したがって、より合理的かつ正確な疾患の意味的類似性を取得するために、2 つの疾患の意味的類似性を平均して、最終的な疾患の意味的類似性を求めます。最後に、d (i) と d (j) の間の疾患の意味的類似性 は次のように計算されます。

4.4. miRNA と疾患のガウス相互作用プロファイル カーネル類似性

        miRNA と疾患の関連ネットワークの検証されたトポロジーに基づいて、miRNA と疾患のガウス相互作用スペクトル カーネル類似性を計算できます [8]。まず、類似した miRNA は類似した疾患と関連する可能性が高いという仮説に基づいて、行列 DM の i 番目の列で miRNA m を表すバイナリ ベクトルを作成しました。 (i) および他の病気とのすべての関連性。次に、miRNA のガウス相互作用スペクトル カーネル類似度  を次のように計算できます。

パラメータ  は、コアの帯域幅を制御するために使用されます。次のように計算できます:

ここで、 は以前の研究 [8] を参照して 1 に設定され、nm はすべての miRNA の数に等しい 495 に設定されます。同様に、疾患 のガウス相互作用スペクトル  は次のように計算できます。

バイナリ ベクトルの 1 つ (行列 DM の i 行目) は、疾患 d (i) と他のすべての miRNA との関係を表します。  は 1 に設定され、nd はすべての病気の数に等しい 383 に設定されます。

4.5. miRNA と疾患の統合された類似性

        上記の結果に基づいて、式 (16) のように miRNA と疾患の間の統合類似性を計算できます。 間の統合類似度は式 (17) の通りです。

4.6. lncRNA 配列の行列表現

        私たちの実験では、実験的に確認された miRNA-lncRNA 関連および lncRNA-疾患関連を含むデータを使用しました。関連データを取得するために、lncRNASNP2[40] および LncRNADisease v. 2.0[41] データセットを導入しました。 LncRNASNP2 データセットは、3,521 個の lncRNA と 276 個の miRNA の間で確認された 45,329 個の関連性を記録しており、lncRNASNP2-human からダウンロードできます。 LncRNADisease v. 2.0 データセットは、6,086 の lncRNA と 451 の疾患との間の 10,564 の確認された関連性を記録しており、LncRNADisease2 からダウンロードできます。これらのデータに基づいて、lncRNASNP2 データセット、lncrNAdisease v. 2.0 データセット、および HMDD v. 2.0 データセットにおける miRNA と lncRNA の関連性、ならびに疾患と lncRNA 間の関連性を手動で照合しました。実験を容易にするために、miRNA と疾患に関連する 467 個の lncRNA を選択しました。したがって、495 個の miRNA と 467 個の lncRNA の間で 4,352 個の確認された関連性が得られ、383 個の疾患と 467 個の lncRNA の間で 1,486 個の確認された関連性が得られました。

        lncRNA の特徴情報を取得するために、ノード属性を表す lncRNA の配列情報を NONCODE (http://www.) からダウンロードしました。次に、k-mers 法を使用して lncRNA 配列をベクターに変換しました [46,47]。 k-mer は、lncRNA 配列を塩基を含む一連のサブ配列に分割できます。一般に、長さ m のシーケンスは、m - k + 1 k-mer に分割できます。実験では、lncRNA 配列から lncRNA の結合トリプレット (3 量体) を抽出しました。 lncRNA の 4 つの塩基は A、C、G、U であるため、3 量体は lncRNA の配列を AAA、AAC、...、UUU に分割できます。具体的には、まずスライディング ウィンドウを適用して、lncRNA の配列をいくつかの結合トリプレットに分割しました。次に、各サブシーケンスの頻度が計算され、これらのデータが正規化されます。最終的に、lncRNA の特徴情報を表す 64 次元のベクトルが得られました。 lncRNA の数は 467 であるため、これらの lncRNA のベクトルを格納するために 467 行 64 列の行列 IL を作成しました。 ここで、 の特性を表します。 。

4.7.HGANMDA 

        この論文では、miRNA と疾患関連予測 (HGANMDA) のためのノードレベルの注意、意味レベルの注意、および双線形デコーダを組み合わせた階層型グラフ注意ネットワーク モデルを提案します。提案モデルのフローチャートを図 1 に示します。 HGANMDA は 6 つのステップに分けることができます: (1) miRNA 疾患-lncRNA 異種グラフを構築する; (2) miRNA と疾患ノードを同じ特徴空間に投影する; (3)ノード層 異なるメタパスに基づいて隣接ノード集約機能に強制力を適用する; (4) セマンティック層の注意を使用して異なるメタパスの重要性を学習し、ノード集約機能情報とセマンティック情報を融合する; (5) バイリニア デコーダを使用して再構築するmiRNA と疾患間の関係 (6) クロスエントロピー損失関数を使用してモデル全体をエンドツーエンドでトレーニングします。 次に、各ステップの具体的な実装プロセスを紹介します。

4.8. miRNA-疾患-lncRNAヘテロジニアスグラフの構築 (miRNA-疾患-lncRNAヘテロジニアスグラフの構築)

        このモデルを実装するには、495 個の miRNA ノード、383 個の疾患ノード、および 467 個の lncRNA ノードを含む異種グラフを構築し、すべてのノード間の関連性を検証する必要があります。 HMDD v.2.0 には、実験的に検証された miRNA と疾患の関連性が 5,430 あります。これらの 5,430 の関連性を、miRNA ノードと疾患ノード間の陽性サンプルとして適用し、1 とラベル付けします。しかし、未知の miRNA と疾患の関連性の数は、確認されている miRNA と疾患の関連性の数よりもはるかに多くなります。正のサンプルと負のサンプルの不均衡により、予測結果が複数サンプル分類になる傾向があり、それによってモデルの汎化能力が低下します。この問題に対処するために、すべての未知の miRNA 疾患関連性から 5,430 個の関連性を陰性サンプルとしてランダムに選択し、0 としてマークして不均一グラフに追加しました。さらに、miRNA と疾患の統合された類似性を、それぞれ miRNA と疾患ノードの特徴として定義します。したがって、miRNA は次のように 495 次元のベクトル として記録できます。

ここで は行列 IM の i 番目の列を表し、 は miRNA を表します。 および 統合類似度値。同様に、病気 は次のように 383 次元のベクトル として記録できます。

ここでは行列 ID の i 番目の列を表し、 は疾患を表します。 a> 間の統合類似度値。

4.9. ノード層の注意

        異種グラフ内の異なるメタパスの隣接ノードに基づいて、これらの意味のある隣接ノードの特性情報が収集されて、ノード埋め込みが形成されます。第一に、miRNA-疾患-lncRNA 異種グラフにおけるノードの不均一性により、異なるノードが異なる特徴空間に位置する可能性があります。したがって、ノードのタイプごとに、異なるタイプのノードを同じ特徴空間に投影するために、特定のタイプの変換行列 W を設計します。この投影プロセスは次のとおりです。

         は、それぞれ miRNA ノード と疾患ノード 投影特性。この投影操作により、miRNA ノードと疾患ノードを 64 次元空間に投影できます。また、lncRNA ノードの特徴は 64 次元空間に位置するため、 lncRNA の特徴は次のようになります。

ここで は行列 IL の i 番目の行を表します。 は行列の転置を表します。

        次に、アテンション メカニズム [48] を適用して、miRNA ノード、疾患ノード、および lncRNA ノードの重みを学習します。中央ノード u (u は miRNA または疾患ノード) がメタパス に基づいて隣接ノード v に接続し、ノード u に対するノード v の重要度がメタパス 次のように計算できます。

ここで、 は非線形活性化関数です (負の値の傾きは 0.2 に設定されます)。異なるメタパスに基づいて中央ノードと隣接ノード間の重要度を取得した後、ソフトマックス活性化関数を適用してそれらを正規化し、注意係数を取得します。具体的な計算プロセスは次のとおりです。

は、メタパス に基づくノード u の 1 次隣接ノード セットを表します。

        次に、メタパスに基づくノード u の埋め込み が、隣接ノードの特徴と注目係数に従って集約されます。

ここでは、ELU アクティベーション関数を表します。アテンション係数 はメタパス  によって生成されるため、 はセマンティックを含むセマンティック固有のノード埋め込みです。情報。

異種グラフはスケールフリーの特性を持っているため、グラフ データのばらつきが大きくなります。分散を減らし、結果をより安定させるために、ノード層のアテンションを拡張するマルチヘッド アテンション メカニズムを導入します。具体的には、ノードレベルのアテンションが K 回計算され、各ノードの埋め込みがノード u の特定の意味論的埋め込みに連結されます。具体的な計算プロセスは次のとおりです。

        この実験では、メタパス セットには、miRNA と疾患ノードを接続するメタパス、および miRNA と lncRNA ノードを接続するメタパス、および疾患と lncRNA ノードを接続するメタパス。ノード層のアテンションを計算することにより、特定のセマンティクスを持つノード埋め込みの 4 つのグループ、つまり を取得できます。

4.10. セマンティック層の注意

        miRNA-疾患-lncRNA 異種グラフでは、miRNA ノードと疾患ノードにはさまざまな意味情報が含まれています。ただし、特定のセマンティクスを持つノードの埋め込みは、ノードのセマンティクス情報を 1 つの側面からしか反映できません。より包括的で十分なノードの埋め込みを取得するために、さまざまなメタパスの重要性を学習し、それらを中央ノードに統合するための新しいセマンティック層の注意を提案します。まず、セマンティック固有のノードの埋め込みが非線形変換を通じて変換され、各メタパスの重要性が取得されます。次に、セマンティック層の注目ベクトル q に対する変換されたノード エンベディングの類似性として、意味的に特定のノード エンベディングの重要性を測定します。最後に、意味的に特定のノードの埋め込みの重要性を各メタパスの重要性として平均します。したがって、メタパスの重要性 は次のように計算できます。

ここで は重み行列を表し、b はバイアス ベクトルを表し、 は活性化関数を表し、q はセマンティック レイヤーの注意ベクトルを表します。およびその寸法は 128 に設定されます。 はノードの数を表します。これらのノードは  ノードと同じタイプです。次に、ソフトマックス アクティベーション関数を通じて各要素パスの重要性を正規化します。 。 変化。したがって、メタパス の重み、 を取得できます。計算プロセスは次のとおりです。

ここで、P はノード u に関連するメタパス タイプの数を表し、 は中央ノード u に対するメタパス の寄与を表します。 。 が大きい場合、メタパス がより重要であることがわかります。最後に、メタパスの重みを係数として使用してセマンティック固有の埋め込みを集約することにより、最終的なノードの埋め込みを計算します。計算プロセスは次のとおりです。

        セマンティック レイヤー アテンションを通じて、miRNA の最終的な埋め込み と疾患の最終的な埋め込み を取得しました。サイズはそれぞれ です。 

4.11. バイリニアデコーダ

        miRNA と疾患間の関連の予測確率を取得するために、バイリニア デコーダーを使用して miRNA ノードと疾患ノード間の関連を再構築しました。したがって、miRNA ノード が疾患ノード に関連する予測確率は次のように計算できます。あ>

Q は、64 * 64 の次元のトレーニング可能なパラメーター行列を表します。

        最後に、クロスエントロピー損失関数を使用して、モデルの予測とトレーニング サンプルの差を計算します。クロスエントロピー損失関数 LOSS の計算プロセスは次のとおりです。

y は、miRNA と疾患の間の正しい関連ラベルを表します。クロスエントロピー損失が小さいほど、モデルの予測パフォーマンスは向上します。したがって、バックプロパゲーション アルゴリズムを使用してモデルをエンドツーエンドでトレーニングし、モデルの損失を軽減し、最良の結果を取得します。

おすすめ

転載: blog.csdn.net/adsdasdasdahj/article/details/130153861