ディープラーニング+ゲノミクス:ヒトの30億塩基対の解読

ディープラーニング+ゲノミクス:ヒトの30億塩基対の解読

 

【新志源ガイド】遺伝子工学は未来を変える技術のひとつと考えられています。マッキンゼーのレポートによると、2025年までに全世界で合計10億のゲノムワイドデータが生成されると推定されています。ゲノミクスに必要なデータの量は非常に膨大であるため、ディープラーニングテクノロジーを使用してヒトゲノムコードを探索することは、トレンドと未来になっています。このコラムでは、カーネギーメロン大学の最新のレビューペーパーを組み合わせて、この学際的な開発のレビューと展望を行います。

2013年に変分オートエンコーダー(VAE)が提案され、2014年にグッドフェローが生成的敵対的ネットワーク(GAN)を提案して以来、生成モデルは深層学習の研究者に支持されてきました。特に、ディープラーニングが「ブラックボックス」の制限のために生物学とゲノミクスにおけるAIの開発を完全に促進できない場合、多くの学者は生成モデルの適用を模索しようと努めます。

たとえば、数日前のarXivに関するスタンフォード大学の論文では、GANを使用して可変長タンパク質の合成DNA配列をエンコードする方法が示されていました。人類の未来に属する合成生物学などの新たな分野に直面して、人工知能がその中で果たすことができる途方もない役割は、楽しみにする価値があります。この分野を理解したい学者のために、このコラムでは、カーネギーメロン大学のマスターYueTianluoとEricXing教授の学生であるWangHaohanが共同執筆した論文「DeepLearningfor Genomics:AConciseOverview」を紹介します。この記事では、さまざまな深度モデルの長所と短所を分析し、深層学習を使用して遺伝的問題を解決する方法を説明し、現在の科学研究が直面している欠点と課題を指摘します。

紙のリンク:https://arxiv.org/abs/1802.00810著者GitHubといくつかの重要な紙のメモ:https://github.com/ThitherShore/DLforGenomics

ゲノミクスに適用されるディープラーニング:人間の遺伝暗号の解読

ジェームズDワトソンが1953年にDNAを人間の遺伝情報のキャリアとして説明して以来、人々は生物学的情報をより効果的に収集する方法を研究し、この遺伝情報が支配する生物学的プロセスを探求することに専念してきました。1990年に開始された巨大な科学的調査プロジェクトであるヒトゲノムプロジェクト(ヒトゲノムプロジェクト)は、ヒト染色体を構成する30億塩基対のヌクレオチド配列を決定することを目的としています。その目的は、ヒトゲノムをマッピングし、そこに含まれるヒトの遺伝情報を識別して解読することです。2001年に、ヒトゲノムプロジェクトはヒトゲノムの研究の最初の草案を発表しました。近年、FANTOM、ENCODE、Roadmap Epigenomicsなど、さまざまな種のゲノムプロジェクトが次々と開始され、科学者は遺伝子工学を探求するためのより多くの方法と情報を得ることができます。人工知能技術が本格的に浸透する時代にあって、人類の未来を変えることができる技術のひとつである遺伝子技術も注目されています。

ゲノミクスは、非常に大量のデータがあるという点で従来の遺伝学とは異なります。遺伝子研究は通常、個々の遺伝子のみを含みますが、ゲノミクス研究は、生物のすべての遺伝子を考慮し、全体的なレベルでの生命活動における全ゲノムの役割を調査する必要があります。たとえば、ヒトの遺伝子配列が配列決定されている場合、情報レベルは23対の染色体上で30億塩基対です。

ゲノミクスには膨大な量の情報が必要であるため、その研究の進歩は高度な遺伝子配列決定技術に依存しています。フレデリックサンガーがシーケンシング法を発明した後、人間はゲノム全体をシーケンシングすることができました。DNAマイクロアレイ(マクロアレイ)チップ技術の誕生により、大規模な遺伝子配列決定が可能になりました。その後、2000年の最初の商用ハイスループットシーケンシング(THS)は、遺伝子シーケンシングの分野における革新的な技術的変化でした。HTSは、あらゆる生物の遺伝子配列を大規模、低コスト、迅速に取得できます。しかし、HTSには致命的な欠陥があり、そのシーケンス結果は、読み取りと呼ばれる不完全な短いシーケンスフラグメントです。これらの断片化された情報を効率的かつ正確につなぎ合わせる方法は、HTSにとって常に課題でした。最近、Google BrainとAlphabetの子会社であるVerilyによって開発されたオープンソースツールであるDeepVariantは、HTSシーケンスフラグメントのスティッチング問題を画像処理分類問題に巧みに変換しました。DeepVariantは、Google Brainの画像処理モデルInceptionを使用し、ディープニューラルネットワークを使用して、ゲノム上の一塩基変異(SNP)や小さなインデル(Indel)など、HTSシーケンス結果のDNA塩基変異部位を特定します。スプライシングの精度が大幅に向上しました。

一方、深層学習モデルは、エクソン、イントロン、プロモーター、エンハンサー、配置されたヌクレオソーム、スプライス部位(スプライス部位)、非翻訳領域(UTR)などの遺伝子のさまざまなコンポーネントを識別するために広く使用されています。同時に、ゲノミクス研究に使用できるデータタイプは豊富にあります:遺伝子マイクロアレイ、RNA-seq発現、転写因子(DNA結合)、転写後修飾(RNA結合)、ヒストン修飾(ヒストン修飾) )待つ。GDC、dbGaP、GEOなどの多くの情報ポータルは、大多数の科学研究者にそのようなデータソースを提供しています。

ますます高度化するバイオテクノロジー、およびディープラーニングと人工知能テクノロジーの急速な発展に直面して、ディープラーニングを使用してヒトゲノムコードを探索することがトレンドと未来になっています。この論文では、さまざまな深度モデルの長所と短所を分析し、さまざまな生物学的問題の観点から深層学習の適用について説明します。記事の最後に、現在の科学研究におけるいくつかの欠点と課題が指摘されています。

ディープラーニングモデルの比較:CNN、RNN、オートエンコーダー、新しいモデル構造

ディープラーニングの開発以来、CNN、RNN、フィードフォワードニューラルネットワーク、オートエンコーダーなどの多くのタイプがあります。実際のアプリケーションでは、さまざまなモデルの利点を使用して、さまざまなタイプの遺伝的問題を解決する方法は?

CNN

近年、CNNは、空間情報機能をキャプチャする機能のおかげで、コンピュータビジョンの分野で前例のない成功を収めています。画像処理の分野におけるCNNの優れた性能は、ゲノミクス研究にも使用できます。R、G、Bの3つのカラーチャネルを持つ2次元画像と同様に、遺伝子シーケンスのウィンドウは、通過できる4つのチャネル(A、T、C、G)を持つ1次元シーケンスと見なすことができます。 a次元コンボリューションカーネルは、単一シーケンスアッセイを実行します。画像の特徴を徐々に抽出するCNNの機能を使用して、遺伝子画像内の意味のあるグラフィックを識別できます。これは、モチーフの識別やバインディングの分類などの問題に適用できます。

RNN

RNNはシーケンシャルデータの処理に優れているため、自然言語処理の分野でうまく適用されています。長い配列とサイト間の複雑な相関関係により、RNNのような構造(LSTM、bi-LSTM、GRU)も多くのゲノミクス研究者に支持され、遺伝子配列の情報を通じて非コードDNAを研究するために使用されます(非コーディングDNA)機能、または細胞内局在化などを実行します。

オートエンコーダ

オートエンコーダは長年のニューラルネットワークモデルであり、過去にニューラルネットワークパラメータを初期化するためによく使用されていました。近年VAEのアイデアが提唱された後、多くの学者がVAEまたはオートエンコーダー(収縮オートエンコーダー、スタック型ノイズ除去オートエンコーダー、ノイズ除去オートエンコーダー)モデルを適用して、データの次元を削減したり、遺伝子配列間の暗黙の依存関係をキャプチャしようとしたりしています。 。

新たなモデル構造

大量のゲノムデータと生物のさまざまな部分間の複雑な依存関係のために、単一の形式のディープニューラルネットワークモデルは、効率と精度に対する人々の高い要件を満たすことができなくなりました。現在、ゲノム研究における画期的な成功プロジェクトは複数の深層学習ネットワークモジュールを使用および組み合わせます。より一般的な方法は次のとおりです。

CNN + RNN構造。CNNを使用して最初にDNAシーケンスのローカル機能を処理し、次にRNNと組み合わせて、入力のワンホットコードとしてDNAシーケンスを表すDanQ(下記)などのDNAシーケンス間の依存関係をマイニングします。層を形成し、畳み込み層を通過します。プーリング層の後、LSTMを使用してさらに特徴を抽出します。

スタック型ネットワーク構造。多層ネットワークを使用して、DST-NNなどの根深い相互依存関係をキャプチャします。DeepCpGなどの同じネットワーク構造の並列アプリケーションは、モデル全体の2つのサブモジュール(サブモジュール)として2つのCNNを使用します。 )CpGサイトとDNA配列からそれぞれ特徴を抽出し、これら2つの情報部分を高レベルモジュール(Fusion Module)にマージします。

これらの新しくより複雑なネットワーク構造の場合、アプリケーションの効果は従来の統計や機械学習よりも優れていますが、一般化と解釈可能性については調査する必要があります。

深層学習モデルの解釈可能性とモデリング方法

モデルの解釈可能性

ディープラーニングの「ブラックボックス」は、人々が改善しようとしている欠陥です。深層学習法自体の欠点のため、人々がそれをゲノミクスに直接適用して遺伝的問題を説明しようと努めるとき、彼らは自分のモデルに適切な解釈可能性を与えることを望んでいます。著者は、CNNのいくつかの古典的なコンピュータービジョンの解釈と、ゲノムアプリケーションの問題と組み合わせた深層学習モデルの人々の解釈の例を紹介します。たとえば、CNNの各レイヤーによって抽出された特徴を視覚化するか、顕著性マップ、または同じ問題でCNNとRNNのパフォーマンスを調査および比較するDeepGDashboardモデルを使用します。

モデリングの議論

ゲノミクスにおける深層学習の効果を改善したい場合は、モデル構造の設計を改善することに加えて、モデルトレーニングの改善を検討することもできます。ゲノムデータが大量にあるため、正確で効果的なネットワークを完全にトレーニングするのは時間がかかり、困難であるため、転移学習を検討することができます。トレーニング済みモデルを(部分的または全体的に)別の問題の初期化として使用するか、既存のモデルを使用して特徴抽出と分析を直接実行すると非常に便利です。このアイデアは、コンピュータビジョンの分野ですでに適用されています。さらに、2つ以上の関連する問題(マルチタスク学習、マルチタスク学習)を同時に解決することを検討し、それらの共有情報コンポーネントをモデリングに使用できます。ゲノムデータの多様性を考慮して、マルチビュー学習を検討し、この問題にさまざまなデータ型を使用するモデルを構築できます。これは、機能の連結、アンサンブル手法、またはマルチモーダル学習(さまざまなモジュール/さまざまなデータ型に対応するサブネットワークを設計し、各サブネットワークの情報を高レベルのネットワーク構造に融合すること)によって実現できます。

ゲノミクス問題における深層学習の応用

この論文では、以下の分野での深層学習の応用をレビューし、近年の注目すべき研究を詳細に紹介しています。

1.遺伝子発現:特徴と予測

2.規制ゲノミクス:

プロモーターとエンハンサー

機能的活動

スプライシング

転写因子とRNA結合タンパク質

細胞内局在

ミューテーションとバリアント呼び出し

3.構造ゲノミクス:

タンパク質の構造分類(タンパク質の構造分類)

タンパク質の二次構造(タンパク質の二次構造)

お問い合わせマップ

課題と展望

ゲノミクスの問題を解決するための深層学習モデルを確立するには、より効果的なモデルをより包括的かつ目的を持って開発するために、いくつかの既存の制限と課題を明確にする必要があります。

データの制限

生物学的データの取得は、通常、費用と時間がかかります。特に、ゲノミクスデータを通じてまれな特性/疾患を研究したい場合、データソースは非常に不足しています。

著者は、以下の状況でのデータの制限に対処するためのいくつかの対策と論文を紹介します。

1.不均衡なデータ型(クラス不均衡)またはラベルのない一部のデータ(ラベル)

2.さまざまなデータソース(さまざまなデータソース)

3.不均一性と交絡相関:不均一なデータセットは、医療データで非常に一般的な問題です。人種の違い、人口の地域、およびデータ収集のさまざまなバッチにより、いくつかの混乱要因がモデルによって処理されます。

特徴抽出

アプリケーションでは、手作業で設計された機能を使用することがよくありますが、これには通常、対応する分野の専門家の支援が必要です。CNNなどのモデルはデータ内の特徴を効果的に抽出できますが、モデルの設計とパラメーターの調整に対する要件が高くなります。したがって、優れた特徴抽出方法があれば、モデルのトレーニングを効果的に加速し、科学研究プロセスを促進することができます。著者は、トポロジーに基づくいくつかの特徴抽出方法と、いくつかの特徴表現方法について話しました。

下の図に示すように、これはトポロジーの永続的なホモロジーの概念を使用して、タンパク質の3次元構造の特徴を抽出するというアイデアです。著者は、タンパク質から複体を構築し、位相不変量から特徴を抽出し、タンパク質スーパーファミリーの分類やタンパク質-リガンド結合などの多くの問題にうまく適用しています。

画像ソース:https://arxiv.org/abs/1703.10982

モデルデザイン

さまざまなモデルの長所と短所については前述したので、モデルを設計するときは、問題に基づいて合理的な設計を選択する必要があります。同時に、いくつかの生物学的背景知識(事前情報)もモデルパラメータに導入することができ、限られたデータの下で、既存の情報を可能な限り効果的に使用することができます。

最後に、ディープラーニングがゲノミクス研究で大きな役割を果たすことを望むのであれば、まだ長い道のりがあります。バイオテクノロジーの顧客サービスからデータを取得することの難しさ、および特定の問題に適合するディープラーニングの観点からの適切なモデルの開発。私たちは、既存の困難と課題を念頭に置き、この分野の発展を促進し続ける必要があります。

スペースの制限により、記事に記載されているポイントは例として示されていません。より詳細な例に興味のある読者は、元のテキストを読むことをお勧めします:https://arxiv.org/abs/1802.00810。著者のGitHubには、いくつかの重要な論文に関するメモもあります:https://github.com/ThitherShore/DLforGenomics

おすすめ

転載: blog.csdn.net/u010608296/article/details/113092973