Alibaba Cloudは効率的なウイルス遺伝子配列検索機能を開始しました、その基礎となるロジックはこのようであることが判明しました

 

1.背景紹介

2019年の終わりに、中国の新しい商業センターである武漢で新しいタイプのコロナウイルスが発生しました。この流行の2か月以上で、3300人以上が死亡し、82,000人以上が中国で感染しました。流行がさらに広がるにつれ、109か国に広がり、80万人以上の感染症を引き起こし、4万人以上が命を落としました。これまでのところ、この流行は50か国以上を閉鎖し、世界中で数千億ドルの経済的損失を引き起こしています。Alibaba Cloudは、流行防止のためのコロナウイルスシーケンス分析に役立つ効率的な遺伝子シーケンス検索を提供します。

現在の流行では、遺伝子配列解析技術が主に以下の側面で利用されています。

まず、新しいコロナウイルスのトレーサビリティと分析は、人々がウイルスの宿主を見つけ、効果的な予防を行うのに役立ちます。遺伝子マッチング技術により、コウモリとセンザンコウのコロナウイルスのRNAシーケンスのマッチングが96%と99.7%に達したため、センザンコウとコウモリが新しいコロナウイルスの宿主である可能性が高いことがわかります。

次に、遺伝子配列分析により、遺伝子配列を機能領域に分割して各モジュールの機能を理解し、ウイルスの複製と拡散のプロセスをより適切に分析します。主要なノードを見つけ、関連する薬物とワクチンを設計します。

第三に、同時に、SARS、MERS、その他のウイルスなどのコロナウイルスに類似したウイルス遺伝子配列を検索することが可能です。したがって、関連する薬物標的の設計メカニズムを利用して、関連する試験キット、ワクチン、および関連する治療薬をより迅速かつ効率的に設計することが可能です。

ただし、現在の遺伝子照合アルゴリズムは遅すぎるため、遺伝子配列分析には効率的な照合アルゴリズムが緊急に必要です。Alibaba Cloud AnalyticDBチームは、遺伝子配列フラグメントを対応する1024次元のベクトル機能に変換します。2つの遺伝子フラグメントのマッチング問題は2つのベクトルの距離計算問題に変換され、計算のオーバーヘッドが大幅に削減されます。システムは、関連する遺伝子フラグメントをミリ秒レベルで返し、遺伝子フラグメントの初期スクリーニングを完了できます。

次に、遺伝子類似性計算のBLASTアルゴリズム[6]を使用して、遺伝子類似性の微調整を完了し、遺伝子配列マッチング計算を効率的に完了します。マッチングアルゴリズムは、元のO(M + N)アルゴリズムの複雑さからO(1)に削減されます。同時に、Alibaba Cloud AnalyticDBは強力な機械学習分析ツールを提供します。遺伝子導入ベクター技術により、局所および疾患関連の主要な標的遺伝子フラグメントが、遺伝子治療薬の設計のための特徴ベクトルに変換され、遺伝子を大幅に加速します分析プロセス。

 

2.遺伝子検索の応用

 

2.1遺伝子検索機能

新しいコロナウイルスのRNA配列は、一連の核酸配列(塩基配列とも呼ばれます)を発現できます。RNA配列には合計4つのヌクレオチドがあり、A、C、G、およびTで表され、それぞれアデニン、シトシン、グアニン、およびチミンを表します。各文字はベースの一種を表しており、スペースなしで一緒に配置されています。各種のRNA配列は異なり、規則的です。遺伝子検索システムは、ウイルスRNAに使用できる一連のウイルス遺伝子フラグメントを入力することにより、類似の遺伝子を検索できます。

遺伝子断片検索方法を示すために、genbankから多数のウイルスRNA断片をダウンロードし、genbankのウイルスに関する論文とgoogle学者のウイルスに関する論文をAnalyticDB遺伝子検索データベースにインポートしました。

遺伝子検索のデモインターフェイスを図1に示します。ユーザーは、AnalyticDB遺伝子検索ツールにコロナウイルス(COVID-19)のシーケンスをアップロードします。このシステムは、数ミリ秒以内に類似の遺伝子フラグメントを取得できます(現在のシステムは、一致度が0.8を超える遺伝子フラグメントのみを返します)。センザンコウを運ぶコロナウイルス(GD / P1L)、コウモリを運ぶコロナウイルス(RaTG13)、SARSおよびMARSウイルスが返されたことがわかります。その中で、GD / P1Lは0.974と最も高い配列一致を示します。コロナウイルスはセンザンコウを通じて人間に感染する可能性があります。

 

 

 

図1.遺伝子検索インターフェース

誰もが知っているように、RNAフラグメントは非常に似ています。これは、これら2つのRNAが同様のタンパク質発現と構造を持っていることを示しています。遺伝子検索ツールを通じて、コロナウイルスとのSARSとMARSの一致度が0.8以上であることがわかります。これは、いくつかのSARSまたはMARSの研究結果を新しいコロナウイルスに適用できることを示しています。システムは各ウイルスの論文をクロールし、テキスト分類アルゴリズムを通じてこれらの論文を検出クラス、ワクチン、薬物に分けました。

SARSをクリックすると(図2を参照)、SARS検出には7つの方法、ワクチンには4つの方法、薬物には10つの方法があることがわかります。SARSに有効な蛍光定量PCR検出がコロナウイルスの検出に応用されていることがわかる。ワクチンについては、遺伝子ワクチンの方法や生体内免疫ワクチンの誘導方法も本格化しています。薬物に関しては、リジビルと関連するインターフェロンは新しいコロナウイルスの治療にも使用されます。

 

 

 

図2.関連論文の分類

図3に関連するインターフェロンリンクを示します。関連する論文をご覧いただけます。現在のシステムは自動翻訳ソフトウェアを呼び出して、ユーザーが読むのに便利なファイル名としてファイル名の中国語版のキーワードを抽出します。

 

 

 

図3.インターフェロンリンクをクリックする

 

2.2アプリケーションアーキテクチャの全体的な設計

Alibaba Cloud遺伝子検索システムの全体的なアーキテクチャを図4に示します。AnalyticDBは、アプリケーション全体のすべての構造化データ(たとえば、遺伝子配列の長さ、この遺伝子を含む論文の名前、遺伝子の種類、DNAまたはRNAなど)を担当します。図4のクエリの結果を返す部分と、遺伝子シーケンスによって生成された特徴ベクトルの保存とクエリを参照してください。クエリを実行するとき、遺伝子ベクトル抽出モデルを使用して遺伝子をベクトルに変換し、AnalyticDBライブラリで大まかな検索を実行します。ベクトルマッチングの結果セットでは、クラシックBLAST [7]アルゴリズムを使用して細かくソートし、最も類似した遺伝子配列を返します。

その核心は、遺伝子ベクター抽出モジュールがヌクレオチド配列のベクターへの変換を含むことです。現在、トレーニングのためにさまざまなウイルスRNAのすべてのシーケンスサンプルを取得しているため、ウイルスRNAの類似性を簡単に計算できます。もちろん、現在のベクトル抽出モデルは、他の種の遺伝子に簡単に拡張できます。遺伝子ベクター抽出モデルについては、第3章で詳しく紹介します。

 

 

図4.遺伝子検索フレームワーク

 

3.主要なアルゴリズムの紹介

 

3.1遺伝子ベクター抽出アルゴリズム

最初に、遺伝子抽出ベクトルに最も関連する単語ベクトルアルゴリズムを紹介します。

Word vector 1は非常に成熟したテクノロジーであり、機械翻訳、読解、意味解析、その他の関連分野で広く使用されており、大きな成功を収めています。単語のベクトル化は、分散意味論的手法を使用して単語の意味を表現します。単語の意味は、単語が置かれているコンテキストです。

たとえば、高校の英語のテストでは、小論文に10件の空席があります。欠落している単語のコンテキストに応じて、適切な単語を選択してください。つまり、文脈は単語を正確に表現することができました。正しい単語を選択し、空いている単語の意味を理解していることを示します。したがって、コンテキストワードの関係を通じて、ワードベクトルアルゴリズムを使用して、各ワードはベクトルを生成できます。2つの単語間のベクトルの類似性を計算することにより、2つの単語の類似性が得られる。たとえば、「スプーン」と「ボウル」は、食べるシーンに常に表示されるため、非常によく似ています。

同じことは、遺伝子配列の配置に一定の規則があり、遺伝子配列の各部分が表す機能や意味が異なるためです。したがって、非常に長い遺伝子配列を小さな単位フラグメント(つまり、「単語」)に分割して研究することができます。また、これらの単語は関連しており、対応する機能を完了するために相互に作用して相互作用し、合理的な表現を形成します。したがって、生物科学者8 [10]は、単語ベクトルアルゴリズムを使用して遺伝子配列単位をベクトル化します。2つの遺伝子ユニットの類似性は非常に高く、2つの遺伝子ユニットが常に一緒になって、一緒に発現して対応する機能を完了することを示しています。

要約すると、ベクトル抽出の特定の方法は、主に3つのステップに分かれています。

まず、アミノ酸配列の中で単語を一つずつ定義する方法を最初に解く必要がありますK-mers [3]は、バイオインフォマティクスでアミノ酸配列を分析するために使用されます。k-merは、核酸配列をk塩基を含む文字列に分割すること、つまり、連続した核酸配列から長さKの塩基の配列を繰り返し選択することを指します。核酸配列の長さがLの場合、k-merの長さはK、L-K + 1 k-merを取得できます。図5に示すように、シーケンス長が12で、選択されたk-merの長さが8であるとすると、(12-8 + 1 = 5)5-merが得られます。これらのk-merは、アミノ酸配列の1つずつの「単語」です。

 

 

 

図5. 8 merの核酸シーケンス図

次に、単語ベクトルアルゴリズムのもう1つの重要な問題は、コンテキストのコンテキストです。アミノ酸フラグメントの中から長さLのウィンドウを選択します。このウィンドウ内のアミノ酸フラグメントは同じコンテキストであると見なされます。たとえば、長さ10のウィンドウ(CTGGATGAの核酸配列)を選択し、5つの5量体に変換しました:{AACTG、ACTGG、CTGGA、GGATG、GATGA}。1つの5量体{CTGGA}の場合、それに関連付けられている5量体は{AACTG、ACTGG、GGATG、GATGA}であり、これらの4つの5量体は、5量体{CTGGA}のコンテキストの現在のコンテキストです。 。単語ベクトル空間のトレーニングモデルを適用して、既存の生物の遺伝子のk-merをトレーニングし、k-mer(遺伝子配列の「単語」)を1024次元のベクトルに変換できます。

繰り返しになりますが、単語ベクトルモデルと同様に、k-merベクトルモデルも単語ベクトルモデルと同じ数学的計算プロパティを備えています。

式1は、ACGATヌクレオチド配列のベクトルからGAT配列のベクトルを引いたものとAC配列のベクトルとの間の距離が非常に近いことを示している。式2は、ヌクレオチド配列ACのベクターとATC配列のベクターとACATC配列のベクターとの間の距離も非常に近いことを示している。したがって、これらの数学的特性に従って、長いアミノ酸配列のベクトルを計算する場合、この配列に各k-mer配列を累積し、最後に正規化して、アミノ酸配列全体のベクトルを取得します。 。もちろん、精度をさらに向上させるために、遺伝子フラグメントをテキストとして扱い、doc2vec4を使用してシーケンス全体をベクトルに変換して計算することができます。

アルゴリズムのパフォーマンスをさらに検証するために、遺伝子検索ライブラリで一般的に使用されるBLAST [6]アルゴリズムのシーケンスと遺伝子伝達ベクトルl2距離のシーケンスとの類似性を計算しました。2つのシーケンスのスピアマンランク相関係数は[7]です0.839。したがって、同様の遺伝子断片の最初のスクリーニングのためにDNA配列をベクターに変換することは効果的で実現可能です。

 

3.2 AnalyticDB Vector Editionの機能

分析データベース(AnalyticDB)は、Alibaba Cloud上の同時実行性が高く、レイテンシの低いPBレベルのリアルタイムデータウェアハウスであり、ミリ秒単位で数兆レベルのデータのリアルタイムの多次元分析とビジネス調査を実行できます。

AnalyticDB for MySQLは、MySQLプロトコルおよびSQL:2003の文法標準と完全に互換性があります。AnalyticDBforPostgreSQLは、標準SQL:2003をサポートし、Oracleの文法エコロジーと非常に互換性があります。シーケンス分析などの類似クエリ。現在、AnalyticDBは実際のアプリケーションシナリオで10億レベルのベクターデータクエリと100ミリ秒の応答時間をサポートでき、AnalyticDBは多くの都市の大規模なセキュリティプロジェクトに導入されています。

ベクター検索を含む一般的なアプリケーションシステムでは、開発者は通常、ベクターデータを保存するためにベクター検索エンジン(Faissなど)を使用し、次にリレーショナルデータベースを使用して構造化データを保存します。クエリを実行する場合、2つのシステムを交互にクエリする必要もあります。このソリューションには追加の開発作業があり、パフォーマンスは最適ではありません。

AnalyticDBは、構造化データと非構造化データ(ベクトル)の取得をサポートしています。SQLインターフェースのみを使用して、遺伝子検索や遺伝子+構造化データハイブリッド検索などの関数をすばやく構築できます。AnalyticDBのオプティマイザーは、混合検索シナリオでのデータ分散とクエリ条件に従って最適な実行計画を選択し、再呼び出しを保証しながら最高のパフォーマンスを保証します。

RNA核酸配列検索はSQLを介して実行できます。

 
 

-類似したRNAと提出された配列ベクターで遺伝子配列を見つけます。タイトル、#記事名の長さ、#遺伝子長タイプ、#mRNAまたはDNAなどを選択します。l2_distance(feature、array [-0.017、-0.032、...] :: real [])as distance#vector demo from demo.paper a 、demo.dna_feature b where a.id = b.id距離で並べ替え;#ベクトルの類似性で並べ替え

テーブルdemo.paperはアップロードされた記事の基本情報を格納し、demo.dna_featureは各種の遺伝子配列に対応するベクトルを格納します。遺伝子導入ベクターモデルを通じて、取得される遺伝子がベクター[-0.017、-0.032、...]に変換され、Alibaba Cloud AnalyticDBデータベースで検索されます。

もちろん、現在のシステムでは、構造化情報+非構造化情報(ヌクレオチド配列)の混合検索もサポートしています。たとえば、コロナウイルスに関連する類似の遺伝子断片を見つけたいとします。この場合、AnalyticDBを使用して、SQLで '%COVID-19%'のようなタイトルを追加するだけで簡単に達成できます。

クラウドについては、Yunqiを参照してください:クラウド情報、クラウドケース、ベストプラクティス、製品紹介、https://yqh.aliyun.com/

この記事はAlibaba Cloudのオリジナルコンテンツであり、許可なく複製することはできません。

1217件の元の記事を公開 90件の賞賛 230,000回の閲覧+

おすすめ

転載: blog.csdn.net/weixin_43970890/article/details/105490426