この号では、主に遺伝子機能強化解析のいくつかの基本概念を紹介し、DAVIDオンライン解析ツールを使用して遺伝子の GO/KEGG 機能強化解析を実行する方法も紹介します。
遺伝子機能強化解析とは何ですか?
遺伝子機能エンリッチメント分析とは、さまざまなデータベースを通じて取得された多くの遺伝子の統計分析および遺伝子機能分類を指し、それによって、私たちが研究している生物学的問題に大きく関連するデータベース内の遺伝子機能カテゴリーをマイニングします。ただし、異なる遺伝子の組み合わせは、異なる生物学的背景において異なる生物学的機能を有する可能性があることに注意する必要があります。したがって、実際の状況に応じて対応する遺伝子セットをスクリーニングし、それらを研究対象に関連する機能変化と関連付けて、多くの差異遺伝子を分類し、最終的に生物学的問題に関連する重要な差異遺伝子に焦点を当てる必要があります。これにより、その後の実験検証のための方向性と基礎が提供されます。全体として、遺伝子機能強化分析の本質はクラスター分析です。クラスター分析は、遺伝子グループの背後にある生物学的知識を解釈し、細胞内外でのそれらの役割を明らかにするために使用されます。
機能強化分析を行う理由は何ですか?
ハイスループットシークエンシング技術の発展により、生物学研究分野はオミックス時代に入りました。しかし、オミクス配列決定における膨大な量のデータは研究者をひるませています。このデータ情報の効果的な抽出と分析も、多くの研究者の重要な焦点となっています。トランスクリプトームシークエンシング(RNA-seq)を例にとると、シーケンシングの結果は多くの場合、一連の発現差の異なる遺伝子をもたらしますが、研究者がこれらの遺伝子を研究対象の生物学的問題や潜在的な制御機構とどのように結びつけるかが重要な問題となっています。したがって、研究者は、複数の機能アノテーションデータベースを通じて遺伝子の機能強化分析を実行し、この一連の遺伝子セットをさまざまな機能カテゴリに分割し、生物学的プロセスで重要な役割を果たす生物学的経路を検索することで、基本的かつ根底にある分子構造を明らかにして理解することができます。これらの生物学的プロセスのメカニズム。実際、分子レベルの出発点は遺伝子レベルですが、遺伝子には多くの種類があり、これらの遺伝子の生物学的重要性を理解する最良の方法は遺伝子機能強化解析です。
エンリッチメント分析プロセス中の遺伝子選択とアノテーション データベースに応じて、一般的に使用されるエンリッチメント分析は次のタイプに分類できます: GO 機能エンリッチメント、KEGG 経路エンリッチメント、GSEA 遺伝子セット エンリッチメントなど。
GO 機能強化分析
遺伝子オントロジー (GO) データベースは、GO コンソーシアムによって 2000 年に構築されたデータベースであり、さまざまな種に適し、遺伝子とタンパク質の機能を定義および記述し、研究とともに進化し続けることができるデータベースを確立することを目的としています。 -深さと最新の意味論的語彙標準。GOアノテーションは 3 つの側面をカバーします: 分子生物学的機能 ( MF ) 、生物学的プロセス ( BP)、および細胞成分 ( CC )機能3 つのこれら GO アノテーションは、現在最も広く使用されている遺伝子アノテーション システムの 1 つです。GO 知識ベースは、遺伝子機能に関する世界最大の情報源です。この知識は人間が読むことも機械が読むこともでき、生物医学研究における大規模な分子生物学や遺伝学実験の計算解析の基礎となります。
分子機能 (MF):
触媒活性、輸送活性、結合活性などの分子生物学レベルでの遺伝子の機能について 説明します。分子機能はほとんどの場合、単一の遺伝子産物の機能を指しますが、一部はこの遺伝子産物によって形成される複合体の機能を指します。
生物学的プロセス (BP):
これは、転写制御、rRNA プロセシング、DNA 複製、細胞の増殖と維持、シグナル伝達、さまざまな因子の輸送への関与など、遺伝子が関与する生物学的プロセスについて説明します。生物学的プロセスは、分子の機能が規則的に構成され、複数のステップからなるプロセスです。生物学的経路は生物学的経路とまったく同じではありません。したがって、GO には経路内の複雑な機構の制御プロセスが関与しません。
セルラーコンポーネント (CC):
細胞質、核、細胞小器官、ミトコンドリア膜、またはマトリックスなど、細胞内の遺伝子 (産物) の位置を説明します。または、プロテアソームなどの一部の遺伝子産物にも含まれます。
遺伝子オントロジーリソース:http://geneontology.org/
KEGG 経路の強化
京都遺伝子とゲノム百科事典 (KEGG) は、代謝経路( KEGG ) 、医薬品 (KEGG DRUG) などのゲノミクス、生化学、システム機能オミックスのデータ情報を統合した、遺伝子機能とゲノム情報を体系的に解析するためのデータベースです。、疾患(KEGG DISEASE)、機能モデル(KEGG MODULE)、遺伝子配列(KEGG GENES)、ゲノム(KEGG GENOME)など。KO (KEGG ORTHOLOG) システムは、さまざまな KEGG アノテーション システムを相互にリンクします。KEGG は、新たに配列決定された種のゲノムまたはトランスクリプトームの機能的アノテーションを完了できる完全な KO アノテーション システムを確立しました。KEGG は、研究者が遺伝子と発現情報を全体的に研究するのに役立ちます。
KEGG:https://www.kegg.jp/
GSEA濃縮分析:
遺伝子セット濃縮分析 (GSEA) は通常、遺伝子グループがランダム レベルと比較して特定の機能ノードで過剰に提示されているかどうかを分析します。GSEA 分析にはすべての遺伝子が含まれており、弱いが有意ではないいくつかの効果を考慮に入れることができます。GSEA分析は差分分析を必要とせず、発現情報を直接使用して形質に関連する経路/機能遺伝子セットを見つけることができます。このようにして、一部の重要な情報はフィルタリングなしで保持され、明らかな違いはないが一貫した遺伝子差異を持つ機能遺伝子を見つけることができます。トレンドを見つけて設定することができます。
次の数号では、主に、GO および KEGG の機能強化分析とそれに対応する遺伝子の可視化を行うための、DAVID オンライン分析ツール、R クラスタープロファイラー パッケージなど の使用法を紹介します。
DAVID オンライン分析ツールは遺伝子の GO/KEGG 機能強化分析を実行します
ステップ1-2
まずDAVID公式Webサイト:DAVID Functional Annotation Bioinformatics Microarray Analysisを開き、「Function Annotation」をクリックします。
ステップ3
データのインポート: (1) 「リストの貼り付け」に直接貼り付けます; (2) 「ファイルから選択」でファイルを直接インポートし、txt 形式をサポートします。
ステップ4
「Select Identifier」で遺伝子の種類を選択しますが、私は遺伝子名(Gene Symbol)をアップロードしたので「OFFICIAL_GENE_SYMBOL」を選択しました。(この手順は主に、インポートするデータの種類によって異なります)
ステップ5
「種の選択」で勉強する種を選択します ここでは私が勉強しているので「ホモ・サピエンス」を選択しました。
ステップ6
「List Type」で入力するリストの種類を選択します ここで入力したのは研究対象の遺伝子なので「Gene List」を選択しました。
ステップ7
「リストを送信」をクリックして実行します
ステップ8
データ強化分析結果の表示
ステップ9
濃縮分析結果のエクスポート(コピーして Excel に貼り付け)
DAVID によって取得されるエンリッチメント結果は、主に次のデータ列で構成されます: カテゴリ、用語 (GO セマンティクス)、カウント (遺伝子の数)、% (遺伝子の割合)、P 値 (P 値)、遺伝子 (遺伝子名)、リスト合計、ポップ ヒット、ポップ合計、フォールド エンリッチメント、ボンフェローニ (複数のテスト補正)、ベンジャミニ (複数のテスト補正)、および FDR (補正された P 値)。
参考文献
[1] BT シャーマンら。DAVID: 遺伝子リストの機能強化分析および機能アノテーション用の Web サーバー (2021 年更新)。核酸研究所 50、W216-221、doi:10.1093/nar/gkac194 (2022)。
さて、今回の共有はここまでとさせていただきますが、次回はこの機能強化の結果を可視化する方法について共有していきますので、ご期待ください。
「Senior Xiao Pan Playing Doudou」の公開アカウントをフォローして、より有益な情報を入手してください。