【学習ノート】山東大学バイオインフォマティクス-01 生物データベース

コースの住所:山東大学バイオインフォマティクス


1. 生物データベース

1.1 PubMed文献データベース

  • PubMed書誌レコード
  • 著者名から探すAU: 下 [AU]
  • タイトルから探すTI: 下 [TI]
  • 研究室アドレスで検索AD: 下 [AD]
  • PubMed を使用するためのヒント:
    引用符を使用する (「ダウン症候群」)
    論理単語を使用する AND、OR、NOT (dUTPase [T] AND 細菌 [T] NOT Smith [AU]) を
    使用する 正しい略語 (「Abergel C 」) を
    使用する各論文の一意の PubMed ID (PMID: 24933525)

1.2 一次核酸データベース

1.2.1 INSDC = ジェンバンク + ENA + DDBJ

  1. NCBI ジェンバンク
  2. ENAヨーロッパヌクレオチド配列データセット
  3. DDBJ日本人DNAデータベース
  • Genbank、ENA、DDBJ は共同で国際塩基配列データベース コラボレーション ( INSDC ) を構成しています。INSDCを通じて、3 つの主要な核酸データベースの情報が毎日交換および更新され、ほぼ常に同じデータを共有することができます。
  • 原核生物の遺伝子と真核生物の遺伝子の違い:
    ここに画像の説明を挿入

ジェンバンク

(1)原核生物の核酸配列: NucleotideでX01714を検索

  • LOCUS: 遺伝子名

  • ACCESSION: 遺伝子番号、唯一変更されていないもの
    ここに画像の説明を挿入
    ここに画像の説明を挿入
    ここに画像の説明を挿入

  • 特徴: 核酸配列内の特定された各フラグメント領域を、ソース、プロモーターなどの多くのサブ項目を含めて説明します。
    ここに画像の説明を挿入

    • ソース: 核酸配列のソースを示し、その配列がクローニングベクターまたはゲノムに由来するものであるかどうかを容易に識別できます。現在の配列 (全長) は大腸菌のゲノム DNA に由来しています。
    • プロモーター: プロモーターの位置をリストします。細菌には 2 つのプロモーター領域があります。エリア -35 (5'-TTGACA-3')位置は286塁から291塁までです。-ゾーン 10 (5'-TATAAT-3')位置は 310 進数から 316 進数までです。
    • その他の機能
      ここに画像の説明を挿入
    • CDS(コーディングセグメント): 343塩基目のATG(開始コドン)から798塩基目のTAA(終了コドン)までのORF (オープンリーディングフレーム)が記録されています。1行目の位置情報に加えて、翻訳産物(タンパク質)に関する多くの情報が含まれています。
      ここに画像の説明を挿入 ここに画像の説明を挿入
      ここに画像の説明を挿入
      ここに画像の説明を挿入
  • ファスタ形式:
    1 行目、大なり記号と名前またはその他のコメント
    2 行目以降: シーケンス、1行あたり60文字
    ここに画像の説明を挿入

  • グラフィックス: シーケンスの概要をグラフィックで表示します。
    ここに画像の説明を挿入

  • データベース レコードをプレーン テキスト形式 (フラット ファイル) でダウンロードする
    ここに画像の説明を挿入

(2)真核生物の核酸配列 mRNA :ヌクレオチド中の dUTPase の検索成熟mRNA配列情報U90223

  • CDS の注記部分に注目してください。ここでのエンコードはミトコンドリアです。
    ここに画像の説明を挿入
  • CDS の最後の 3 塩基は終止コドンであり、アミノ酸を翻訳しないため、 CDSmat_peptideの間には 3 塩基の違いがあります。
    ここに画像の説明を挿入
    (3)真核生物の核酸配列 DNA :ヌクレオチド中の dUTPase を検索ゲノムDNA配列情報AF018430
  • ソース/マップ
    ここに画像の説明を挿入
  • 遺伝子/mRNA
    ここに画像の説明を挿入
  • スプライシング後に形成されるmRNAは2種類ある:
    上記の mRNA にはもう 1 つのエクソンがあり、これが翻訳されます。ミトコンドリア局在シグナルペプチド、したがって、ミトコンドリア型 ( mitochondrial form)タンパク質を翻訳します。
    下にシグナルペプチドを持たない mRNA は、核 ( nuclear form)タンパク質に翻訳されます。
    ここに画像の説明を挿入
  • exon : 現在のシーケンスに含まれるエクソンの位置と番号。
    ここに画像の説明を挿入

1.2.2 ゲノムデータベースアンサンブル

1.2.3 微生物メタゲノムデータベース

1.3 二次核酸データベース

  • RefSeqデータベース:参照配列データベース。ゲノム配列、転写配列、タンパク質配列を含む、自動および手動で選択される非冗長データベースです。
  • dbESTデータベース:さまざまな種からの発現配列タグ (EST) を含む発現配列タグデータベース。
  • 遺伝子データベース: 5,300 種以上の 430 万件の遺伝子レコードを含む、遺伝子配列の注釈および検索サービスをユーザーに提供します。
  • ノンコーディング RNAデータベース: ncRNA データベースの概要

1.4 一次タンパク質配列データベース UniProt

  • UniProt = Swiss-Prot + TrEMBL + PIR
  • UniProt には 3 つのレベルのデータベースがあります
    UniParc : UniProt データベースのサブライブラリ内のすべてのタンパク質配列が含まれていますが、大規模で大まかです。UniRef : UniProt のいくつかの主要なデータベースを要約し、重複するシーケンスを削除しますUniProtKB :

    詳細なメモ付き他のデータベースと連携するデータベースは、UniProtKB/Swiss-Prot(手動アノテーション、レビュー済み)とUniProtKB/TrEMBL(コンピュータ自動アノテーション、レビューなし)に分かれています。
  • 詳細はビデオを参照:一次タンパク質配列データベース: UniProtKB-02 P18

1.5 タンパク質一次構造データベース PBD

● タンパク質の構造は 4 つのレベルに分類できます。

  • 一次構造 一次構造:アミノ酸配列
  • 二次構造:周期構造、αヘリックス、βシートなど
  • 三次構造:ポリペプチド鎖全体の立体構造、3D構造
  • 四次構造: 四量体など、いくつかのタンパク質分子 (サブユニット) によって形成される複合体

Protein Data Bank ( PDB ) は、生体高分子の 3 次元構造を保管する世界で唯一のデータベースですタンパク質に加えて、これらの生体高分子には核酸とその複合体が含まれます実験的方法によって得られた 3D 構造のみが含まれています。現在、PDB データベースは週に 1 回更新されており、これまでに 12 万件を超える構造データが収集されており、そのうち 90% 以上がタンパク質の構造です。

1.6 二次タンパク質データベース Pfam、CATH、SCOP2

  1. Pfam データベースは、タンパク質ドメインファミリーのコレクションです。
  2. CATH データベース:構造分類データベース。CATH-Gene3D は、公開データベースからの 500 万を超えるタンパク質配列の構造分類予測も実行します。Gene3D の情報は、3D 構造がまだ解明されていないほとんどのタンパク質の機能研究に重要な基礎を提供します。
  3. SCOP2 データベース:構造分類データベース。タンパク質の進化の関係についてさらに考えてみましょう。SCOP2 分類法は、上から下にクラス、ファミリー、スーパー ファミリー、フォールドの 4 つのレベルに基づいています。

1.7 専用データベース KEGG、OMIM

  1. KEGG は、遺伝子、タンパク質、生化学反応および経路に関する包括的な生物学情報データベースであり、複数のサブライブラリーで構成されています。
    ここに画像の説明を挿入
    ここに画像の説明を挿入
  2. OMIM Human Mendelian Inheritance Online Database (Online Mendel Inheritance Inheritance in Man) は、遺伝病を分類し、関連するヒトゲノムにリンクするデータベースですOMIM は、臨床医や研究者に、遺伝性疾患および関連疾患遺伝子座に関する信頼できる詳細な情報を
    ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/zea408497299/article/details/125100031