コースの住所:山東大学バイオインフォマティクス
記事ディレクトリ
1. 生物データベース
1.1 PubMed文献データベース
- PubMed書誌レコード
- 著者名から探すAU: 下 [AU]
- タイトルから探すTI: 下 [TI]
- 研究室アドレスで検索AD: 下 [AD]
- PubMed を使用するためのヒント:
引用符を使用する (「ダウン症候群」)
論理単語を使用する AND、OR、NOT (dUTPase [T] AND 細菌 [T] NOT Smith [AU]) を
使用する 正しい略語 (「Abergel C 」) を
使用する各論文の一意の PubMed ID (PMID: 24933525)
1.2 一次核酸データベース
1.2.1 INSDC = ジェンバンク + ENA + DDBJ
- NCBI ジェンバンク
- ENAヨーロッパヌクレオチド配列データセット
- DDBJ日本人DNAデータベース
- Genbank、ENA、DDBJ は共同で国際塩基配列データベース コラボレーション ( INSDC ) を構成しています。INSDCを通じて、3 つの主要な核酸データベースの情報が毎日交換および更新され、ほぼ常に同じデータを共有することができます。
- 原核生物の遺伝子と真核生物の遺伝子の違い:
ジェンバンク
(1)原核生物の核酸配列: NucleotideでX01714を検索
-
LOCUS: 遺伝子名
-
ACCESSION: 遺伝子番号、唯一変更されていないもの
-
特徴: 核酸配列内の特定された各フラグメント領域を、ソース、プロモーターなどの多くのサブ項目を含めて説明します。
- ソース: 核酸配列のソースを示し、その配列がクローニングベクターまたはゲノムに由来するものであるかどうかを容易に識別できます。現在の配列 (全長) は大腸菌のゲノム DNA に由来しています。
- プロモーター: プロモーターの位置をリストします。細菌には 2 つのプロモーター領域があります。エリア -35 (5'-TTGACA-3')位置は286塁から291塁までです。-ゾーン 10 (5'-TATAAT-3')位置は 310 進数から 316 進数までです。
- その他の機能
- CDS(コーディングセグメント): 343塩基目のATG(開始コドン)から798塩基目のTAA(終了コドン)までのORF (オープンリーディングフレーム)が記録されています。1行目の位置情報に加えて、翻訳産物(タンパク質)に関する多くの情報が含まれています。
-
ファスタ形式:
1 行目、大なり記号と名前またはその他のコメント
2 行目以降: シーケンス、1行あたり60文字
-
グラフィックス: シーケンスの概要をグラフィックで表示します。
-
データベース レコードをプレーン テキスト形式 (フラット ファイル) でダウンロードする
(2)真核生物の核酸配列 mRNA :ヌクレオチド中の dUTPase の検索成熟mRNA配列情報U90223。
- CDS の注記部分に注目してください。ここでのエンコードはミトコンドリアです。
- CDS の最後の 3 塩基は終止コドンであり、アミノ酸を翻訳しないため、 CDSとmat_peptideの間には 3 塩基の違いがあります。
(3)真核生物の核酸配列 DNA :ヌクレオチド中の dUTPase を検索ゲノムDNA配列情報AF018430。 - ソース/マップ
- 遺伝子/mRNA
- スプライシング後に形成されるmRNAは2種類ある:
上記の mRNA にはもう 1 つのエクソンがあり、これが翻訳されます。ミトコンドリア局在シグナルペプチド、したがって、ミトコンドリア型 (mitochondrial form
)タンパク質を翻訳します。
下にシグナルペプチドを持たない mRNA は、核 (nuclear form
)タンパク質に翻訳されます。
- exon : 現在のシーケンスに含まれるエクソンの位置と番号。
1.2.2 ゲノムデータベースアンサンブル
- アンサンブル
- 詳しくは動画をご覧ください:2.5階層核酸データベース:ゲノムデータベース-01 P14
1.2.3 微生物メタゲノムデータベース
- 国立衛生研究所 (NIH) は、ヒト マイクロバイオーム プロジェクト ( HMP ) を設立しました。現在、HMP には主にヒトの鼻腔、口腔、皮膚、消化管、泌尿生殖器のメタゲノムサンプルデータと解析プロセスが含まれています。
- ヒトマイクロバイオームプロジェクトデータポータル
1.3 二次核酸データベース
- RefSeqデータベース:参照配列データベース。ゲノム配列、転写配列、タンパク質配列を含む、自動および手動で選択される非冗長データベースです。
- dbESTデータベース:さまざまな種からの発現配列タグ (EST) を含む発現配列タグデータベース。
- 遺伝子データベース: 5,300 種以上の 430 万件の遺伝子レコードを含む、遺伝子配列の注釈および検索サービスをユーザーに提供します。
- ノンコーディング RNAデータベース: ncRNA データベースの概要
1.4 一次タンパク質配列データベース UniProt
- UniProt = Swiss-Prot + TrEMBL + PIR
- UniProt には 3 つのレベルのデータベースがあります。
◆ UniParc : UniProt データベースのサブライブラリ内のすべてのタンパク質配列が含まれていますが、大規模で大まかです。◆ UniRef : UniProt のいくつかの主要なデータベースを要約し、重複するシーケンスを削除します。◆ UniProtKB :
詳細なメモ付き他のデータベースと連携するデータベースは、UniProtKB/Swiss-Prot(手動アノテーション、レビュー済み)とUniProtKB/TrEMBL(コンピュータ自動アノテーション、レビューなし)に分かれています。 - 詳細はビデオを参照:一次タンパク質配列データベース: UniProtKB-02 P18
1.5 タンパク質一次構造データベース PBD
● タンパク質の構造は 4 つのレベルに分類できます。
- 一次構造 一次構造:アミノ酸配列
- 二次構造:周期構造、αヘリックス、βシートなど
- 三次構造:ポリペプチド鎖全体の立体構造、3D構造
- 四次構造: 四量体など、いくつかのタンパク質分子 (サブユニット) によって形成される複合体
● Protein Data Bank ( PDB ) は、生体高分子の 3 次元構造を保管する世界で唯一のデータベースです。タンパク質に加えて、これらの生体高分子には核酸とその複合体が含まれます。実験的方法によって得られた 3D 構造のみが含まれています。現在、PDB データベースは週に 1 回更新されており、これまでに 12 万件を超える構造データが収集されており、そのうち 90% 以上がタンパク質の構造です。
- 詳しくは動画をご覧ください:タンパク質一次構造データベース:PDB-01 P20
- PDB ID : データベースの検索番号。タンパク質がPBD ID に対応するのではなく、構造が PBD ID に対応します。
- PDBファイルアノテーションの解釈:タンパク質一次構造データベース:PDB-02 P21
- PDBファイル 3D表示 JSmal :タンパク質一次構造データベース: PDB-03 P22
1.6 二次タンパク質データベース Pfam、CATH、SCOP2
- 詳細についてはビデオをご覧ください:二次タンパク質データベース: Pfam、CATH、SCOP2 P23-P25
- Pfam データベースは、タンパク質ドメインファミリーのコレクションです。
- CATH データベース:構造分類データベース。CATH-Gene3D は、公開データベースからの 500 万を超えるタンパク質配列の構造分類予測も実行します。Gene3D の情報は、3D 構造がまだ解明されていないほとんどのタンパク質の機能研究に重要な基礎を提供します。
- SCOP2 データベース:構造分類データベース。タンパク質の進化の関係についてさらに考えてみましょう。SCOP2 分類法は、上から下にクラス、ファミリー、スーパー ファミリー、フォールドの 4 つのレベルに基づいています。
1.7 専用データベース KEGG、OMIM
- 詳細についてはビデオを参照してください:専用データベース KEGG、OMIM P26-P27