1. GDC データベースを開きます。
- TCGA データベースの GDC インターフェイスにログインします: https://portal.gdc.cancer.gov/
-
まず、カート内に以前のファイルのレコードがないことを確認し、他のファイルがある場合(ファイル数が 0 でない場合)、カートをクリアします。
-
カート ファイルの数が 0 でない場合は、クリックしてカート インターフェイスに入り、クリアします。
2. サンプルの種類と性質を選択します。
- [リポジトリ]をクリックしてデータ ウェアハウスに入り、ケースのサンプル タイプと性質の選択をクリックします。
-
まず、前立腺がんサンプルを例として、サンプル部位を決定します。
-
サンプル ソース項目を選択します。TCGA サンプルのみを分析する場合は、TCGA のみを選択します。
-
これまでの選択の一部では引き続きサンプル範囲が狭まるため、[プロジェクト] オプションの下に TCGA-PRAD が 1 つだけあることがわかりました。これをクリックする必要はありません。これを選択しない場合は、次のことを意味します。このオプションのすべてのコンテンツは必須です。
ここでは分析ニーズに応じてDisease Typeを選択しますが、ここでは病理タイプを統一するために選択しました。
性別は特に必要がなければ選択する必要はありません。
生命状態 通常、生存率分析を行う必要がある場合、生存患者と死亡患者を選択しますが、報告されていない患者は生存データが不完全であるため除外できることを示しています。
診断時の年齢と死亡までの日数は、対象者のニーズに応じて設定され、通常、デフォルトではフィルター条件は設定されません。 -
-
人種と民族は通常、フィルター条件を設定しません。また、ここではサンプルが多すぎたり報告されたりしているため、サンプルの損失を避けるためにフィルターは行いません。
-
3. オミクスデータのタイプと形式を選択します。
- [ファイル]をクリックしてデータの種類と形式を選択します。
- データ カテゴリでは、最も一般的なトランスクリプトーム データを例として使用し、トランスクリプトーム プロファイリングを選択します。
- データ タイプでは、タンパク質をコードする遺伝子と長鎖の非コード遺伝子の配列データを表す Gene Expression Quantification を選択します。miRNA 遺伝子のシーケンスデータは含まれていないため、Gene Expression Quantification の代わりに miRNA Expression Quantification を選択する必要があります。
- 実験戦略のオプションは 1 つだけあり、デフォルトでは選択されていません。ワークフロー タイプは独自のニーズに基づいています。一般に、カウント データまたは FPKM データがよく使用されます。
※通常、ここで選択した後に他のフィルター条件をクリックする必要はありません。通常、他のオプションは 1 つのオプションのみが残ります。 -
アクセスはデータの権限を示します。一般ユーザーはオープン データのみを使用できます。オープン データでない場合は、ここで [開く] をクリックするだけにしてください。
4. 選択したデータをダウンロードします。
-
選択したデータをショッピング カートに追加し、[カート] をクリックしてショッピング カート インターフェイスに入ります。
- カート インターフェイスで、[メタデータ] (注釈ファイルのダウンロード) および [ダウンロード] (データのダウンロード) をクリックします。ダウンロード オプションでは、データをダウンロードする 2 つの方法が提供されます: マニフェストは、マニフェスト ファイルをダウンロードした後に gdc クライアント ソフトウェアを使用してデータをダウンロードすることを意味します ( gdc クライアント ダウンロード データ方法)、この方法は大きなファイルのダウンロードに適しています; カートは、直接ダウンロードすることを意味しますブラウザを使用する場合、この方法はより便利ですが、非常に大きなファイルのダウンロードには適していません。
-
ここまででTCGAデータのダウンロードは完了しました。
5. TCGA ファイルの命名規則
TCGA :プロジェクト名、 すべてのTCGAサンプル名はこれで始まります。
02 : ソースサイト、組織のソースコードを発行します。その他のコールアウト: https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
0001 :参加者、参加者番号。患者は複数のサンプルに対応する場合があります。たとえば、TCGA-A6-6650 は3 つのサンプル データを取得できます: TCGA-A6-6650-01A-11R-1774-07、 TCGA-A6-6650-01A-11R-A278-07 、TCGA -A6-6650-01B-02R-A277-07
01 : サンプル、キー番号。数字01 ~ 09は腫瘍を表し、10 ~ 19は正常対照を表します。
A : バイアル、一連の患者組織内の配列。ほとんどのサンプルはこの位置でコード化されています。Bはほとんどありません。
01 : 部分、同じ患者組織に属する異なる部分の連続番号
D : 分析物、分析される分子の種類
0182 : プレート、一連の96ウェルプレートの順序、値が大きいほど、プレート作成が遅くなります。
07 : センター、シーケンスまたは識別センターコード
6. GDC データ転送ツールを介してデータを読み取る
①独自の手法:
- ダウンロードした圧縮パッケージを解凍して、gdc-client.exe を取得します。MANIFEST.txt ファイルと gdc-client.exe をフォルダーに配置します。
-
ファイル ディレクトリで cmd コマンド ウィンドウを開きます。
-
gdc-client download -m MANIFEST.txt と入力します (注: ダウンロードされたマニフェスト ファイルは -m の後に追加されます。これは独自のファイル名に変更する必要があります。最新のファイル データを示すために、最後に --latest を追加することもできます)臨床データをダウンロードする方が便利です)、Enter キーを押してダウンロードを開始します。
-
gdc-client download -m MANIFEST.txt #or gdc-client download -m MANIFEST.txt --latest
②ダウンロードデータ+前処理データ:
MarvinLer/tcga_segmentation: TCGA で弱く監視された複数のインスタンス学習によるスライド画像全体のセグメンテーション | MICCAI2020 https://arxiv.org/abs/2004.05024 (github.com) は、ダウンロードされたデータを前処理する方法を提供します。
TCGA コホート + WSI 前処理のダウンロード
- GDC データ転送ツールの実行可能ファイルをダウンロードします (ライセンスの問題のため、ここには含まれていません)。
- TCGA GDC データ ポータルでコホートを構成し 、関連するマニフェスト ファイルをダウンロードして、
source_folder
- ダウンロードと前処理パイプラインを起動します。
python -m code.data_processing.main --gdc gdc_executable_path source_folder
このスクリプトは、まずマニフェスト ファイル内のすべてのファイルをダウンロードし、次に WSI をタイル化し、指定された倍率のタイルを抽出し、背景タイルを削除し、最後にそれらの名前からスライドごとのバイナリ ラベルを抽出しようとします。