ネイチャーメソッド|新しいソフトウェアSAVER-Xノイズが効率的に単一細胞トランスクリプトームデータに対して実行することができます

                                                                      ソース(自然法)
 

概要

単一細胞トランスクリプトーム配列(単一細胞RNA-配列、scRNA-SEQ)と疎なデータは、高ノイズ特性を有しています。原作は大幅にデータの品質を向上させることができ、データセット全体で転移学習を示しています。自動深度エンコーダベイズモデルを組み合わせることによって、元のソフトウェア開発SAVER-X遺伝子は、新たなオブジェクトデータセットのために、異なる種、異なる条件の異なる研究室からのデータを移行することができる関係から抽出することができますノイズリダクション。

 

 <:AIPuFuBioと大きな自由統合バイオインフォマティクスのツールとリソースプラットフォームAIPuFu:www.aipufu.comよりエキサイティングな、あなたは、マイクロチャネル公共数に焦点を当てることができます>

 

序文

研究でScRNA-配列、技術は、ぼけセル状態間のノイズの正確な同定を可能にし、遺伝子の低発現を正確に定量することができません。下のシーケンシング深さや関心の少ない細胞型、既存のノイズ低減方法は、多くの場合、パフォーマンスが低下すると、これらの方法はまた、共通のデータセットを無視し、これらの共通のデータセットは、関連するヘルプノイズリダクションが含まれていてもよいです情報。今、徐々にマウスでセルのパターンを確立し、そしてすぐに人体の各臓器の詳細な地図があるでしょう。公に利用scRNA-配列新たに生成されたデータセットは、関連する細胞型および情報データの遺伝的特徴を含みます。しかし、それはどのようにクロスプラットフォーム、クロス種、組織横断的な借り入れ情報は不明のまま。また、この方法は、バイアスを導入したり、そのユニークな特性を失うために新しいデータを強制的に学習を転送することはできません。

 

結果

原著者は新しいノイズリダクション側SAVER-X、単一細胞発現分析によって行われる外部データ復元方法を開発し、それを組み合わせ深度オートエンコーダで前処理してもよいベイズ階層モデル。ニューラルネットワークは、他の単一セル方式の基礎となっているが、既存のツールだけで周りのデータ上で動作しますが。また、この記事の広範なベンチマークデータとは、ほかの前身SAVER SAVER-Xのソフトウェアでは、遺伝子発現のための方法のほとんどは、実際の生産にバイアスの推定値、および特殊な遺伝的関連の導入であることを強調しました。SAVER-Xは、公衆データ・リソースを使用するための自動バックエンド・エンコーダと二段トレーニング機構と組み合わされ、コアモデルセーバーソフトウェアに基づいて構築されています。

Y SAVER-Xの変化をに分解される:(I)予測可能な構造成分(λ)、共用遺伝子間の変動を説明し、遺伝子特異的な分散が有するセルレベル(ii)の予測不可能な変動これらは、各遺伝子の独立している;および(iii)技術ノイズ。真の遺伝子発現を推定するSAVER-Xが観察されない、すなわち細胞+λレベルが独立に変動します。λが得られる自動エンコーダ(図1B)であり、共通のリポジトリから組織抽出物の同様の前処理上の同じ組織または細胞型から最初の重量のエンコーダの量(「予備データ」;図1A) 。重みは、ターゲット・データに合わせて更新されます。この二段階のトレーニングプログラムは、適応は、マイグレーション特性を留保できます。ヒトおよびマウスの細胞型は、コアと、必要な生物学的経路の多くを共有します。


図1 |転移学習の枠組みSAVER-Xソフトウェアの概要。 (出典:Wangら自然方法、2019 。) 自動エンコーダの前処理工程。Bは、ワークフローSAVER-Xです。UMIは(項目A)選択されたオートエンコーダ対象データを前処理することなく、SAVER-Xトレーニングモデルをカウント対象データ行列に対して、次に交差検定予測できない遺伝子(項目B)を用いて、および用いて濾過経験的ベイズ収縮推定最終的なノイズ低減値(項目C)。

 

为了可以跨物种学习,SAVER-X中的自动编码器包含了人和小鼠之间的共同网络。此外,SAVER-X采用基于交叉验证的基因过滤和贝叶斯收缩来保留目标数据集特有的表达模式(图1b)。交叉验证识别出与自动编码器不匹配的基因,自动编码器的预测被它们的目标数据均值所取代。贝叶斯收缩方法通过计算加权预测值的平均值和观察到的数值来得到最终的降噪值。

原文作者首先探索了SAVER-X在免疫系统不同细胞类型上进行迁移学习的好处和局限性。在没有流动分类的情况下,scRNA-seq数据中的组织浸润免疫细胞很少,因此,如果没有外部数据的帮助,降噪很有挑战性。软件作者检测了SAVER-X是否对来自人类细胞图谱(HCA)项目(来自脐带血和骨髓的500,000个免疫细胞)和10X基因组学(200,000个外周血单核细胞)的数据进行了预处理,从而有意义地提高了来自健康和疾病组织的免疫细胞的数据质量。与此同时,软件作者把SAVER-X和现有的降噪方法进行了对比,降噪方法是针对来自九种非重叠免疫细胞类型的一组纯化细胞进行的。

对T细胞亚型的可靠鉴定,对组织免疫环境的定性至关重要,然而,在原始的单细胞转录组测序数据中,T细胞亚型常常被混在一起(图2a)。原文作者通过对每种细胞类型随机选择100个细胞创建了一个测试数据集,发现SAVER-X不仅显著提高了肝癌T细胞亚型之间的分离,而且与其他降噪方法相比,还提高了细胞类型识别的准确性(通过矫正后的兰德指数(ARI)来测量)。包含相似细胞类型的数据集显示了迁移方法的有效性,通过降低目标数据中细胞数量或测序深度,原文作者也观察到了更加明显的效果。在极端情况下,即使是覆盖范围仅为60个唯一分子标识符(UMIs)的细胞(通常被丢弃在当前管道中),也可以通过迁移学习来拯救,以揭示有用的信息。


图2 |人类免疫细胞的SAVER-X降噪。( 图片来源:Wang et al. Nature Methods,2019)
 

为了理解迁移学习的局限性,原文作者评估了降噪精度,与预处理数据集和目标数据集之间细胞类型的相似性关系。迁移学习是否能有效地降噪预处理数据中不存在的细胞状态呢?考虑上面分析的纯化T细胞。当对所有的T细胞亚型进行SAVER-X预处理时,标记基因的聚类和表达量化得到了显著改善(图2b)。然而,即使细胞类型(CD4+调节性T (Treg)细胞)完全在预处理中缺失,SAVER-X也改善了这种“新”细胞类型的鉴定和标记基因定量。而且,为了确定预处理数据中细胞类型的富集是否提高了目标数据中的降噪精度,原文作者对富集了Treg细胞的T细胞进行了SAVER-X预处理,发现会产生任何明显的差异。因此,SAVER-X不需要预处理数据和目标数据之间的细胞类型完美匹配,重要的是,可以提高预处理数据中不存在的新细胞类型的量化。

作为辅助手段,原文作者还使用CITE-seq技术检测关键免疫标记的基因蛋白相关性。在CITE-seq中发现蛋白质丰度和它们的同源基因RNA表达之间的相关性非常低。而且还发现,对于PBMC和脐带血单个核细胞(CBMC)的CITE-seq数据,SAVER-X的降噪表达估计(在HCA和PBMC 10X基因组学上进行了预处理)与它们的蛋白质产物有明显更高的相关性。与其他方法相比,当目标数据集包含100和1000个细胞时,SAVER-X都提高了所有标记的相关性(图2c)。然而,对于具有8,000个细胞的较大数据集,预处理并没有显示出明显的效果。

接下来,原文作者探讨了SAVER-X是否能有效地从健康的免疫细胞中去学习降噪。与非预处理模型相比,对来自健康组织的免疫细胞(HCA和PBMC 10X基因组学)的预处理,使能够更好地表征多受试者中肿瘤浸润免疫细胞的类型(图2d)。同时,迁移学习后,肿瘤相关免疫细胞亚群仍可识别。特别地,SAVER-X保留了升高的免疫球蛋白,这是该疾病特异细胞状态下的标志(图2e)。该细胞群在健康组织中不存在,通过LYZ等标记物进一步验证了该免疫类型的存在。配对肿瘤和正常组织之间的细胞亚型特异基因表达差异,也在所有具有配对组织的受试者中,和对于免疫监测至关重要的两种细胞类型中得以保留(图2f)。

最后,原文作者使用了来自小鼠和人类发育腹侧中脑细胞scRNA-seq数据,进行跨物种迁移学习。对人类数据集中10%的读段(reads)进行降采样,将其降低到每个细胞有中值为452 UMIs,并利用原始数据作为衡量降噪精度的参考。将人类细胞随机分成两组,对一组的reads进行下采样(down-sampled),并保留另一组进行预处理。与未预处理的相比,在匹配的小鼠脑细胞上的SAVER-X预处理,导致人类脑细胞分类的有了显著地改善(图3a)。与单独对人类细胞进行预处理相比,对人和小鼠细胞预处理进一步提高了降噪精度。此外,对腹侧中脑以外区域的细胞进行SAVER-X预处理是有益的,而且对三个人类非UMI数据集以及小鼠细胞进行预处理也是有益的。这些实验证明了跨物种迁移学习在一般和实际环境中的优点,尽管在这些环境中,解剖区域和实验方案可能在预处理数据和目标数据之间有所不同。

然后,原文作者仔细检查了一个对小鼠数据进行预处理的模型,判断是否会对人类特异表达基因的估计产生偏差。他们计算了人类和小鼠之间,细胞类型特异平均表达的对数倍数变化,并鉴定了两个物种之间四种细胞类型的差异表达基因。用处理小鼠细胞的SAVER-X对下采样的人类数据进行降噪,结果保留了对数的倍数变化(图3b)。相反,仅仅依靠自动编码器,而没有交叉验证和收缩,则减少了一些基因的倍数变化。与其他方法不同,SAVER-X还保留了细胞间基因的差异(图3c)。


图3 |小鼠和人类脑细胞之间的迁移学习。( 图片来源:Wang et al. Nature Methods,2019)
 

综上所述,结果表明SAVER-X的框架可以利用现有数据,来提高新scRNA-seq数据集的质量。SAVER-X的核心是在一系列研究设计中训练一个深层神经网络,并将该模型应用于新数据,以加强共享的生物模式。迁移学习将scRNA-seq数据分析的方法,从特定研究的统计建模过程转变为跨研究数据集成和信息共享的自动化过程。

 

<更多精彩,可关注微信公众号:AIPuFuBio和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>

 

おすすめ

転載: www.cnblogs.com/aipufu/p/11653797.html