SpaGCN: integración de expresión génica, ubicación espacial e histología para identificar dominios espaciales y

Título

SpaGCN: Integrating gene expression, spatial 
location and histology to identify spatial domains 
and spatially variable genes by graph 
convolutional network

SpaGCN es un método para identificar dominios espaciales y genes espacialmente variables mediante la integración de la expresión génica, la ubicación espacial y la información histológica a través de redes convolucionales de gráficos.

En SpaGCN, combinamos la expresión génica, la ubicación espacial y la información histológica para crear un gráfico que represente la relación entre todos los puntos de los datos. A través de capas convolucionales de gráficos, SpaGCN puede agregar información de expresión génica de puntos vecinos. Luego, SpaGCN utiliza la matriz de expresión agregada para agrupar los puntos usando un algoritmo de agrupamiento iterativo no supervisado, considerando cada grupo como un dominio espacial. A continuación, SpaGCN detecta genes espacialmente variables enriquecidos en dominios específicos mediante análisis de expresión diferencial.

La fortaleza clave de SpaGCN es que considera de manera integral la expresión génica, la ubicación espacial y la información histológica, lo que permite la identificación de dominios espaciales con expresión génica e histología consistentes y la detección de genes espacialmente variables con patrones de expresión espacial claros. En comparación con otros métodos, los genes espacialmente variables detectados por SpaGCN tienen una mejor interpretación biológica y transferibilidad, que pueden utilizarse para futuras investigaciones y análisis.

En general, SpaGCN proporciona una poderosa herramienta para la investigación de transcriptómica espacial al integrar datos de diferentes fuentes de información y aprovechar las redes convolucionales de gráficos, que pueden revelar la variación espacial de la expresión génica en el microambiente tisular y proporcionar una base para una mayor comprensión de los mecanismos celulares. y la patología de la enfermedad proporcionan pistas importantes.

Abstracto

Recent advances in spatially resolved transcriptomics (SRT) technologies have enabled comprehensive characterization 
of gene expression patterns in the context of tissue microenvironment. To elucidate spatial gene expression variation, we 
present SpaGCN, a graph convolutional network approach that integrates gene expression, spatial location and histology 
in SRT data analysis. Through graph convolution, SpaGCN aggregates gene expression of each spot from its neighboring 
spots, which enables the identification of spatial domains with coherent expression and histology. The subsequent domain 
guided differential expression (DE) analysis then detects genes with enriched expression patterns in the identified domains. 
Analyzing seven SRT datasets using SpaGCN, we show it can detect genes with much more enriched spatial expression patterns than competing methods. Furthermore, genes detected by SpaGCN are transferrable and can be utilized to study spatial 
variation of gene expression in other datasets. SpaGCN is computationally fast, platform independent, making it a desirable 
tool for diverse SRT studies.

Recientemente se han realizado avances significativos en las técnicas de transcriptómica resuelta espacialmente (SRT), que nos permiten describir de manera integral los patrones de expresión génica en microambientes tisulares. Para dilucidar la variación espacial en la expresión génica, proponemos SpaGCN, un enfoque de red convolucional de gráficos que integra la expresión génica, la ubicación espacial y la histología en el análisis de datos SRT. A través de la convolución de gráficos, SpaGCN combina la expresión génica de cada punto con la de sus vecinos, lo que permite la identificación de regiones espaciales con expresión e histología consistentes. El análisis de expresión diferencial (DE) guiado por región posterior puede detectar genes con patrones de expresión enriquecidos en regiones definidas. Al analizar siete conjuntos de datos SRT con SpaGCN, mostramos que es capaz de detectar genes con patrones de expresión espacial más enriquecidos que otros métodos de la competencia. Además, los genes detectados por SpaGCN son transferibles y se pueden utilizar para estudiar la variación espacial de la expresión génica en otros conjuntos de datos. SpaGCN es computacionalmente rápido e independiente de la plataforma, lo que lo convierte en una herramienta ideal para varios estudios de SRT.

Introducción

Recent technological advances in SRT have enabled gene 
expression profiling with spatial information in tissues1
. 
Knowledge of the relative locations of different cells in a tissue is critical for understanding disease pathology because spatial 
information helps in understanding how the gene expression of a 
cell is influenced by its surrounding environment. Popular experimental methods for SRT can be broadly classified into two categories. The first category is in situ hybridization or sequencing-based 
technologies with single-cell resolution, which includes seqFISH2,3
, 
seqFISH+4
, MERFISH5,6
, STARmap7
 and FISSEQ8
 that measure the 
expression level for hundreds to thousands of genes in cells within 
their tissue context. The second category is in situ capturing-based 
technologies with spatial barcoding followed by sequencing, which 
includes spatial transcriptomics (ST)9
, SLIDE-seq10, SLIDE-seqV2 
(ref. 11), HDST12 and 10x Visium that measure the expression level 
for thousands of genes in captured locations, referred to as spots. 
These different SRT technologies have made it possible to uncover 
the complex transcriptional architecture of heterogeneous tissues and enhanced our understanding of cellular mechanisms in 
diseases13,14.
In SRT studies, an important step is identifying spatial domains defined as regions that are spatially coherent in both gene expres-sion and histology. Traditional clustering methods such as K-means  and Louvain’s method15 only take gene expression data as input, and the resulting clusters may not be contiguous due to the lack of consideration of spatial information and histology. To account for spatial dependency of gene expression, new methods have been developed. For example, Zhu et al.16 uses a Hidden-Markov random field (HMRF) approach to model spatial dependency of gene expression; stLearn17 uses features extracted from histology image as 
well as expression of neighboring spots spatially to normalize gene 
expression data before clustering; BayesSpace18 employs a Bayesian 
approach for clustering by imposing a prior that gives higher weight 
to physically close spots. Although these methods can cluster spots 
or cells into distinct groups, the lack of flexibility with different 
modalities has made them less versatile. As newer SRT technologies 
continue to be developed19–22, it is desirable to have methods that are 
compatible with different SRT platforms.
To link spatial domains with biological functions, it is crucial 
to identify genes that show enriched expression in the identified 
domains. Methods such as Trendsceek23, SpatialDE24 and SPARK25
have been developed to detect spatially variable genes (SVGs). These 
methods examine each gene independently and return a P value to 
represent the spatial variability of a gene. However, due to the lack 
of consideration of spatial domains, genes detected by these methods do not have guaranteed spatial expression patterns, making it 
difficult to utilize these genes for further biological investigations.
Rather than considering spatial domain and SVG identification 
as separate problems, we developed SpaGCN, a graph convolutional 
network (GCN)-based approach that considers these two problems 
jointly. SpaGCN first identifies spatial domains by integrating gene 
expression, spatial location and histology through the construction 
of an undirected weighted graph that represents the spatial dependency of the data. For each spatial domain, SpaGCN then detects SVGs that are enriched in the domain. By restricting the search 
space to spatial domains, the SVGs detected by SpaGCN are guaranteed to have spatial expression patterns. The spatial domains and 
the corresponding SVGs provide a comprehensive picture of the 
spatial gradients in gene expression in tissue. SpaGCN is versatile 
in analyzing many types of SRT data, including ST, 10x Visium, 
SLIDE-seqV2, STARmap, and MERFISH.

Los recientes avances tecnológicos en SRT han permitido la elaboración de perfiles de expresión génica con información espacial en los tejidos. Conocer la ubicación relativa de diferentes células en un tejido es fundamental para comprender la patología de la enfermedad, ya que la información espacial ayuda a comprender cómo la expresión génica de una célula se ve afectada por el entorno que la rodea. Los enfoques experimentales populares de SRT se pueden dividir ampliamente en dos categorías. La primera categoría son tecnologías basadas en hibridación in situ o basadas en secuenciación con resolución de una sola célula, incluidas seqFISH, seqFISH+, MERFISH, STARmap y FISSEQ, etc., que pueden medir los niveles de expresión de cientos a miles de genes en las células, y en el análisis dentro de su contexto organizacional. El segundo tipo de tecnología se basa en la captura in situ, utilizando códigos de barras espaciales para la secuenciación, incluida la transcriptómica espacial (ST), SLIDE-seq, SLIDE-seqV2, HDST y 10x Visium, etc., que pueden medir la posición de captura (es decir, niveles de expresión de miles de genes en el lugar). Estas diversas técnicas de SRT nos permiten revelar la compleja estructura del transcriptoma de tejidos heterogéneos y profundizar nuestra comprensión de los mecanismos celulares en la enfermedad.

Un paso importante en los estudios de SRT es la identificación de dominios espaciales, regiones que son espacialmente coherentes en la expresión génica y la histología. Los métodos de agrupamiento tradicionales, como los métodos K-means y Louvain, solo usan datos de expresión génica como entrada, y los resultados del agrupamiento resultante pueden no ser continuos debido a la falta de información espacial y consideraciones histológicas. Para dar cuenta de la dependencia espacial de la expresión génica, se han desarrollado nuevos métodos. Por ejemplo, Zhu y otros utilizaron el método Hidden Markov Random Field (HMRF) para modelar la dependencia espacial de la expresión génica, stLearn utilizó características extraídas de imágenes histológicas y la expresión de puntos vecinos para normalizar en el espacio, BayesSpace a través de Apply a prior to otorgue mayor peso a los puntos físicamente cercanos al agruparse. Si bien estos métodos pueden agrupar puntos o células en distintos grupos, la falta de flexibilidad para las diferentes modalidades limita su aplicabilidad. A medida que continúan desarrollándose nuevas tecnologías SRT, se requieren métodos que sean compatibles con diferentes plataformas SRT.

Para vincular los dominios espaciales a la función biológica, es fundamental identificar los genes cuya expresión se enriquece en dominios definidos. Se han desarrollado varios métodos para detectar genes espacialmente variables (SVG), como Trendsceek, SpatialDE y SPARK. Estos métodos examinan cada gen de forma independiente y devuelven un valor P que representa la variabilidad espacial del gen. Sin embargo, debido a la falta de consideración del dominio espacial, los genes detectados por estos métodos no tienen patrones de expresión espacial garantizados, lo que dificulta el uso de estos genes para estudios biológicos posteriores.

Desarrollamos SpaGCN, un enfoque basado en red convolucional de gráficos (GCN) que considera el reconocimiento del dominio espacial y SVG como un problema conjunto. SpaGCN identifica primero los dominios espaciales mediante la construcción de un gráfico ponderado no dirigido para integrar la expresión génica, la ubicación espacial y la histología. Para cada dominio espacial, SpaGCN detecta los SVG enriquecidos en ese dominio. Al restringir el espacio de búsqueda al dominio espacial, los SVG detectados por SpaGCN tienen patrones de representación espacial garantizados. El dominio espacial y el SVG correspondiente brindan una imagen completa del gradiente espacial de la expresión génica en los tejidos. SpaGCN es adecuado para analizar muchos tipos de datos SRT, incluidos ST, 10x Visium, SLIDE-seqV2, STARmap y MERFISH, etc.

SRT技术分两类根据使用仪器不同为iST和sST,iST是基于in situ hybridization原位杂交,如seqFISH,seqFISH+, MERFISH, STARmap and FISSEQ
ST是基于in situ capturing-based technologies原位捕获技术,如 SLIDE-seq10, SLIDE-seqV2 (ref. 11), HDST12 and 10x Visium。

在SRT研究中分两步后,第一步是identifying spatial domains区分空间域,常用方法有K-means,Louvain但是未考虑空间信息和组织学信息;
常用方法有HMRF,stLearn归一化,BayesSpace加先验增加空间信息,但是缺乏多模态灵活性,兼容性差。

第二步是domains和biological functions联系起来,即在domains中识别enriched expression富集基因。方法如Trendsceek,SpatialDE
和SPARK都用来检测spatially variable genes(SVGs)空间变异基因,用p值来表示基因的空间变异性。但上面的方法缺乏对空间域的考虑。

SpaGCN将domains和detect SVGs联合问题。通过构建undirected weighted graph无向加权图来联合gene expression基因表达, spatial
location空间位置和histology组织学信息,从而识别空间域。

对于每个domains做detect SVGs。该方法适用于多种SRT数据,如ST、10x Visium、SLIDE-seqV2、STARmap和MERFISH等。

la hibridación in situ es iST, centrándose en cientos de genes en la célula

inserte la descripción de la imagen aquí

tecnologías basadas en la captura in situ con código de barras espacial código de barras es sST, centrándose en miles de genes en el lugar

Por favor agregue una descripción de la imagen

tejidos heterogéneos se refiere a diferentes células o grupos de células

Por favor agregue una descripción de la imagen

Por favor agregue una descripción de la imagen

Genes de variables espaciales Los genes de variables espaciales se refieren a diferentes genes enriquecidos en diferentes dominios

Por favor agregue una descripción de la imagen

Resultados / Experimentos

Overview of SpaGCN and evaluation. We explain the workflow 
of SpaGCN using in situ capturing-based SRT data as an example, 
but the method can be easily modified to analyze other types of SRT 
data. As shown in Fig. 1a, SpaGCN first builds a graph to represent 
the relationship of all spots considering both spatial location and 
histology information. Next, SpaGCN utilizes a graph convolutional 
layer to aggregate gene expression information from neighboring 
spots. Then, SpaGCN uses the aggregated expression matrix to 
cluster spots using an unsupervised iterative clustering algorithm26. 
Each cluster is considered as a spatial domain from which SpaGCN 
then detects SVGs that are enriched in a domain by DE analysis 
(Fig. 1b). When a single gene cannot mark the expression pattern 
of a domain, SpaGCN will construct a meta gene, formed by the 
combination of multiple genes, to represent the expression pattern 
of the domain.
To showcase the strength of SpaGCN, we applied it to seven publicly available datasets (Supplementary Table 1). The spatial domains 
identified by SpaGCN agree better with known tissue structures 
than Louvain, stLearn, and BayesSpace. We also compared SVGs 
detected by SpaGCN with those detected by SpatialDE and SPARK, 
and found that the SpaGCN-detected SVGs have more coherent 
expression patterns and better biological interpretability than the 
other two methods. The specificity of spatial expression patterns 
revealed by SpaGCN-detected SVGs were further confirmed by 
Moran’s I and Geary’s C statistics27, two commonly used metrics for 
quantifying spatial autocorrelation of gene expression28,29.

Resumen y evaluación de SpaGCN. Explicamos el flujo de trabajo de SpaGCN basado en datos SRT in situ basados ​​en captura como ejemplo, pero el método se puede modificar fácilmente para analizar otros tipos de datos SRT. Como se muestra en la Figura 1a, SpaGCN primero construye un gráfico para representar la relación entre todos los puntos, considerando la ubicación espacial y la información histológica. A continuación, SpaGCN utiliza capas convolucionales de gráficos para agregar información de expresión génica de puntos vecinos. Luego, SpaGCN usa la matriz de expresión agregada para agrupar los puntos con un algoritmo de agrupamiento iterativo no supervisado. Cada grupo se consideró como un dominio espacial, a partir del cual SpaGCN detectó SVG enriquecidos en este dominio mediante análisis de expresión diferencial (Fig. 1b). Cuando un solo gen no puede marcar el patrón de expresión de un dominio, SpaGCN construirá un metagen, compuesto por múltiples genes, para representar el patrón de expresión del dominio.

Para demostrar las ventajas de SpaGCN, lo aplicamos a siete conjuntos de datos disponibles públicamente (Tabla complementaria 1). El dominio espacial identificado por SpaGCN es más coherente con la estructura organizativa conocida, en comparación con Louvain, stLearn y BayesSpace. También comparamos los SVG detectados por SpaGCN con los detectados por SpatialDE y SPARK, y descubrimos que los SVG detectados por SpaGCN tienen patrones de expresión más consistentes y una mejor interpretabilidad biológica. La especificidad de los patrones de expresión espacial revelados por los SVG detectados por SpaGCN fue validada aún más por las estadísticas I de Moran y C de Geary, que son indicadores comúnmente utilizados para cuantificar la autocorrelación espacial de la expresión génica.

SpaGCN适用于in situ capturing-based SRT data。首先构建一个graph,这个graph考虑了spatial location空间信息和histology 
information组织信息;
然后利用GCL/graph convolutional layer从neighboring spots中聚合gene expression information基因信息,得到一个aggregated expression matrix聚合表达矩阵;
对AEM使用聚类算法聚类,将spot聚类得到domains;
再对单个domain使用DE analysis得到单个SVG,但是当单个基因无法表达区域时,就构建一个meta gene元基因,由多个基因组成来表达domain中的SVG。

识别domains比Louvain, stLearn和BayesSpace更好,ARI更高。
detect SVGs比SpatialDE和SPARK更好,Moran's I和Geary's C统计量更好,这两个统计量用于量化基因表达的空间自相关性。
Application to human primary pancreatic cancer ST data. To 
demonstrate the importance of incorporating histology information, we analyzed a human primary pancreatic cancer dataset generated using the ST technology13. This dataset includes 224 spots 
and 16,448 genes with three manually annotated tissue regions. 
The cancer region detected by Louvain based on gene expression 
alone did not closely match the pathologist-annotated cancer region 
(Fig. 2a). Spatial clustering methods such as stLearn and BayesSpace 
did not detect the cancer region either. SpaGCN revealed a similar pattern when using default parameters. As the histology image 
shows a clear difference between the cancer and noncancer regions, 
it suggests histology is informative for clustering. SpaGCN has the 
flexibility of modeling histology with a scaling parameter s, which 
controls the weight given to histology when detecting neighbors 
for each spot. By increasing the value of s from 1 to 2, SpaGCN 
detected a cluster that agrees well with the manually annotated cancer region. It is worth noting that when s was set at the default value 
of 1, SpaGCN detected the noncancer regions well. When s was 
increased to 2, SpaGCN not only maintained the ability to detect 
the noncancer regions but also detected the cancer region. This 
example showed that SpaGCN is flexible in incorporating histology 
information in clustering. Although stLearn can incorporate histology data, its use of histology information is pre-fixed by the radius 
when defining neighboring spots. The lack of flexibility in adjusting 
histology weight led to the discrepancy between their clustering and 
the pathologist’s manual annotation.
Next, we detected SVGs using SpaGCN, SPARK and SpatialDE. 
In total, SpaGCN detected 12 SVGs, with three, eight and one SVGs 
for domains 0, 1 and 2, respectively (Fig. 2b; Supplementary Fig. 1). 
Furthermore, a meta gene using KRT17, MMP11 and SERPINA1 marked the cancer region better than the originally identified 
KRT17 for domain 2 (Fig. 2c). KRT17 functions as a tumor promoter 
and regulates proliferation in pancreatic cancer30, and MMP11 is a 
prognostic biomarker for pancreatic cancer31. Our identification of 
KRT17 and MMP11 as the two positive genes for the cancer region 
agrees well with pancreatic cancer biology. SPARK and SpatialDE 
detected 203 and 163 SVGs, with their P or Q values highly skewed 
towards 0 (Supplementary Figs. 2 and 3). However, the Moran’s 
I and Geary’s C values for their SVGs are much lower than those 
detected by SpaGCN, suggesting their lack of spatial patterns 
(Fig. 2d). Furthermore, genes with smaller P or Q values do not 
necessarily show better spatial expression patterns than those with 
larger P or Q values (Supplementary Figs. 4 and 5). More stringent 
filtering of spots and genes did not improve the spatial pattern for 
SpatialDE and SPARK-detected SVGs (Supplementary Fig. 6).

Aplicado a datos ST de cáncer de páncreas primario humano. Para demostrar la importancia de integrar la información histológica, analizamos un conjunto de datos de cáncer de páncreas primario humano generado con tecnología ST. El conjunto de datos incluye 224 puntos y 16 448 genes con tres regiones de tejido anotadas manualmente. Las regiones cancerosas detectadas por el método de agrupamiento de Louvain basado únicamente en la expresión génica no coincidían exactamente con las regiones cancerosas anotadas por los patólogos. Los métodos de agrupamiento espacial como stLearn y BayesSpace tampoco detectaron regiones cancerosas. SpaGCN revela un patrón similar cuando se usan los parámetros predeterminados. Sin embargo, dado que las imágenes de histología muestran claras diferencias entre las regiones cancerosas y no cancerosas, esto sugiere que la histología es informativa para la agrupación. SpaGCN tiene la flexibilidad de ajustar la histología y puede controlar el peso dado a la histología al detectar vecinos de cada punto a través de parámetros de escala. Al aumentar el valor de s de 1 a 2, un grupo detectado por SpaGCN está en buen acuerdo con las regiones de cáncer anotadas manualmente. Vale la pena señalar que cuando s se establece en el valor predeterminado de 1, SpaGCN también puede detectar bien las regiones no cancerosas. Cuando s aumenta a 2, SpaGCN no solo mantiene la capacidad de detectar regiones no cancerosas, sino que también detecta regiones cancerosas. Este ejemplo demuestra la flexibilidad de SpaGCN para integrar información histológica en el agrupamiento. Si bien stLearn puede integrar datos histológicos, la información histológica que utiliza al definir puntos vecinos está prefijada por el radio. La imposibilidad de ajustar los pesos histológicos dio lugar a discrepancias entre los resultados de la agrupación y las anotaciones manuales del patólogo.

A continuación, detectamos SVG usando SpaGCN, SPARK y SpatialDE. En total, SpaGCN detectó 12 SVG, entre los cuales 3, 8 y 1 SVG se distribuyeron en los dominios 0, 1 y 2, respectivamente (Fig. 2b; Fig. 1 complementaria). Además, los metagenes construidos con KRT17, MMP11 y SERPINA1 marcaron mejor las regiones cancerosas que KRT17 identificado inicialmente en el dominio 2 (Fig. 2c). KRT17 funciona como promotor de tumores y regula la proliferación en el cáncer de páncreas, mientras que MMP11 es un biomarcador de pronóstico en el cáncer de páncreas. Nuestro hallazgo de KRT17 y MMP11 como dos genes positivos en regiones cancerosas encaja bien con la biología del cáncer de páncreas. SPARK y SpatialDE detectan 203 y 163 SVG cuyos valores de P o Q están muy sesgados alrededor de 0. Sin embargo, los valores de Moran's I y Geary's C de sus SVG son mucho más bajos que los detectados por SpaGCN, lo que indica que carecen de patrones espaciales. Además, los genes con valores de P o valores de Q más pequeños no muestran necesariamente mejores patrones de expresión espacial que los genes con valores de P o valores de Q más grandes. Para los SVG detectados por SpatialDE y SPARK, el filtrado de puntos y genes más estricto no mejoró los patrones espaciales.

Application to human dorsolateral prefrontal cortex 10x Visium 
data. To show quantitatively that SpaGCN outperforms Louvain, 
stLearn and BayesSpace in spatial domain detection, we analyzed 
the LIBD human dorsolateral prefrontal cortex (DLPFC) data generated using 10x Visium32. This study sequenced 12 tissue slices that 
span six neuronal layers plus white matter from the DLPFC in three 
human brains. The manual annotation of the tissue layers provided 
by the original study allows us to evaluate the accuracy of spatial 
domain detection. Figure 3a shows that for the representative tissue slice 151673, both SpaGCN and BayesSpace revealed spatial 
domains that agree better with the manually annotated tissue layers 
than Louvain. Although stLearn utilized histology information, its 
performance is not much better than Louvain and is substantially 
worse than SpaGCN and BayesSpace. The relative performance 
of these methods remains the same when considering all 12 slices 
(Fig. 3b and Supplementary Table 2); the median ARI is 0.36 for 
stLearn, 0.42 for BayesSpace and 0.45 for SpaGCN.
To validate further the identified spatial domains, we detected 
SVGs for each domain in slice 151673. In total, SpaGCN detected 
67 SVGs, with 53 of them being specific to domain 5, which corresponds to white matter (Supplementary Fig. 7). Patterns of SVGs 
for other domains are not very clear. These results indicate that 
gene expression profiles of spots from white matter are distinct 
from spots in the neuronal layers, while gene expression differences 
among the six neuronal layers are much smaller and more difficult to distinguish using individual marker genes. SVGs detected 
by SPARK and SpatialDE also suffered from the same problem. 
SPARK detected 3,187 SVGs with 1,131 of them having false discovery rate (FDR)-adjusted P values equal to 0, most of which 
only marked the white matter region (Supplementary Figs. 8 and 
9). We also found that the SVGs detected by SPARK lack domain 
specificity (Supplementary Fig. 10). SpatialDE detected 3,654 SVGs 
with 806 of them having Q values equal to 0, but these genes do 
not necessarily show better spatial patterns than genes with larger 
Q values (Supplementary Fig. 11). Although SPARK and SpatialDE 
detected much larger numbers of SVGs than SpaGCN, the genes 
detected by these two methods cannot distinguish different degrees 
of spatial expression variability as their P or Q value distributions 
are highly skewed towards 0. Figure 3c shows that the Moran’s I values for SpaGCN-detected SVGs are significantly higher than genes 
detected by SpatialDE and SPARK (median of 0.39 for SpaGCN 
against 0.09 for SPARK and 0.08 for SpatialDE). More stringent 
filtering of spots and genes did not improve the performance of 
SpatialDE and SPARK (Supplementary Fig. 12). For three out of the 
six neuronal layers, SpaGCN detected a single SVG to mark that 
region (Fig. 3d). For example, CAMK2N1 is enriched in domain 0 
(layers 1 and 2), PCP4 is enriched in domain 1 (layer 4) and NEFM
is enriched in domain 3 (layer 3).
To show that SpaGCN-detected SVGs are useful for downstream 
analysis, we performed K-means clustering on slice 151507, which is from a different brain, using all 67 SVGs detected from slice 
151673 by SpaGCN. Compared with manually curated layer assignment, this clustering analysis had a Adjusted Rand Index (ARI) of 
0.23 (Fig. 3e,f). We performed similar analysis using SVGs detected 
by SpatialDE and SPARK. When randomly selecting 67 SVGs with 
0 P or Q value from genes detected by SpatialDE/SPARK, the ARI is 
only 0.13 for SpatialDE and 0.14 for SPARK. The ARIs for SpatialDE 
and SPARK did not improve even with increased numbers of SVGs 
(Fig. 3e). These results further confirmed the lack of spatial patterns 
for genes detected by SPARK and SpatialDE.
Although it is difficult to identify single genes to mark certain 
neuronal layers, SpaGCN was able to find domain-specific meta 
genes. As shown in Fig. 3g, SpaGCN detected meta genes for 
domains 1, 2, 4 and 6. The meta gene for domain 2 is specific to layer 1. As layer 1 only has a few spots, it is difficult to find a highly 
enriched gene. However, by adding depleted genes such as FTH1, 
MBP, MT-CO3 and PLP1, the expression pattern in this region is 
strengthened. Furthermore, the SVGs and meta genes detected by 
SpaGCN are transferrable to slice 151507 obtained from a different brain, in which the meta genes detected in slice 151673 mark 
the same layers in slice 151507 (Fig. 3g and Supplementary Fig. 13).

Datos de Visium 10x aplicados a la corteza prefrontal dorsolateral humana (DLPFC). Para demostrar cuantitativamente que SpaGCN supera a Louvain, stLearn y BayesSpace en la detección de dominio espacial, analizamos los datos de DLPFC humanos LIBD generados con la tecnología Visium 10x. El estudio secuenció 12 secciones de tejido de seis capas neuronales de DLPFC y materia blanca de tres cerebros humanos. Las anotaciones manuales a nivel de tejido proporcionadas por el estudio original nos permitieron evaluar la precisión de la detección del dominio espacial. La Figura 3a muestra que para el corte de tejido representativo 151673, los dominios espaciales revelados por SpaGCN y BayesSpace son más consistentes con los niveles de tejido anotados manualmente, mientras que Louvain no funciona tan bien como ellos. Aunque stLearn utiliza información histológica, su rendimiento no es mucho mejor que el de Louvain y está muy por detrás de SpaGCN y BayesSpace. El rendimiento relativo de los métodos sigue siendo el mismo cuando se consideran los 12 cortes (Fig. 3b y Tabla complementaria 2), el ARI medio es 0,36 para stLearn, 0,42 para BayesSpace y 0,45 para SpaGCN.

Para validar aún más los dominios espaciales identificados, detectamos SVG para cada dominio en el segmento 151673. En total, SpaGCN detectó 67 SVG, 53 de los cuales eran específicos del dominio 5, correspondiente a la sustancia blanca (Figura 7 complementaria). Los patrones para SVG en otros dominios son menos claros. Estos resultados sugieren que los perfiles de expresión génica de las manchas en la materia blanca difieren de las manchas en las capas neuronales, mientras que las diferencias de expresión génica entre las seis capas neuronales son mucho más pequeñas y más difíciles de distinguir usando un solo gen marcador. Los SVG detectados por SPARK y SpatialDE tienen el mismo problema. SPARK detectó 3187 SVG, de los cuales 1131 tenían valores de P ajustados por FDR iguales a 0, la mayoría de los cuales solo etiquetaron regiones de materia blanca (Figuras complementarias 8 y 9). También encontramos que los SVG detectados por SPARK carecen de propiedades específicas del dominio (Figura 10 complementaria). SpatialDE detectó 3654 SVG, de los cuales 806 tenían valores de Q iguales a 0, pero los patrones espaciales de estos genes no eran necesariamente mejores que aquellos con valores de Q más grandes (Fig. 11). Aunque SPARK y SpatialDE detectan muchos más SVG que SpaGCN, los genes detectados por estos dos métodos no pueden distinguir diferentes grados de variación de expresión espacial porque sus distribuciones de valores P o Q están muy sesgadas alrededor de 0. La Figura 3c muestra que el valor de Moran I de los SVG detectados por SpaGCN es significativamente mayor que el de los genes detectados por SpatialDE y SPARK (mediana de 0,39 para SpaGCN, 0,09 para SPARK y 0,08 para SpatialDE). Un filtrado más estricto de manchas y genes no mejoró el rendimiento de SpatialDE y SPARK (Fig. 12). Para tres de las seis capas de neuronas, SpaGCN detecta un solo SVG para etiquetar la región (Fig. 3d). Por ejemplo, CAMK2N1 está enriquecido en el dominio 0 (capas 1 y 2), PCP4 en el dominio 1 (capa 4) y NEFM en el dominio 3 (capa 3).

Para demostrar la utilidad de los SVG detectados por SpaGCN en el análisis posterior, realizamos un agrupamiento de K-means en el segmento 151507, que es de otro cerebro, utilizando los 67 SVG detectados por SpaGCN del segmento 151673. En comparación con las asignaciones de estrato etiquetadas manualmente, el índice Rand ajustado (ARI) para este análisis de conglomerados fue de 0,23 (Fig. 3e, f). Realizamos un análisis similar utilizando SVG detectados por SpatialDE y SPARK. Al seleccionar aleatoriamente 67 SVG con 0 valores P o valores Q en genes detectados por SpatialDE/SPARK, el ARI de SpatialDE es solo 0,13 y el de SPARK es 0,14. Incluso aumentando el número de SVG, el ARI de SpatialDE y SPARK no mejora (Fig. 3e). Estos resultados confirman aún más la falta de patrones espaciales en los genes detectados por SPARK y SpatialDE.

Si bien es difícil identificar genes individuales para marcar capas neuronales específicas, SpaGCN puede encontrar metagenes específicos de dominio. Como se muestra en la Figura 3g, SpaGCN detectó metagenes de los dominios 1, 2, 4 y 6. Los metagenes del dominio 2 son específicos de la capa 1. Dado que la capa 1 tiene solo unas pocas manchas, es difícil encontrar genes altamente enriquecidos. Sin embargo, el patrón de expresión en esta región mejoró con la adición de genes agotados como FTH1, MBP, MT-CO3 y PLP1. Además, los SVG y los metagenes detectados por SpaGCN podrían transferirse al corte 151507 obtenido de otro cerebro donde los metagenes detectados por SpaGCN marcaron la misma capa (Fig. 3g y Fig. 13 complementaria).

Application to mouse posterior brain 10x Visium data. Next, 
we analyzed a 10x Visium dataset generated from mouse posterior brain that includes 3,353 spots and 31,053 genes33. This dataset shows much more complex tissue structure than the previous 
two datasets. We compared the clustering result of SpaGCN with 
Louvain, stLearn and BayesSpace when the number of clusters was 
set at ten for all methods. Figure 4a shows that Louvain’s clustering is similar to stLearn, BayesSpace and SpaGCN, but the spatial 
domains detected by the latter three methods are more spatially 
contiguous due to their ability to account for spatial dependency of 
gene expression.
We further investigated the ability of each method in detecting 
more refined tissue structure. Specifically, we performed subclustering analysis for spots in domain 5 detected by SpaGCN, which 
corresponds to the cortex (Fig. 4b). The subdomains detected by 
SpaGCN agree well with the Allen Brain Institute reference atlas 
diagram of the mouse cortex (Fig. 4c). The detected subdomains 
include layers 2/3, layers 4/5, layer 6, a hippocampal region (CA1) 
and the subiculum. Layers 2/3 are the ‘external’ cortical layers that 
are biologically responsible for local networks in which neurons in 
this subdomain communicate to other neurons in adjacent neocortical regions. Layers 4/5 are the ‘internal’ cortical layers that are biologically responsible for longer range neural networks. For example, 
the visual cortex, which corresponds to the neocortical region, is 
responsible for receiving visual information from the lateral geniculate nucleus that is far away. SpaGCN was able to separate the 
molecular (layer 1), external (layers 2/3), internal (layers 4/5) and 
the plexiform (6) layers. More importantly, SpaGCN outperformed 
Louvain and stLearn, which show combining of neocortical layers. 
SpaGCN also outperformed BayesSpace in distinguishing between 
the plexiform layer (subdomain 1) and the non-neocortical CA1 
region of the hippocampus (subdomain 3). In contrast, BayesSpace 
combined layer 6 of the neocortex with the non-neocortical CA1 
layer of the hippocampus.
Next, we compared SpaGCN with SPARK and SpatialDE for 
SVG detection. SpaGCN detected 1,028 SVGs for the ten spatial 
domains while SPARK and SpatialDE detected 9,678 and 12,676 
SVGs, respectively (Supplementary Fig. 14). As shown in Fig. 4d, 
the Moran’s I values of SpaGCN-detected SVGs are much higher 
than those detected by SPARK and SpatialDE (median of 0.54 for 
SpaGCN against 0.20 for SPARK and 0.16 for SpatialDE). More 
stringent filtering of spots and genes did not improve the performance of SPARK and SpatialDE (Supplementary Fig. 15). The 
P or Q value distributions of SpatialDE and SPARK are highly skewed towards 0 (Supplementary Fig. 16), and genes with similar P or Q values do not necessarily show similar spatial patterns 
and a smaller P or Q value does not guarantee a better spatial pattern (Supplementary Figs. 17 and 18). In contrast, multiple domain 
adaptive filtering criteria implemented in SpaGCN allow it to eliminate false positive SVGs and ensure all detected SVGs have clear 
spatial expression patterns.
To illustrate how the filtering in SpaGCN works, we use domains 
1, 5 and 8 as an example. For each of these domains, SpaGCN 
detected a single SVG enriched in that region. As shown in Fig. 4e, 
PVALB is enriched in domain 1 and TRM62 is enriched in domain 
8. Although domains 1 and 8 are adjacent to each other, these 
two SVGs can still well mark these domains. NRGN is a SVG that 
SpaGCN detected for domains 5 and 7. The high expression of 
NRGN in domains 5 and 7 also indicates that these two domains are 
neuroanatomically similar—both consisting of cortex and the pyramidal layer of the hippocampus. Both the cortex and hippocampus 
are regions that are on the curved surface of the brain. Domains 
5 and 7, which would be contiguous in a three-dimensional (3D) 
reconstruction, are artifactually separated as a result of how the section was cut. Therefore, it is not surprising that in addition to NRGN, 
SpaGCN also detected many other SVGs for domains 5 and 7, some 
of which are highly expressed in both domains (Supplementary 
Fig. 19). The unique and powerful SVG detection procedure in 
SpaGCN ensures that genes such as these are not missed.
SpaGCN only identified four SVGs for domain 0. However, we 
reason that a meta gene, formed by the combination of multiple 
genes, may better reveal spatial patterns than any single genes. We 
used domain 0 as an example to show how SpaGCN can create 
informative meta genes to mark a spatial domain (Fig. 4f). First, by 
lowering the filtering thresholds, SpaGCN identified KLK6 which 
is highly expressed in the lower part of domain 0. Using KLK6 as a 
starting gene, SpaGCN used a novel approach to find a log-linear 
combination of gene expression of KLK6, MBP and ATP1B1, which 
accurately marked the spatial domain 0. In this meta gene, KLK6
and MBP are considered as positive markers because they are 
highly expressed in some spots in domain 0, whereas ATP1B1 is 
considered a negative marker as it is mainly expressed in regions 
other than domain 0. Previous studies have shown that KLK6 and 
MBP expression is restricted to oligodendrocytes, while ATP1B1 is 
mainly expressed in neurons and astrocytes34. This resonates with 
the fact that domain 0 represents white matter which is dominated 
by oligodendrocytes and has few neuronal cell bodies. Therefore, 
the genes that make up this meta gene have meaningful biological 
interpretations. While we focused our analyses on one tissue section, SpaGCN 
can also jointly analyze multiple tissue sections. We show two examples using this mouse brain Visium data provided by 10x Genomics. 
Figure 5a shows SpaGCN clustering results for two mouse posterior sections. As these two tissue sections are from the same region, 
SpaGCN was able to infer cluster correspondence between the two 
tissue sections. Next, we used SpaGCN to analyze jointly two tissue sections with one from the mouse posterior brain and the other 
from the mouse anterior brain. As the anterior section and posterior section are adjacent in the brain, we modified the coordinates 
for spots in the posterior section such that the revised coordinates 
reflect the spatial adjacency of the two tissue sections. Using the 
modified coordinates as input, SpaGCN was able to produce clustering results that reflect the shared layer structure in the anterior 
and posterior brain (Fig. 5b).

A continuación, analizamos el conjunto de datos Visium 10x obtenido del cerebro posterior del ratón, que contiene 3353 puntos y 31 053 genes. Este conjunto de datos exhibe una estructura organizativa más compleja que los dos conjuntos de datos anteriores. Comparamos los resultados de agrupamiento de SpaGCN con Louvain, stLearn y BayesSpace al establecer el número de grupos en diez para todos los métodos. La Figura 4a muestra que los resultados de agrupamiento de Louvain son similares a los de stLearn, BayesSpace y SpaGCN, pero los dominios espaciales detectados por los últimos tres métodos son más continuos debido a la consideración de la dependencia espacial de la expresión génica.

Investigamos más a fondo la capacidad de cada método para detectar estructuras de tejido más finas. Específicamente, subagrupamos las manchas detectadas por SpaGCN en el dominio 5, que corresponde a la corteza (Fig. 4b). Los subdominios detectados por SpaGCN estaban en buen acuerdo con la corteza del ratón en el atlas de referencia del Allen Brain Institute (Fig. 4c). Los subdominios detectados incluyeron capa 2/3, capa 4/5, capa 6, hipocampo (CA1) y subículo. Las capas 2/3 son las capas corticales "externas", biológicamente responsables de la red local en la que las neuronas de este subcampo se comunican con otras neuronas en áreas neocorticales adyacentes. Las capas 4/5 son las capas corticales "internas", biológicamente responsables de las redes neuronales de mayor alcance. Por ejemplo, la corteza visual corresponde al área neocortical responsable de recibir información visual del núcleo geniculado lateral distante. SpaGCN es capaz de distinguir capas moleculares (capa 1), capas externas (capas 2/3), capas internas (capas 4/5) y capas plexiformes (capa 6). Más importante aún, SpaGCN supera a Louvain y stLearn en la discriminación de capas corticales, que muestran una mezcla de capas corticales. SpaGCN también supera a BayesSpace al distinguir entre la capa plexiforme (subdominio 1) y la región CA1 del hipocampo (subdominio 3). Por el contrario, BayesSpace combina la capa cortical 6 con la capa no cortical CA1 del hipocampo.

A continuación, comparamos SpaGCN con SPARK y SpatialDE para la detección de SVG. SpaGCN detectó 1.028 SVG en diez dominios espaciales, mientras que SPARK y SpatialDE detectaron 9.678 y 12.676 SVG, respectivamente (Fig. 14). Como se muestra en la Figura 4d, los valores de SVG de Moran I detectados por SpaGCN son mucho más altos que los detectados por SPARK y SpatialDE (mediana de 0,54 para SpaGCN, 0,20 para SPARK y 0,16 para SpatialDE). Un filtrado más estricto de manchas y genes no mejoró el rendimiento de SPARK y SpatialDE (Fig. 15). Las distribuciones de los valores de P o Q para SpatialDE y SPARK están muy sesgadas alrededor de 0 (Figura 16 complementaria), los genes con valores de P o Q similares no necesariamente muestran patrones espaciales similares, y los valores de P o Q más pequeños sí lo hacen. no garantiza mejor El patrón espacial de (Figuras 17 y 18). Por el contrario, el criterio de filtrado adaptativo multidominio implementado en SpaGCN le permite eliminar los SVG falsos positivos y garantizar que todos los SVG detectados tengan patrones de expresión espacial claros.

Para ilustrar cómo funciona el filtrado en SpaGCN, tomamos los dominios 1, 5 y 8 como ejemplos. Para cada uno de estos dominios, SpaGCN detectó un solo SVG enriquecido en esa región. Como se muestra en la Figura 4e, PVALB se enriqueció en el dominio 1 y TRM62 en el dominio 8. Aunque los dominios 1 y 8 están uno al lado del otro, estos dos SVG todavía marcan bien los dominios. NRGN es el SVG detectado por SpaGCN para los dominios 5 y 7. La alta expresión de NRGN en los dominios 5 y 7 también sugiere que estos dos dominios son neuroanatómicamente similares, ambos incluyen capas piramidales corticales y del hipocampo. Tanto la corteza como el hipocampo son regiones que se encuentran en la superficie curva del cerebro. Los dominios 5 y 7 son continuos en la reconstrucción 3D, pero en realidad están separados debido a la forma en que se cortan los cortes. Por lo tanto, no solo NRGN, SpaGCN también detectó muchos otros SVG para los dominios 5 y 7, algunos de los cuales se expresaron altamente en estos dos dominios (Figura 19 complementaria). El exclusivo y sólido proceso de detección de SVG en SpaGCN garantiza que no se pasen por alto dichos genes.

SpaGCN solo identifica cuatro SVG para el dominio 0. Sin embargo, argumentamos que los metagenes formados por combinaciones de múltiples genes pueden revelar patrones espaciales mejor que cualquier gen único. Usando el dominio 0 como ejemplo, mostramos cómo SpaGCN crea metagenes informativos para etiquetar dominios espaciales (Fig. 4f). En primer lugar, al reducir el umbral de filtrado, SpaGCN identificó KLK6, que se expresa mucho en la parte inferior del dominio 0. Usando KLK6 como el gen inicial, SpaGCN empleó un enfoque novedoso para encontrar una combinación logarítmica lineal de la expresión génica de KLK6, MBP y ATP1B1, que etiqueta con precisión el dominio espacial 0. En este metagén, KLK6 y MBP se consideraron marcadores positivos porque se expresan mucho en ciertos puntos del dominio 0, mientras que ATP1B1 se consideró un marcador negativo porque se expresa principalmente en regiones que no pertenecen al dominio 0. Estudios previos han demostrado que la expresión de KLK6 y MBP está restringida a los oligodendrocitos, mientras que ATP1B1 se expresa principalmente en neuronas y astrocitos. Esto es consistente con el hecho de que el dominio 0 representa la sustancia blanca, que está dominada por oligodendrocitos con pocos cuerpos celulares neuronales. Por lo tanto, los genes que componen este metagen tienen interpretaciones biológicas significativas. Aunque nuestro análisis se centra en un solo corte de tejido, SpaGCN también puede analizar conjuntamente varios cortes de tejido. Mostramos dos ejemplos utilizando estos datos Visium de cerebro de ratón proporcionados por 10x Genomics. La Figura 5a muestra los resultados del agrupamiento de SpaGCN de dos cortes de cerebro posterior de ratón. Dado que estos dos cortes de tejido son de la misma región, SpaGCN puede inferir la correspondencia de grupos entre los dos cortes de tejido. A continuación, analizamos conjuntamente una sección de tejido del cerebro posterior del ratón y otra sección de tejido del cerebro anterior del ratón utilizando SpaGCN. Dado que el prosencéfalo y el rombencéfalo son adyacentes en el cerebro, modificamos las coordenadas de los puntos en las rebanadas de tejido del rombencéfalo para que las coordenadas modificadas reflejen la adyacencia espacial de las dos rebanadas de tejido. Usando las coordenadas modificadas como entrada, SpaGCN pudo producir resultados de agrupamiento que reflejaban la estructura de capas compartida por el cerebro anterior y posterior (Fig. 5b).

Application to mouse visual cortex STARmap data. Finally, we 
analyzed a STARmap dataset that has single-cell resolution7
. This 
dataset was generated from mouse visual cortex that spans from 
hippocampus to corpus callosum, and the six neocortical layers. In total, 1,020 genes were measured in 1,207 cells that include 
non-neuronal cells, excitatory and inhibitory neurons. The layer 
structure and cell type distribution of the tissue section provided 
by the original study are shown in Fig. 6a. As the tissue capture area 
of STARmap is much smaller than 10x Visium, we increased the 
contribution of neighboring cells from 0.5 to 1 when calculating 
the weighted gene expression of each cell in SpaGCN. Using this 
approach, SpaGCN detected spatial domains that agreed well with 
the annotated tissue structure (Fig. 6a,c), achieving an ARI of 0.51. 
By contrast, the ARIs of the other methods are much lower (0.30 for 
Louvain, 0.37 for BayesSpace and 0.03 for HMRF) (Fig. 6b). This 
example demonstrates that SpaGCN utilizes spatial information 
more efficiently than BayesSpace and HMRF. Using SpaGCN, we 
further detected 25 SVGs including genes LAMP5, HPCAL1, CPLX1, 
PLP1, NRSN1, ATP1A2 and BSG that showed enriched expression 
patterns for domains 0 to 6 (Fig. 6e and Supplementary Fig. 20). 
Similar to previous analyses, SPARK and SpatialDE detected much 
larger number of SVGs but many of the SVGs lack spatial expression 
patterns (Fig. 6d and Supplementary Figs. 21–24).

Finalmente, analizamos un conjunto de datos STARmap con resolución de una sola celda. El conjunto de datos se obtuvo de la corteza visual del ratón, que abarca desde el hipocampo hasta el cuerpo calloso y seis capas neocorticales. En total, se midieron 1020 genes en 1207 células, incluidas células no neuronales, neuronas excitatorias y neuronas inhibidoras. La estructura de capas y la distribución de tipos de células de las secciones de tejido proporcionadas por el estudio original se muestran en la Fig. 6a. Dado que el área de captura de tejido de STARmap es mucho más pequeña que 10x Visium, aumentamos la contribución de las células vecinas de 0,5 a 1 al calcular la expresión génica ponderada de cada célula en SpaGCN. Usando este enfoque, los dominios espaciales detectados por SpaGCN están en buen acuerdo con la estructura organizacional anotada (Fig. 6a, c), con un ARI de 0.51. Por el contrario, el ARI de otros métodos es mucho más bajo (0,30 para Louvain, 0,37 para BayesSpace y 0,03 para HMRF) (Fig. 6b). Este ejemplo demuestra que SpaGCN utiliza la información espacial de manera más efectiva que BayesSpace y HMRF. Usando SpaGCN, detectamos además 25 SVG, incluidos los genes LAMP5, HPCAL1, CPLX1, PLP1, NRSN1, ATP1A2 y BSG, que mostraron patrones de expresión enriquecidos en los dominios 0 a 6 (Fig. 6e y Fig. 20 complementaria). De manera similar a los análisis anteriores, SPARK y SpatialDE detectaron más SVG, pero muchos de ellos carecían de patrones de expresión espacial (Fig. 6d y Suplementos 21–24).

Discusión

detect SVGs and meta genes that have much clearer spatial expression patterns and biological interpretations than genes detected by 
SpatialDE and SPARK. Additionally, the SpaGCN-detected SVGs 
are transferrable and can be utilized for downstream analyses in 
independent tissue sections. SpaGCN is also computationally 
fast and memory efficient compared to SPARK and SpatialDE 
(Supplementary Note 4).
The spatial domain detection step in SpaGCN is flexible. First, 
SpaGCN can adjust the weight of histology in gene expression 
smoothing. For datasets with clear tissue structure in histology, 
higher weight led to clearer separation of cancer versus noncancer regions. Second, during the GCN fitting procedure, the graph 
weights are updated, which allows SpaGCN to learn an efficient way 
to aggregate gene expression from neighboring spots for each gene. 
For data generated from different platforms, the spatial dependency 
between spots/cells is different as the size of the captured tissue 
area varies. The flexibility in modeling spatial dependency makes 
SpaGCN versatile for different types of SRT data.
A limitation of SpaGCN is that the spatial domain detection is 
mainly driven by gene expression, which may lead to the discrepancy 
between the detected domains and the underlying tissue anatomical structure. This is a general problem for gene expression-based 
clustering methods. Another limitation of SpaGCN is the lack of 
separation of spatial variation and cell type variation in gene expression patterns for the detected SVGs. To address these limitations, 
methods that can jointly consider gene expression and histological 
features in clustering are needed. Further, cell type-specific gene 
expression needs to be estimated to tease out the contribution of cell 
types and spatial location in gene expression variation. We anticipate that methods development along these directions is warranted 
for future research.

En este artículo, presentamos SpaGCN, un método que integra la expresión génica, la ubicación espacial y la información histológica para modelar la dependencia espacial de la expresión génica para identificar dominios espaciales y SVG enriquecidos. SpaGCN ha sido ampliamente probado en conjuntos de datos de diferentes especies, regiones y tejidos generados utilizando diferentes técnicas SRT. En las notas 1 a 3 se presentan análisis adicionales de los datos de ST, SLIDE-seqV2 y MERFISH. Nuestros resultados muestran consistentemente que SpaGCN es capaz de identificar dominios espaciales con expresión génica e histología consistentes, detectando SVG y metagenes con patrones de expresión espacial e interpretaciones biológicas más claras que los genes detectados por SpatialDE y SPARK. Además, los SVG detectados por SpaGCN pueden transferirse en secciones de tejido independientes y usarse para análisis posteriores. En comparación con SPARK y SpatialDE, SpaGCN tiene una velocidad de cálculo rápida y una alta utilización de la memoria (Nota 4).
El paso de detección de dominio espacial en SpaGCN es flexible. Primero, SpaGCN puede ajustar el peso de la histología en el suavizado de la expresión génica. Para conjuntos de datos con estructuras de tejido bien definidas, los pesos más altos conducen a una separación más clara de las regiones cancerosas de las no cancerosas. En segundo lugar, durante el proceso de ajuste de GCN, se actualizan los pesos del gráfico, lo que permite que SpaGCN aprenda una forma eficiente de agregar la expresión génica de cada gen en puntos adyacentes. Para los datos generados desde diferentes plataformas, la dependencia espacial entre punto/célula también es diferente debido al diferente tamaño del área de tejido capturado. La flexibilidad de modelar dependencias espaciales hace que SpaGCN sea adecuado para diferentes tipos de datos SRT.
Una limitación de SpaGCN es que la detección del dominio espacial está impulsada principalmente por la expresión génica, lo que puede dar lugar a discrepancias entre los dominios detectados y la anatomía del tejido subyacente. Este es un problema general con los métodos de agrupamiento basados ​​en la expresión génica. Otra limitación de SpaGCN es la falta de separación de la variación espacial y la variación del tipo de célula en los patrones de expresión génica detectados de SVG. Para hacer frente a estas limitaciones, es necesario desarrollar métodos que puedan considerar simultáneamente la expresión génica y las características histológicas en la agrupación. Además, se requiere la estimación de la expresión génica en tipos de células específicos para distinguir la contribución del tipo de célula y la ubicación espacial a la variación de la expresión génica. Anticipamos que la investigación futura requerirá un mayor desarrollo de métodos en estas direcciones.

Supongo que te gusta

Origin blog.csdn.net/qq_43369406/article/details/131706526
Recomendado
Clasificación