Título
SpaGCN: Integrating gene expression, spatial
location and histology to identify spatial domains
and spatially variable genes by graph
convolutional network
SpaGCN es un método para identificar dominios espaciales y genes espacialmente variables mediante la integración de la expresión génica, la ubicación espacial y la información histológica a través de redes convolucionales de gráficos.
En SpaGCN, combinamos la expresión génica, la ubicación espacial y la información histológica para crear un gráfico que represente la relación entre todos los puntos de los datos. A través de capas convolucionales de gráficos, SpaGCN puede agregar información de expresión génica de puntos vecinos. Luego, SpaGCN utiliza la matriz de expresión agregada para agrupar los puntos usando un algoritmo de agrupamiento iterativo no supervisado, considerando cada grupo como un dominio espacial. A continuación, SpaGCN detecta genes espacialmente variables enriquecidos en dominios específicos mediante análisis de expresión diferencial.
La fortaleza clave de SpaGCN es que considera de manera integral la expresión génica, la ubicación espacial y la información histológica, lo que permite la identificación de dominios espaciales con expresión génica e histología consistentes y la detección de genes espacialmente variables con patrones de expresión espacial claros. En comparación con otros métodos, los genes espacialmente variables detectados por SpaGCN tienen una mejor interpretación biológica y transferibilidad, que pueden utilizarse para futuras investigaciones y análisis.
En general, SpaGCN proporciona una poderosa herramienta para la investigación de transcriptómica espacial al integrar datos de diferentes fuentes de información y aprovechar las redes convolucionales de gráficos, que pueden revelar la variación espacial de la expresión génica en el microambiente tisular y proporcionar una base para una mayor comprensión de los mecanismos celulares. y la patología de la enfermedad proporcionan pistas importantes.
Abstracto
Recent advances in spatially resolved transcriptomics (SRT) technologies have enabled comprehensive characterization
of gene expression patterns in the context of tissue microenvironment. To elucidate spatial gene expression variation, we
present SpaGCN, a graph convolutional network approach that integrates gene expression, spatial location and histology
in SRT data analysis. Through graph convolution, SpaGCN aggregates gene expression of each spot from its neighboring
spots, which enables the identification of spatial domains with coherent expression and histology. The subsequent domain
guided differential expression (DE) analysis then detects genes with enriched expression patterns in the identified domains.
Analyzing seven SRT datasets using SpaGCN, we show it can detect genes with much more enriched spatial expression patterns than competing methods. Furthermore, genes detected by SpaGCN are transferrable and can be utilized to study spatial
variation of gene expression in other datasets. SpaGCN is computationally fast, platform independent, making it a desirable
tool for diverse SRT studies.
Recientemente se han realizado avances significativos en las técnicas de transcriptómica resuelta espacialmente (SRT), que nos permiten describir de manera integral los patrones de expresión génica en microambientes tisulares. Para dilucidar la variación espacial en la expresión génica, proponemos SpaGCN, un enfoque de red convolucional de gráficos que integra la expresión génica, la ubicación espacial y la histología en el análisis de datos SRT. A través de la convolución de gráficos, SpaGCN combina la expresión génica de cada punto con la de sus vecinos, lo que permite la identificación de regiones espaciales con expresión e histología consistentes. El análisis de expresión diferencial (DE) guiado por región posterior puede detectar genes con patrones de expresión enriquecidos en regiones definidas. Al analizar siete conjuntos de datos SRT con SpaGCN, mostramos que es capaz de detectar genes con patrones de expresión espacial más enriquecidos que otros métodos de la competencia. Además, los genes detectados por SpaGCN son transferibles y se pueden utilizar para estudiar la variación espacial de la expresión génica en otros conjuntos de datos. SpaGCN es computacionalmente rápido e independiente de la plataforma, lo que lo convierte en una herramienta ideal para varios estudios de SRT.
Introducción
Recent technological advances in SRT have enabled gene
expression profiling with spatial information in tissues1
.
Knowledge of the relative locations of different cells in a tissue is critical for understanding disease pathology because spatial
information helps in understanding how the gene expression of a
cell is influenced by its surrounding environment. Popular experimental methods for SRT can be broadly classified into two categories. The first category is in situ hybridization or sequencing-based
technologies with single-cell resolution, which includes seqFISH2,3
,
seqFISH+4
, MERFISH5,6
, STARmap7
and FISSEQ8
that measure the
expression level for hundreds to thousands of genes in cells within
their tissue context. The second category is in situ capturing-based
technologies with spatial barcoding followed by sequencing, which
includes spatial transcriptomics (ST)9
, SLIDE-seq10, SLIDE-seqV2
(ref. 11), HDST12 and 10x Visium that measure the expression level
for thousands of genes in captured locations, referred to as spots.
These different SRT technologies have made it possible to uncover
the complex transcriptional architecture of heterogeneous tissues and enhanced our understanding of cellular mechanisms in
diseases13,14.
In SRT studies, an important step is identifying spatial domains defined as regions that are spatially coherent in both gene expres-sion and histology. Traditional clustering methods such as K-means and Louvain’s method15 only take gene expression data as input, and the resulting clusters may not be contiguous due to the lack of consideration of spatial information and histology. To account for spatial dependency of gene expression, new methods have been developed. For example, Zhu et al.16 uses a Hidden-Markov random field (HMRF) approach to model spatial dependency of gene expression; stLearn17 uses features extracted from histology image as
well as expression of neighboring spots spatially to normalize gene
expression data before clustering; BayesSpace18 employs a Bayesian
approach for clustering by imposing a prior that gives higher weight
to physically close spots. Although these methods can cluster spots
or cells into distinct groups, the lack of flexibility with different
modalities has made them less versatile. As newer SRT technologies
continue to be developed19–22, it is desirable to have methods that are
compatible with different SRT platforms.
To link spatial domains with biological functions, it is crucial
to identify genes that show enriched expression in the identified
domains. Methods such as Trendsceek23, SpatialDE24 and SPARK25
have been developed to detect spatially variable genes (SVGs). These
methods examine each gene independently and return a P value to
represent the spatial variability of a gene. However, due to the lack
of consideration of spatial domains, genes detected by these methods do not have guaranteed spatial expression patterns, making it
difficult to utilize these genes for further biological investigations.
Rather than considering spatial domain and SVG identification
as separate problems, we developed SpaGCN, a graph convolutional
network (GCN)-based approach that considers these two problems
jointly. SpaGCN first identifies spatial domains by integrating gene
expression, spatial location and histology through the construction
of an undirected weighted graph that represents the spatial dependency of the data. For each spatial domain, SpaGCN then detects SVGs that are enriched in the domain. By restricting the search
space to spatial domains, the SVGs detected by SpaGCN are guaranteed to have spatial expression patterns. The spatial domains and
the corresponding SVGs provide a comprehensive picture of the
spatial gradients in gene expression in tissue. SpaGCN is versatile
in analyzing many types of SRT data, including ST, 10x Visium,
SLIDE-seqV2, STARmap, and MERFISH.
Los recientes avances tecnológicos en SRT han permitido la elaboración de perfiles de expresión génica con información espacial en los tejidos. Conocer la ubicación relativa de diferentes células en un tejido es fundamental para comprender la patología de la enfermedad, ya que la información espacial ayuda a comprender cómo la expresión génica de una célula se ve afectada por el entorno que la rodea. Los enfoques experimentales populares de SRT se pueden dividir ampliamente en dos categorías. La primera categoría son tecnologías basadas en hibridación in situ o basadas en secuenciación con resolución de una sola célula, incluidas seqFISH, seqFISH+, MERFISH, STARmap y FISSEQ, etc., que pueden medir los niveles de expresión de cientos a miles de genes en las células, y en el análisis dentro de su contexto organizacional. El segundo tipo de tecnología se basa en la captura in situ, utilizando códigos de barras espaciales para la secuenciación, incluida la transcriptómica espacial (ST), SLIDE-seq, SLIDE-seqV2, HDST y 10x Visium, etc., que pueden medir la posición de captura (es decir, niveles de expresión de miles de genes en el lugar). Estas diversas técnicas de SRT nos permiten revelar la compleja estructura del transcriptoma de tejidos heterogéneos y profundizar nuestra comprensión de los mecanismos celulares en la enfermedad.
Un paso importante en los estudios de SRT es la identificación de dominios espaciales, regiones que son espacialmente coherentes en la expresión génica y la histología. Los métodos de agrupamiento tradicionales, como los métodos K-means y Louvain, solo usan datos de expresión génica como entrada, y los resultados del agrupamiento resultante pueden no ser continuos debido a la falta de información espacial y consideraciones histológicas. Para dar cuenta de la dependencia espacial de la expresión génica, se han desarrollado nuevos métodos. Por ejemplo, Zhu y otros utilizaron el método Hidden Markov Random Field (HMRF) para modelar la dependencia espacial de la expresión génica, stLearn utilizó características extraídas de imágenes histológicas y la expresión de puntos vecinos para normalizar en el espacio, BayesSpace a través de Apply a prior to otorgue mayor peso a los puntos físicamente cercanos al agruparse. Si bien estos métodos pueden agrupar puntos o células en distintos grupos, la falta de flexibilidad para las diferentes modalidades limita su aplicabilidad. A medida que continúan desarrollándose nuevas tecnologías SRT, se requieren métodos que sean compatibles con diferentes plataformas SRT.
Para vincular los dominios espaciales a la función biológica, es fundamental identificar los genes cuya expresión se enriquece en dominios definidos. Se han desarrollado varios métodos para detectar genes espacialmente variables (SVG), como Trendsceek, SpatialDE y SPARK. Estos métodos examinan cada gen de forma independiente y devuelven un valor P que representa la variabilidad espacial del gen. Sin embargo, debido a la falta de consideración del dominio espacial, los genes detectados por estos métodos no tienen patrones de expresión espacial garantizados, lo que dificulta el uso de estos genes para estudios biológicos posteriores.
Desarrollamos SpaGCN, un enfoque basado en red convolucional de gráficos (GCN) que considera el reconocimiento del dominio espacial y SVG como un problema conjunto. SpaGCN identifica primero los dominios espaciales mediante la construcción de un gráfico ponderado no dirigido para integrar la expresión génica, la ubicación espacial y la histología. Para cada dominio espacial, SpaGCN detecta los SVG enriquecidos en ese dominio. Al restringir el espacio de búsqueda al dominio espacial, los SVG detectados por SpaGCN tienen patrones de representación espacial garantizados. El dominio espacial y el SVG correspondiente brindan una imagen completa del gradiente espacial de la expresión génica en los tejidos. SpaGCN es adecuado para analizar muchos tipos de datos SRT, incluidos ST, 10x Visium, SLIDE-seqV2, STARmap y MERFISH, etc.
SRT技术分两类根据使用仪器不同为iST和sST,iST是基于in situ hybridization原位杂交,如seqFISH,seqFISH+, MERFISH, STARmap and FISSEQ
ST是基于in situ capturing-based technologies原位捕获技术,如 SLIDE-seq10, SLIDE-seqV2 (ref. 11), HDST12 and 10x Visium。
在SRT研究中分两步后,第一步是identifying spatial domains区分空间域,常用方法有K-means,Louvain但是未考虑空间信息和组织学信息;
常用方法有HMRF,stLearn归一化,BayesSpace加先验增加空间信息,但是缺乏多模态灵活性,兼容性差。
第二步是domains和biological functions联系起来,即在domains中识别enriched expression富集基因。方法如Trendsceek,SpatialDE
和SPARK都用来检测spatially variable genes(SVGs)空间变异基因,用p值来表示基因的空间变异性。但上面的方法缺乏对空间域的考虑。
SpaGCN将domains和detect SVGs联合问题。通过构建undirected weighted graph无向加权图来联合gene expression基因表达, spatial
location空间位置和histology组织学信息,从而识别空间域。
对于每个domains做detect SVGs。该方法适用于多种SRT数据,如ST、10x Visium、SLIDE-seqV2、STARmap和MERFISH等。
la hibridación in situ es iST, centrándose en cientos de genes en la célula
tecnologías basadas en la captura in situ con código de barras espacial código de barras es sST, centrándose en miles de genes en el lugar
tejidos heterogéneos se refiere a diferentes células o grupos de células
Genes de variables espaciales Los genes de variables espaciales se refieren a diferentes genes enriquecidos en diferentes dominios
Resultados / Experimentos
Overview of SpaGCN and evaluation. We explain the workflow
of SpaGCN using in situ capturing-based SRT data as an example,
but the method can be easily modified to analyze other types of SRT
data. As shown in Fig. 1a, SpaGCN first builds a graph to represent
the relationship of all spots considering both spatial location and
histology information. Next, SpaGCN utilizes a graph convolutional
layer to aggregate gene expression information from neighboring
spots. Then, SpaGCN uses the aggregated expression matrix to
cluster spots using an unsupervised iterative clustering algorithm26.
Each cluster is considered as a spatial domain from which SpaGCN
then detects SVGs that are enriched in a domain by DE analysis
(Fig. 1b). When a single gene cannot mark the expression pattern
of a domain, SpaGCN will construct a meta gene, formed by the
combination of multiple genes, to represent the expression pattern
of the domain.
To showcase the strength of SpaGCN, we applied it to seven publicly available datasets (Supplementary Table 1). The spatial domains
identified by SpaGCN agree better with known tissue structures
than Louvain, stLearn, and BayesSpace. We also compared SVGs
detected by SpaGCN with those detected by SpatialDE and SPARK,
and found that the SpaGCN-detected SVGs have more coherent
expression patterns and better biological interpretability than the
other two methods. The specificity of spatial expression patterns
revealed by SpaGCN-detected SVGs were further confirmed by
Moran’s I and Geary’s C statistics27, two commonly used metrics for
quantifying spatial autocorrelation of gene expression28,29.
Resumen y evaluación de SpaGCN. Explicamos el flujo de trabajo de SpaGCN basado en datos SRT in situ basados en captura como ejemplo, pero el método se puede modificar fácilmente para analizar otros tipos de datos SRT. Como se muestra en la Figura 1a, SpaGCN primero construye un gráfico para representar la relación entre todos los puntos, considerando la ubicación espacial y la información histológica. A continuación, SpaGCN utiliza capas convolucionales de gráficos para agregar información de expresión génica de puntos vecinos. Luego, SpaGCN usa la matriz de expresión agregada para agrupar los puntos con un algoritmo de agrupamiento iterativo no supervisado. Cada grupo se consideró como un dominio espacial, a partir del cual SpaGCN detectó SVG enriquecidos en este dominio mediante análisis de expresión diferencial (Fig. 1b). Cuando un solo gen no puede marcar el patrón de expresión de un dominio, SpaGCN construirá un metagen, compuesto por múltiples genes, para representar el patrón de expresión del dominio.
Para demostrar las ventajas de SpaGCN, lo aplicamos a siete conjuntos de datos disponibles públicamente (Tabla complementaria 1). El dominio espacial identificado por SpaGCN es más coherente con la estructura organizativa conocida, en comparación con Louvain, stLearn y BayesSpace. También comparamos los SVG detectados por SpaGCN con los detectados por SpatialDE y SPARK, y descubrimos que los SVG detectados por SpaGCN tienen patrones de expresión más consistentes y una mejor interpretabilidad biológica. La especificidad de los patrones de expresión espacial revelados por los SVG detectados por SpaGCN fue validada aún más por las estadísticas I de Moran y C de Geary, que son indicadores comúnmente utilizados para cuantificar la autocorrelación espacial de la expresión génica.
SpaGCN适用于in situ capturing-based SRT data。首先构建一个graph,这个graph考虑了spatial location空间信息和histology
information组织信息;
然后利用GCL/graph convolutional layer从neighboring spots中聚合gene expression information基因信息,得到一个aggregated expression matrix聚合表达矩阵;
对AEM使用聚类算法聚类,将spot聚类得到domains;
再对单个domain使用DE analysis得到单个SVG,但是当单个基因无法表达区域时,就构建一个meta gene元基因,由多个基因组成来表达domain中的SVG。
识别domains比Louvain, stLearn和BayesSpace更好,ARI更高。
detect SVGs比SpatialDE和SPARK更好,Moran's I和Geary's C统计量更好,这两个统计量用于量化基因表达的空间自相关性。
Application to human primary pancreatic cancer ST data. To
demonstrate the importance of incorporating histology information, we analyzed a human primary pancreatic cancer dataset generated using the ST technology13. This dataset includes 224 spots
and 16,448 genes with three manually annotated tissue regions.
The cancer region detected by Louvain based on gene expression
alone did not closely match the pathologist-annotated cancer region
(Fig. 2a). Spatial clustering methods such as stLearn and BayesSpace
did not detect the cancer region either. SpaGCN revealed a similar pattern when using default parameters. As the histology image
shows a clear difference between the cancer and noncancer regions,
it suggests histology is informative for clustering. SpaGCN has the
flexibility of modeling histology with a scaling parameter s, which
controls the weight given to histology when detecting neighbors
for each spot. By increasing the value of s from 1 to 2, SpaGCN
detected a cluster that agrees well with the manually annotated cancer region. It is worth noting that when s was set at the default value
of 1, SpaGCN detected the noncancer regions well. When s was
increased to 2, SpaGCN not only maintained the ability to detect
the noncancer regions but also detected the cancer region. This
example showed that SpaGCN is flexible in incorporating histology
information in clustering. Although stLearn can incorporate histology data, its use of histology information is pre-fixed by the radius
when defining neighboring spots. The lack of flexibility in adjusting
histology weight led to the discrepancy between their clustering and
the pathologist’s manual annotation.
Next, we detected SVGs using SpaGCN, SPARK and SpatialDE.
In total, SpaGCN detected 12 SVGs, with three, eight and one SVGs
for domains 0, 1 and 2, respectively (Fig. 2b; Supplementary Fig. 1).
Furthermore, a meta gene using KRT17, MMP11 and SERPINA1 marked the cancer region better than the originally identified
KRT17 for domain 2 (Fig. 2c). KRT17 functions as a tumor promoter
and regulates proliferation in pancreatic cancer30, and MMP11 is a
prognostic biomarker for pancreatic cancer31. Our identification of
KRT17 and MMP11 as the two positive genes for the cancer region
agrees well with pancreatic cancer biology. SPARK and SpatialDE
detected 203 and 163 SVGs, with their P or Q values highly skewed
towards 0 (Supplementary Figs. 2 and 3). However, the Moran’s
I and Geary’s C values for their SVGs are much lower than those
detected by SpaGCN, suggesting their lack of spatial patterns
(Fig. 2d). Furthermore, genes with smaller P or Q values do not
necessarily show better spatial expression patterns than those with
larger P or Q values (Supplementary Figs. 4 and 5). More stringent
filtering of spots and genes did not improve the spatial pattern for
SpatialDE and SPARK-detected SVGs (Supplementary Fig. 6).
Aplicado a datos ST de cáncer de páncreas primario humano. Para demostrar la importancia de integrar la información histológica, analizamos un conjunto de datos de cáncer de páncreas primario humano generado con tecnología ST. El conjunto de datos incluye 224 puntos y 16 448 genes con tres regiones de tejido anotadas manualmente. Las regiones cancerosas detectadas por el método de agrupamiento de Louvain basado únicamente en la expresión génica no coincidían exactamente con las regiones cancerosas anotadas por los patólogos. Los métodos de agrupamiento espacial como stLearn y BayesSpace tampoco detectaron regiones cancerosas. SpaGCN revela un patrón similar cuando se usan los parámetros predeterminados. Sin embargo, dado que las imágenes de histología muestran claras diferencias entre las regiones cancerosas y no cancerosas, esto sugiere que la histología es informativa para la agrupación. SpaGCN tiene la flexibilidad de ajustar la histología y puede controlar el peso dado a la histología al detectar vecinos de cada punto a través de parámetros de escala. Al aumentar el valor de s de 1 a 2, un grupo detectado por SpaGCN está en buen acuerdo con las regiones de cáncer anotadas manualmente. Vale la pena señalar que cuando s se establece en el valor predeterminado de 1, SpaGCN también puede detectar bien las regiones no cancerosas. Cuando s aumenta a 2, SpaGCN no solo mantiene la capacidad de detectar regiones no cancerosas, sino que también detecta regiones cancerosas. Este ejemplo demuestra la flexibilidad de SpaGCN para integrar información histológica en el agrupamiento. Si bien stLearn puede integrar datos histológicos, la información histológica que utiliza al definir puntos vecinos está prefijada por el radio. La imposibilidad de ajustar los pesos histológicos dio lugar a discrepancias entre los resultados de la agrupación y las anotaciones manuales del patólogo.
A continuación, detectamos SVG usando SpaGCN, SPARK y SpatialDE. En total, SpaGCN detectó 12 SVG, entre los cuales 3, 8 y 1 SVG se distribuyeron en los dominios 0, 1 y 2, respectivamente (Fig. 2b; Fig. 1 complementaria). Además, los metagenes construidos con KRT17, MMP11 y SERPINA1 marcaron mejor las regiones cancerosas que KRT17 identificado inicialmente en el dominio 2 (Fig. 2c). KRT17 funciona como promotor de tumores y regula la proliferación en el cáncer de páncreas, mientras que MMP11 es un biomarcador de pronóstico en el cáncer de páncreas. Nuestro hallazgo de KRT17 y MMP11 como dos genes positivos en regiones cancerosas encaja bien con la biología del cáncer de páncreas. SPARK y SpatialDE detectan 203 y 163 SVG cuyos valores de P o Q están muy sesgados alrededor de 0. Sin embargo, los valores de Moran's I y Geary's C de sus SVG son mucho más bajos que los detectados por SpaGCN, lo que indica que carecen de patrones espaciales. Además, los genes con valores de P o valores de Q más pequeños no muestran necesariamente mejores patrones de expresión espacial que los genes con valores de P o valores de Q más grandes. Para los SVG detectados por SpatialDE y SPARK, el filtrado de puntos y genes más estricto no mejoró los patrones espaciales.
Application to human dorsolateral prefrontal cortex 10x Visium
data. To show quantitatively that SpaGCN outperforms Louvain,
stLearn and BayesSpace in spatial domain detection, we analyzed
the LIBD human dorsolateral prefrontal cortex (DLPFC) data generated using 10x Visium32. This study sequenced 12 tissue slices that
span six neuronal layers plus white matter from the DLPFC in three
human brains. The manual annotation of the tissue layers provided
by the original study allows us to evaluate the accuracy of spatial
domain detection. Figure 3a shows that for the representative tissue slice 151673, both SpaGCN and BayesSpace revealed spatial
domains that agree better with the manually annotated tissue layers
than Louvain. Although stLearn utilized histology information, its
performance is not much better than Louvain and is substantially
worse than SpaGCN and BayesSpace. The relative performance
of these methods remains the same when considering all 12 slices
(Fig. 3b and Supplementary Table 2); the median ARI is 0.36 for
stLearn, 0.42 for BayesSpace and 0.45 for SpaGCN.
To validate further the identified spatial domains, we detected
SVGs for each domain in slice 151673. In total, SpaGCN detected
67 SVGs, with 53 of them being specific to domain 5, which corresponds to white matter (Supplementary Fig. 7). Patterns of SVGs
for other domains are not very clear. These results indicate that
gene expression profiles of spots from white matter are distinct
from spots in the neuronal layers, while gene expression differences
among the six neuronal layers are much smaller and more difficult to distinguish using individual marker genes. SVGs detected
by SPARK and SpatialDE also suffered from the same problem.
SPARK detected 3,187 SVGs with 1,131 of them having false discovery rate (FDR)-adjusted P values equal to 0, most of which
only marked the white matter region (Supplementary Figs. 8 and
9). We also found that the SVGs detected by SPARK lack domain
specificity (Supplementary Fig. 10). SpatialDE detected 3,654 SVGs
with 806 of them having Q values equal to 0, but these genes do
not necessarily show better spatial patterns than genes with larger
Q values (Supplementary Fig. 11). Although SPARK and SpatialDE
detected much larger numbers of SVGs than SpaGCN, the genes
detected by these two methods cannot distinguish different degrees
of spatial expression variability as their P or Q value distributions
are highly skewed towards 0. Figure 3c shows that the Moran’s I values for SpaGCN-detected SVGs are significantly higher than genes
detected by SpatialDE and SPARK (median of 0.39 for SpaGCN
against 0.09 for SPARK and 0.08 for SpatialDE). More stringent
filtering of spots and genes did not improve the performance of
SpatialDE and SPARK (Supplementary Fig. 12). For three out of the
six neuronal layers, SpaGCN detected a single SVG to mark that
region (Fig. 3d). For example, CAMK2N1 is enriched in domain 0
(layers 1 and 2), PCP4 is enriched in domain 1 (layer 4) and NEFM
is enriched in domain 3 (layer 3).
To show that SpaGCN-detected SVGs are useful for downstream
analysis, we performed K-means clustering on slice 151507, which is from a different brain, using all 67 SVGs detected from slice
151673 by SpaGCN. Compared with manually curated layer assignment, this clustering analysis had a Adjusted Rand Index (ARI) of
0.23 (Fig. 3e,f). We performed similar analysis using SVGs detected
by SpatialDE and SPARK. When randomly selecting 67 SVGs with
0 P or Q value from genes detected by SpatialDE/SPARK, the ARI is
only 0.13 for SpatialDE and 0.14 for SPARK. The ARIs for SpatialDE
and SPARK did not improve even with increased numbers of SVGs
(Fig. 3e). These results further confirmed the lack of spatial patterns
for genes detected by SPARK and SpatialDE.
Although it is difficult to identify single genes to mark certain
neuronal layers, SpaGCN was able to find domain-specific meta
genes. As shown in Fig. 3g, SpaGCN detected meta genes for
domains 1, 2, 4 and 6. The meta gene for domain 2 is specific to layer 1. As layer 1 only has a few spots, it is difficult to find a highly
enriched gene. However, by adding depleted genes such as FTH1,
MBP, MT-CO3 and PLP1, the expression pattern in this region is
strengthened. Furthermore, the SVGs and meta genes detected by
SpaGCN are transferrable to slice 151507 obtained from a different brain, in which the meta genes detected in slice 151673 mark
the same layers in slice 151507 (Fig. 3g and Supplementary Fig. 13).
Datos de Visium 10x aplicados a la corteza prefrontal dorsolateral humana (DLPFC). Para demostrar cuantitativamente que SpaGCN supera a Louvain, stLearn y BayesSpace en la detección de dominio espacial, analizamos los datos de DLPFC humanos LIBD generados con la tecnología Visium 10x. El estudio secuenció 12 secciones de tejido de seis capas neuronales de DLPFC y materia blanca de tres cerebros humanos. Las anotaciones manuales a nivel de tejido proporcionadas por el estudio original nos permitieron evaluar la precisión de la detección del dominio espacial. La Figura 3a muestra que para el corte de tejido representativo 151673, los dominios espaciales revelados por SpaGCN y BayesSpace son más consistentes con los niveles de tejido anotados manualmente, mientras que Louvain no funciona tan bien como ellos. Aunque stLearn utiliza información histológica, su rendimiento no es mucho mejor que el de Louvain y está muy por detrás de SpaGCN y BayesSpace. El rendimiento relativo de los métodos sigue siendo el mismo cuando se consideran los 12 cortes (Fig. 3b y Tabla complementaria 2), el ARI medio es 0,36 para stLearn, 0,42 para BayesSpace y 0,45 para SpaGCN.
Para validar aún más los dominios espaciales identificados, detectamos SVG para cada dominio en el segmento 151673. En total, SpaGCN detectó 67 SVG, 53 de los cuales eran específicos del dominio 5, correspondiente a la sustancia blanca (Figura 7 complementaria). Los patrones para SVG en otros dominios son menos claros. Estos resultados sugieren que los perfiles de expresión génica de las manchas en la materia blanca difieren de las manchas en las capas neuronales, mientras que las diferencias de expresión génica entre las seis capas neuronales son mucho más pequeñas y más difíciles de distinguir usando un solo gen marcador. Los SVG detectados por SPARK y SpatialDE tienen el mismo problema. SPARK detectó 3187 SVG, de los cuales 1131 tenían valores de P ajustados por FDR iguales a 0, la mayoría de los cuales solo etiquetaron regiones de materia blanca (Figuras complementarias 8 y 9). También encontramos que los SVG detectados por SPARK carecen de propiedades específicas del dominio (Figura 10 complementaria). SpatialDE detectó 3654 SVG, de los cuales 806 tenían valores de Q iguales a 0, pero los patrones espaciales de estos genes no eran necesariamente mejores que aquellos con valores de Q más grandes (Fig. 11). Aunque SPARK y SpatialDE detectan muchos más SVG que SpaGCN, los genes detectados por estos dos métodos no pueden distinguir diferentes grados de variación de expresión espacial porque sus distribuciones de valores P o Q están muy sesgadas alrededor de 0. La Figura 3c muestra que el valor de Moran I de los SVG detectados por SpaGCN es significativamente mayor que el de los genes detectados por SpatialDE y SPARK (mediana de 0,39 para SpaGCN, 0,09 para SPARK y 0,08 para SpatialDE). Un filtrado más estricto de manchas y genes no mejoró el rendimiento de SpatialDE y SPARK (Fig. 12). Para tres de las seis capas de neuronas, SpaGCN detecta un solo SVG para etiquetar la región (Fig. 3d). Por ejemplo, CAMK2N1 está enriquecido en el dominio 0 (capas 1 y 2), PCP4 en el dominio 1 (capa 4) y NEFM en el dominio 3 (capa 3).
Para demostrar la utilidad de los SVG detectados por SpaGCN en el análisis posterior, realizamos un agrupamiento de K-means en el segmento 151507, que es de otro cerebro, utilizando los 67 SVG detectados por SpaGCN del segmento 151673. En comparación con las asignaciones de estrato etiquetadas manualmente, el índice Rand ajustado (ARI) para este análisis de conglomerados fue de 0,23 (Fig. 3e, f). Realizamos un análisis similar utilizando SVG detectados por SpatialDE y SPARK. Al seleccionar aleatoriamente 67 SVG con 0 valores P o valores Q en genes detectados por SpatialDE/SPARK, el ARI de SpatialDE es solo 0,13 y el de SPARK es 0,14. Incluso aumentando el número de SVG, el ARI de SpatialDE y SPARK no mejora (Fig. 3e). Estos resultados confirman aún más la falta de patrones espaciales en los genes detectados por SPARK y SpatialDE.
Si bien es difícil identificar genes individuales para marcar capas neuronales específicas, SpaGCN puede encontrar metagenes específicos de dominio. Como se muestra en la Figura 3g, SpaGCN detectó metagenes de los dominios 1, 2, 4 y 6. Los metagenes del dominio 2 son específicos de la capa 1. Dado que la capa 1 tiene solo unas pocas manchas, es difícil encontrar genes altamente enriquecidos. Sin embargo, el patrón de expresión en esta región mejoró con la adición de genes agotados como FTH1, MBP, MT-CO3 y PLP1. Además, los SVG y los metagenes detectados por SpaGCN podrían transferirse al corte 151507 obtenido de otro cerebro donde los metagenes detectados por SpaGCN marcaron la misma capa (Fig. 3g y Fig. 13 complementaria).
Application to mouse posterior brain 10x Visium data. Next,
we analyzed a 10x Visium dataset generated from mouse posterior brain that includes 3,353 spots and 31,053 genes33. This dataset shows much more complex tissue structure than the previous
two datasets. We compared the clustering result of SpaGCN with
Louvain, stLearn and BayesSpace when the number of clusters was
set at ten for all methods. Figure 4a shows that Louvain’s clustering is similar to stLearn, BayesSpace and SpaGCN, but the spatial
domains detected by the latter three methods are more spatially
contiguous due to their ability to account for spatial dependency of
gene expression.
We further investigated the ability of each method in detecting
more refined tissue structure. Specifically, we performed subclustering analysis for spots in domain 5 detected by SpaGCN, which
corresponds to the cortex (Fig. 4b). The subdomains detected by
SpaGCN agree well with the Allen Brain Institute reference atlas
diagram of the mouse cortex (Fig. 4c). The detected subdomains
include layers 2/3, layers 4/5, layer 6, a hippocampal region (CA1)
and the subiculum. Layers 2/3 are the ‘external’ cortical layers that
are biologically responsible for local networks in which neurons in
this subdomain communicate to other neurons in adjacent neocortical regions. Layers 4/5 are the ‘internal’ cortical layers that are biologically responsible for longer range neural networks. For example,
the visual cortex, which corresponds to the neocortical region, is
responsible for receiving visual information from the lateral geniculate nucleus that is far away. SpaGCN was able to separate the
molecular (layer 1), external (layers 2/3), internal (layers 4/5) and
the plexiform (6) layers. More importantly, SpaGCN outperformed
Louvain and stLearn, which show combining of neocortical layers.
SpaGCN also outperformed BayesSpace in distinguishing between
the plexiform layer (subdomain 1) and the non-neocortical CA1
region of the hippocampus (subdomain 3). In contrast, BayesSpace
combined layer 6 of the neocortex with the non-neocortical CA1
layer of the hippocampus.
Next, we compared SpaGCN with SPARK and SpatialDE for
SVG detection. SpaGCN detected 1,028 SVGs for the ten spatial
domains while SPARK and SpatialDE detected 9,678 and 12,676
SVGs, respectively (Supplementary Fig. 14). As shown in Fig. 4d,
the Moran’s I values of SpaGCN-detected SVGs are much higher
than those detected by SPARK and SpatialDE (median of 0.54 for
SpaGCN against 0.20 for SPARK and 0.16 for SpatialDE). More
stringent filtering of spots and genes did not improve the performance of SPARK and SpatialDE (Supplementary Fig. 15). The
P or Q value distributions of SpatialDE and SPARK are highly skewed towards 0 (Supplementary Fig. 16), and genes with similar P or Q values do not necessarily show similar spatial patterns
and a smaller P or Q value does not guarantee a better spatial pattern (Supplementary Figs. 17 and 18). In contrast, multiple domain
adaptive filtering criteria implemented in SpaGCN allow it to eliminate false positive SVGs and ensure all detected SVGs have clear
spatial expression patterns.
To illustrate how the filtering in SpaGCN works, we use domains
1, 5 and 8 as an example. For each of these domains, SpaGCN
detected a single SVG enriched in that region. As shown in Fig. 4e,
PVALB is enriched in domain 1 and TRM62 is enriched in domain
8. Although domains 1 and 8 are adjacent to each other, these
two SVGs can still well mark these domains. NRGN is a SVG that
SpaGCN detected for domains 5 and 7. The high expression of
NRGN in domains 5 and 7 also indicates that these two domains are
neuroanatomically similar—both consisting of cortex and the pyramidal layer of the hippocampus. Both the cortex and hippocampus
are regions that are on the curved surface of the brain. Domains
5 and 7, which would be contiguous in a three-dimensional (3D)
reconstruction, are artifactually separated as a result of how the section was cut. Therefore, it is not surprising that in addition to NRGN,
SpaGCN also detected many other SVGs for domains 5 and 7, some
of which are highly expressed in both domains (Supplementary
Fig. 19). The unique and powerful SVG detection procedure in
SpaGCN ensures that genes such as these are not missed.
SpaGCN only identified four SVGs for domain 0. However, we
reason that a meta gene, formed by the combination of multiple
genes, may better reveal spatial patterns than any single genes. We
used domain 0 as an example to show how SpaGCN can create
informative meta genes to mark a spatial domain (Fig. 4f). First, by
lowering the filtering thresholds, SpaGCN identified KLK6 which
is highly expressed in the lower part of domain 0. Using KLK6 as a
starting gene, SpaGCN used a novel approach to find a log-linear
combination of gene expression of KLK6, MBP and ATP1B1, which
accurately marked the spatial domain 0. In this meta gene, KLK6
and MBP are considered as positive markers because they are
highly expressed in some spots in domain 0, whereas ATP1B1 is
considered a negative marker as it is mainly expressed in regions
other than domain 0. Previous studies have shown that KLK6 and
MBP expression is restricted to oligodendrocytes, while ATP1B1 is
mainly expressed in neurons and astrocytes34. This resonates with
the fact that domain 0 represents white matter which is dominated
by oligodendrocytes and has few neuronal cell bodies. Therefore,
the genes that make up this meta gene have meaningful biological
interpretations. While we focused our analyses on one tissue section, SpaGCN
can also jointly analyze multiple tissue sections. We show two examples using this mouse brain Visium data provided by 10x Genomics.
Figure 5a shows SpaGCN clustering results for two mouse posterior sections. As these two tissue sections are from the same region,
SpaGCN was able to infer cluster correspondence between the two
tissue sections. Next, we used SpaGCN to analyze jointly two tissue sections with one from the mouse posterior brain and the other
from the mouse anterior brain. As the anterior section and posterior section are adjacent in the brain, we modified the coordinates
for spots in the posterior section such that the revised coordinates
reflect the spatial adjacency of the two tissue sections. Using the
modified coordinates as input, SpaGCN was able to produce clustering results that reflect the shared layer structure in the anterior
and posterior brain (Fig. 5b).
A continuación, analizamos el conjunto de datos Visium 10x obtenido del cerebro posterior del ratón, que contiene 3353 puntos y 31 053 genes. Este conjunto de datos exhibe una estructura organizativa más compleja que los dos conjuntos de datos anteriores. Comparamos los resultados de agrupamiento de SpaGCN con Louvain, stLearn y BayesSpace al establecer el número de grupos en diez para todos los métodos. La Figura 4a muestra que los resultados de agrupamiento de Louvain son similares a los de stLearn, BayesSpace y SpaGCN, pero los dominios espaciales detectados por los últimos tres métodos son más continuos debido a la consideración de la dependencia espacial de la expresión génica.
Investigamos más a fondo la capacidad de cada método para detectar estructuras de tejido más finas. Específicamente, subagrupamos las manchas detectadas por SpaGCN en el dominio 5, que corresponde a la corteza (Fig. 4b). Los subdominios detectados por SpaGCN estaban en buen acuerdo con la corteza del ratón en el atlas de referencia del Allen Brain Institute (Fig. 4c). Los subdominios detectados incluyeron capa 2/3, capa 4/5, capa 6, hipocampo (CA1) y subículo. Las capas 2/3 son las capas corticales "externas", biológicamente responsables de la red local en la que las neuronas de este subcampo se comunican con otras neuronas en áreas neocorticales adyacentes. Las capas 4/5 son las capas corticales "internas", biológicamente responsables de las redes neuronales de mayor alcance. Por ejemplo, la corteza visual corresponde al área neocortical responsable de recibir información visual del núcleo geniculado lateral distante. SpaGCN es capaz de distinguir capas moleculares (capa 1), capas externas (capas 2/3), capas internas (capas 4/5) y capas plexiformes (capa 6). Más importante aún, SpaGCN supera a Louvain y stLearn en la discriminación de capas corticales, que muestran una mezcla de capas corticales. SpaGCN también supera a BayesSpace al distinguir entre la capa plexiforme (subdominio 1) y la región CA1 del hipocampo (subdominio 3). Por el contrario, BayesSpace combina la capa cortical 6 con la capa no cortical CA1 del hipocampo.
A continuación, comparamos SpaGCN con SPARK y SpatialDE para la detección de SVG. SpaGCN detectó 1.028 SVG en diez dominios espaciales, mientras que SPARK y SpatialDE detectaron 9.678 y 12.676 SVG, respectivamente (Fig. 14). Como se muestra en la Figura 4d, los valores de SVG de Moran I detectados por SpaGCN son mucho más altos que los detectados por SPARK y SpatialDE (mediana de 0,54 para SpaGCN, 0,20 para SPARK y 0,16 para SpatialDE). Un filtrado más estricto de manchas y genes no mejoró el rendimiento de SPARK y SpatialDE (Fig. 15). Las distribuciones de los valores de P o Q para SpatialDE y SPARK están muy sesgadas alrededor de 0 (Figura 16 complementaria), los genes con valores de P o Q similares no necesariamente muestran patrones espaciales similares, y los valores de P o Q más pequeños sí lo hacen. no garantiza mejor El patrón espacial de (Figuras 17 y 18). Por el contrario, el criterio de filtrado adaptativo multidominio implementado en SpaGCN le permite eliminar los SVG falsos positivos y garantizar que todos los SVG detectados tengan patrones de expresión espacial claros.
Para ilustrar cómo funciona el filtrado en SpaGCN, tomamos los dominios 1, 5 y 8 como ejemplos. Para cada uno de estos dominios, SpaGCN detectó un solo SVG enriquecido en esa región. Como se muestra en la Figura 4e, PVALB se enriqueció en el dominio 1 y TRM62 en el dominio 8. Aunque los dominios 1 y 8 están uno al lado del otro, estos dos SVG todavía marcan bien los dominios. NRGN es el SVG detectado por SpaGCN para los dominios 5 y 7. La alta expresión de NRGN en los dominios 5 y 7 también sugiere que estos dos dominios son neuroanatómicamente similares, ambos incluyen capas piramidales corticales y del hipocampo. Tanto la corteza como el hipocampo son regiones que se encuentran en la superficie curva del cerebro. Los dominios 5 y 7 son continuos en la reconstrucción 3D, pero en realidad están separados debido a la forma en que se cortan los cortes. Por lo tanto, no solo NRGN, SpaGCN también detectó muchos otros SVG para los dominios 5 y 7, algunos de los cuales se expresaron altamente en estos dos dominios (Figura 19 complementaria). El exclusivo y sólido proceso de detección de SVG en SpaGCN garantiza que no se pasen por alto dichos genes.
SpaGCN solo identifica cuatro SVG para el dominio 0. Sin embargo, argumentamos que los metagenes formados por combinaciones de múltiples genes pueden revelar patrones espaciales mejor que cualquier gen único. Usando el dominio 0 como ejemplo, mostramos cómo SpaGCN crea metagenes informativos para etiquetar dominios espaciales (Fig. 4f). En primer lugar, al reducir el umbral de filtrado, SpaGCN identificó KLK6, que se expresa mucho en la parte inferior del dominio 0. Usando KLK6 como el gen inicial, SpaGCN empleó un enfoque novedoso para encontrar una combinación logarítmica lineal de la expresión génica de KLK6, MBP y ATP1B1, que etiqueta con precisión el dominio espacial 0. En este metagén, KLK6 y MBP se consideraron marcadores positivos porque se expresan mucho en ciertos puntos del dominio 0, mientras que ATP1B1 se consideró un marcador negativo porque se expresa principalmente en regiones que no pertenecen al dominio 0. Estudios previos han demostrado que la expresión de KLK6 y MBP está restringida a los oligodendrocitos, mientras que ATP1B1 se expresa principalmente en neuronas y astrocitos. Esto es consistente con el hecho de que el dominio 0 representa la sustancia blanca, que está dominada por oligodendrocitos con pocos cuerpos celulares neuronales. Por lo tanto, los genes que componen este metagen tienen interpretaciones biológicas significativas. Aunque nuestro análisis se centra en un solo corte de tejido, SpaGCN también puede analizar conjuntamente varios cortes de tejido. Mostramos dos ejemplos utilizando estos datos Visium de cerebro de ratón proporcionados por 10x Genomics. La Figura 5a muestra los resultados del agrupamiento de SpaGCN de dos cortes de cerebro posterior de ratón. Dado que estos dos cortes de tejido son de la misma región, SpaGCN puede inferir la correspondencia de grupos entre los dos cortes de tejido. A continuación, analizamos conjuntamente una sección de tejido del cerebro posterior del ratón y otra sección de tejido del cerebro anterior del ratón utilizando SpaGCN. Dado que el prosencéfalo y el rombencéfalo son adyacentes en el cerebro, modificamos las coordenadas de los puntos en las rebanadas de tejido del rombencéfalo para que las coordenadas modificadas reflejen la adyacencia espacial de las dos rebanadas de tejido. Usando las coordenadas modificadas como entrada, SpaGCN pudo producir resultados de agrupamiento que reflejaban la estructura de capas compartida por el cerebro anterior y posterior (Fig. 5b).
Application to mouse visual cortex STARmap data. Finally, we
analyzed a STARmap dataset that has single-cell resolution7
. This
dataset was generated from mouse visual cortex that spans from
hippocampus to corpus callosum, and the six neocortical layers. In total, 1,020 genes were measured in 1,207 cells that include
non-neuronal cells, excitatory and inhibitory neurons. The layer
structure and cell type distribution of the tissue section provided
by the original study are shown in Fig. 6a. As the tissue capture area
of STARmap is much smaller than 10x Visium, we increased the
contribution of neighboring cells from 0.5 to 1 when calculating
the weighted gene expression of each cell in SpaGCN. Using this
approach, SpaGCN detected spatial domains that agreed well with
the annotated tissue structure (Fig. 6a,c), achieving an ARI of 0.51.
By contrast, the ARIs of the other methods are much lower (0.30 for
Louvain, 0.37 for BayesSpace and 0.03 for HMRF) (Fig. 6b). This
example demonstrates that SpaGCN utilizes spatial information
more efficiently than BayesSpace and HMRF. Using SpaGCN, we
further detected 25 SVGs including genes LAMP5, HPCAL1, CPLX1,
PLP1, NRSN1, ATP1A2 and BSG that showed enriched expression
patterns for domains 0 to 6 (Fig. 6e and Supplementary Fig. 20).
Similar to previous analyses, SPARK and SpatialDE detected much
larger number of SVGs but many of the SVGs lack spatial expression
patterns (Fig. 6d and Supplementary Figs. 21–24).
Finalmente, analizamos un conjunto de datos STARmap con resolución de una sola celda. El conjunto de datos se obtuvo de la corteza visual del ratón, que abarca desde el hipocampo hasta el cuerpo calloso y seis capas neocorticales. En total, se midieron 1020 genes en 1207 células, incluidas células no neuronales, neuronas excitatorias y neuronas inhibidoras. La estructura de capas y la distribución de tipos de células de las secciones de tejido proporcionadas por el estudio original se muestran en la Fig. 6a. Dado que el área de captura de tejido de STARmap es mucho más pequeña que 10x Visium, aumentamos la contribución de las células vecinas de 0,5 a 1 al calcular la expresión génica ponderada de cada célula en SpaGCN. Usando este enfoque, los dominios espaciales detectados por SpaGCN están en buen acuerdo con la estructura organizacional anotada (Fig. 6a, c), con un ARI de 0.51. Por el contrario, el ARI de otros métodos es mucho más bajo (0,30 para Louvain, 0,37 para BayesSpace y 0,03 para HMRF) (Fig. 6b). Este ejemplo demuestra que SpaGCN utiliza la información espacial de manera más efectiva que BayesSpace y HMRF. Usando SpaGCN, detectamos además 25 SVG, incluidos los genes LAMP5, HPCAL1, CPLX1, PLP1, NRSN1, ATP1A2 y BSG, que mostraron patrones de expresión enriquecidos en los dominios 0 a 6 (Fig. 6e y Fig. 20 complementaria). De manera similar a los análisis anteriores, SPARK y SpatialDE detectaron más SVG, pero muchos de ellos carecían de patrones de expresión espacial (Fig. 6d y Suplementos 21–24).
Discusión
detect SVGs and meta genes that have much clearer spatial expression patterns and biological interpretations than genes detected by
SpatialDE and SPARK. Additionally, the SpaGCN-detected SVGs
are transferrable and can be utilized for downstream analyses in
independent tissue sections. SpaGCN is also computationally
fast and memory efficient compared to SPARK and SpatialDE
(Supplementary Note 4).
The spatial domain detection step in SpaGCN is flexible. First,
SpaGCN can adjust the weight of histology in gene expression
smoothing. For datasets with clear tissue structure in histology,
higher weight led to clearer separation of cancer versus noncancer regions. Second, during the GCN fitting procedure, the graph
weights are updated, which allows SpaGCN to learn an efficient way
to aggregate gene expression from neighboring spots for each gene.
For data generated from different platforms, the spatial dependency
between spots/cells is different as the size of the captured tissue
area varies. The flexibility in modeling spatial dependency makes
SpaGCN versatile for different types of SRT data.
A limitation of SpaGCN is that the spatial domain detection is
mainly driven by gene expression, which may lead to the discrepancy
between the detected domains and the underlying tissue anatomical structure. This is a general problem for gene expression-based
clustering methods. Another limitation of SpaGCN is the lack of
separation of spatial variation and cell type variation in gene expression patterns for the detected SVGs. To address these limitations,
methods that can jointly consider gene expression and histological
features in clustering are needed. Further, cell type-specific gene
expression needs to be estimated to tease out the contribution of cell
types and spatial location in gene expression variation. We anticipate that methods development along these directions is warranted
for future research.
En este artículo, presentamos SpaGCN, un método que integra la expresión génica, la ubicación espacial y la información histológica para modelar la dependencia espacial de la expresión génica para identificar dominios espaciales y SVG enriquecidos. SpaGCN ha sido ampliamente probado en conjuntos de datos de diferentes especies, regiones y tejidos generados utilizando diferentes técnicas SRT. En las notas 1 a 3 se presentan análisis adicionales de los datos de ST, SLIDE-seqV2 y MERFISH. Nuestros resultados muestran consistentemente que SpaGCN es capaz de identificar dominios espaciales con expresión génica e histología consistentes, detectando SVG y metagenes con patrones de expresión espacial e interpretaciones biológicas más claras que los genes detectados por SpatialDE y SPARK. Además, los SVG detectados por SpaGCN pueden transferirse en secciones de tejido independientes y usarse para análisis posteriores. En comparación con SPARK y SpatialDE, SpaGCN tiene una velocidad de cálculo rápida y una alta utilización de la memoria (Nota 4).
El paso de detección de dominio espacial en SpaGCN es flexible. Primero, SpaGCN puede ajustar el peso de la histología en el suavizado de la expresión génica. Para conjuntos de datos con estructuras de tejido bien definidas, los pesos más altos conducen a una separación más clara de las regiones cancerosas de las no cancerosas. En segundo lugar, durante el proceso de ajuste de GCN, se actualizan los pesos del gráfico, lo que permite que SpaGCN aprenda una forma eficiente de agregar la expresión génica de cada gen en puntos adyacentes. Para los datos generados desde diferentes plataformas, la dependencia espacial entre punto/célula también es diferente debido al diferente tamaño del área de tejido capturado. La flexibilidad de modelar dependencias espaciales hace que SpaGCN sea adecuado para diferentes tipos de datos SRT.
Una limitación de SpaGCN es que la detección del dominio espacial está impulsada principalmente por la expresión génica, lo que puede dar lugar a discrepancias entre los dominios detectados y la anatomía del tejido subyacente. Este es un problema general con los métodos de agrupamiento basados en la expresión génica. Otra limitación de SpaGCN es la falta de separación de la variación espacial y la variación del tipo de célula en los patrones de expresión génica detectados de SVG. Para hacer frente a estas limitaciones, es necesario desarrollar métodos que puedan considerar simultáneamente la expresión génica y las características histológicas en la agrupación. Además, se requiere la estimación de la expresión génica en tipos de células específicos para distinguir la contribución del tipo de célula y la ubicación espacial a la variación de la expresión génica. Anticipamos que la investigación futura requerirá un mayor desarrollo de métodos en estas direcciones.