Calcule la incidencia de tumores en la base de datos SEER y trace el gráfico de tendencia de incidencia

Inserte la descripción de la imagen aquí
Ya hemos hablado sobre cómo agrupar aleatoriamente los datos extraídos. Hoy hablaremos sobre cómo usar la base de datos SEER para calcular la tendencia de incidencia. Antes de eso, veamos un artículo de ejemplo
titulado: Incidencia, factores pronósticos y resultado de supervivencia en
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
el El autor de Pacientes con linfoma hepático primario calculó el cambio porcentual anual de la incidencia de 1983 a 2015 y el gráfico de tendencia de incidencia, lo que dejó clara la tendencia de incidencia de un vistazo, lo cual es un elemento adicional. Hablemos sobre cómo extraer datos de incidencia de la base de datos SEER como un artículo y hacer un gráfico de tendencias de incidencia hoy.
Primero abra el software SEERStat, ingrese el número de cuenta para conectarse a la base de datos,
Inserte la descripción de la imagen aquí
luego haga clic en el símbolo en la esquina superior izquierda,
Inserte la descripción de la imagen aquí
y luego se abrirá una nueva interfaz estadística.
Inserte la descripción de la imagen aquí
Haga clic en statisc
Inserte la descripción de la imagen aquí
y seleccione el cuarto en la nueva interfaz.
Inserte la descripción de la imagen aquí
Luego haga clic en la
Inserte la descripción de la imagen aquí
interfaz de selección . Necesitamos establecer la edad, el sexo y el diagnóstico de la enfermedad. Dado que
Inserte la descripción de la imagen aquí
esta vez queremos comparar la incidencia de hombres y mujeres de manera diferente, no usemos la incidencia de cáncer de mama, la incidencia de cáncer de mama porque las mujeres definitivamente alta , ah, esta vez usamos la
Inserte la descripción de la imagen aquí
tabla de incidencia de cáncer de hígado aquí para agregar el sexo
Inserte la descripción de la imagen aquí
y finalmente hacer clic en el ícono del rayo. Puede obtener los datos como se muestra en la figura a continuación, y también se proporciona el APC de 1975-2017. exportarlo y organizarlo.
Inserte la descripción de la imagen aquí
Después de terminar los resultados, podemos analizarlo.
Inserte la descripción de la imagen aquí
Primero importamos el paquete R que necesitamos, ggplot2, splines, rms, Stringr, luego importamos los datos a R y vemos los datos

library(ggplot2)
library(splines)
library(rms)
library(stringr)
be<-read.csv("E:/r/test/fabinglv2.csv",sep=',',header=TRUE)
names(be)

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
"All.year" y "all.Rate" representan el año y la incidencia de cáncer de hígado, y
"año", "sexo" y "Rate" representan el año, el sexo y la incidencia del grupo.
Dibujemos un diagrama de dispersión para ver la estructura de datos.

ggplot(be, aes(be$all.year, be$all.Rate) )+geom_point()#绘制散点图

Inserte la descripción de la imagen aquí
Este gráfico no parece una relación lineal. Ajustemos el modelo. Antes de eso, tenemos que lidiar con la estructura de datos del año, porque no es un tipo de número y no se puede analizar.

be$all.year<-str_extract(be$all.year, "\\d+")#把年龄里面的数字提取出来
be$year<-str_extract(be$year, "\\d+")#把年龄里面的数字提取出来
be$year<-as.numeric(be$year)
be$all.year<-as.numeric(be$all.year)
be$sex<-as.factor(be$sex)
##把它们转成数字类型后就可以分析了
model.spline <- lm(be$all.year ~ rcs(be$all.year))#建立样条回归
summary(model.spline)
##P值小于0.05,可以确定是非线性关系了

Inserte la descripción de la imagen aquí
Comience a dibujar el gráfico, primero dibuje la incidencia total

ggplot(be, aes(be$all.year, be$all.Rate)) +  
  geom_point()+geom_line()+
  stat_smooth(method = lm, formula = y ~ rcs(x,5))

Inserte la descripción de la imagen aquí
Puede embellecer

ggplot(be, aes(be$all.year, be$all.Rate)) +  
  geom_point(shape=21,size=4,col="black",fill="black")+geom_line(linetype=1,size=1)+
  stat_smooth(method = lm, formula = y ~ rcs(x,5)) ##对图形美化

Inserte la descripción de la imagen aquí
Grafique la incidencia de cáncer de hígado en hombres y mujeres por separado

ggplot(be, aes(be$year, be$Rate,group=sex)) +  
  geom_point()+geom_line()+
  stat_smooth(method = lm, formula = y ~ rcs(x,5))

Inserte la descripción de la imagen aquí
Puede embellecerlo
Inserte la descripción de la imagen aquí

La figura está terminada, casi exactamente igual que la figura del documento anterior, e incluso más hermosa. Aquí, 1 es un hombre y 2 es una mujer Se puede ver que la incidencia de cáncer de hígado en los hombres es significativamente mayor.
En este punto de este contenido, tenemos todos los resultados requeridos para los trabajos de SCI. Si estás interesado, puedes usar la base de datos SEER para hacer tu propio artículo. ¿A qué estás esperando?
Si cree que el código en lenguaje R es demasiado engorroso, también hemos resumido un conjunto de tutoriales sobre la minería de bases de datos SEER usando SPSS y stata en el tutorial de investigación científica. Es relativamente simple y bienvenido a suscribirse.
Hay más artículos interesantes disponibles en la cuenta pública: investigación científica de base cero
Inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/dege857/article/details/113931206
Recomendado
Clasificación