Ya hemos hablado sobre cómo agrupar aleatoriamente los datos extraídos. Hoy hablaremos sobre cómo usar la base de datos SEER para calcular la tendencia de incidencia. Antes de eso, veamos un artículo de ejemplo
titulado: Incidencia, factores pronósticos y resultado de supervivencia en
el El autor de Pacientes con linfoma hepático primario calculó el cambio porcentual anual de la incidencia de 1983 a 2015 y el gráfico de tendencia de incidencia, lo que dejó clara la tendencia de incidencia de un vistazo, lo cual es un elemento adicional. Hablemos sobre cómo extraer datos de incidencia de la base de datos SEER como un artículo y hacer un gráfico de tendencias de incidencia hoy.
Primero abra el software SEERStat, ingrese el número de cuenta para conectarse a la base de datos,
luego haga clic en el símbolo en la esquina superior izquierda,
y luego se abrirá una nueva interfaz estadística.
Haga clic en statisc
y seleccione el cuarto en la nueva interfaz.
Luego haga clic en la
interfaz de selección . Necesitamos establecer la edad, el sexo y el diagnóstico de la enfermedad. Dado que
esta vez queremos comparar la incidencia de hombres y mujeres de manera diferente, no usemos la incidencia de cáncer de mama, la incidencia de cáncer de mama porque las mujeres definitivamente alta , ah, esta vez usamos la
tabla de incidencia de cáncer de hígado aquí para agregar el sexo
y finalmente hacer clic en el ícono del rayo. Puede obtener los datos como se muestra en la figura a continuación, y también se proporciona el APC de 1975-2017. exportarlo y organizarlo.
Después de terminar los resultados, podemos analizarlo.
Primero importamos el paquete R que necesitamos, ggplot2, splines, rms, Stringr, luego importamos los datos a R y vemos los datos
library(ggplot2)
library(splines)
library(rms)
library(stringr)
be<-read.csv("E:/r/test/fabinglv2.csv",sep=',',header=TRUE)
names(be)
"All.year" y "all.Rate" representan el año y la incidencia de cáncer de hígado, y
"año", "sexo" y "Rate" representan el año, el sexo y la incidencia del grupo.
Dibujemos un diagrama de dispersión para ver la estructura de datos.
ggplot(be, aes(be$all.year, be$all.Rate) )+geom_point()#绘制散点图
Este gráfico no parece una relación lineal. Ajustemos el modelo. Antes de eso, tenemos que lidiar con la estructura de datos del año, porque no es un tipo de número y no se puede analizar.
be$all.year<-str_extract(be$all.year, "\\d+")#把年龄里面的数字提取出来
be$year<-str_extract(be$year, "\\d+")#把年龄里面的数字提取出来
be$year<-as.numeric(be$year)
be$all.year<-as.numeric(be$all.year)
be$sex<-as.factor(be$sex)
##把它们转成数字类型后就可以分析了
model.spline <- lm(be$all.year ~ rcs(be$all.year))#建立样条回归
summary(model.spline)
##P值小于0.05,可以确定是非线性关系了
Comience a dibujar el gráfico, primero dibuje la incidencia total
ggplot(be, aes(be$all.year, be$all.Rate)) +
geom_point()+geom_line()+
stat_smooth(method = lm, formula = y ~ rcs(x,5))
Puede embellecer
ggplot(be, aes(be$all.year, be$all.Rate)) +
geom_point(shape=21,size=4,col="black",fill="black")+geom_line(linetype=1,size=1)+
stat_smooth(method = lm, formula = y ~ rcs(x,5)) ##对图形美化
Grafique la incidencia de cáncer de hígado en hombres y mujeres por separado
ggplot(be, aes(be$year, be$Rate,group=sex)) +
geom_point()+geom_line()+
stat_smooth(method = lm, formula = y ~ rcs(x,5))
Puede embellecerlo
La figura está terminada, casi exactamente igual que la figura del documento anterior, e incluso más hermosa. Aquí, 1 es un hombre y 2 es una mujer Se puede ver que la incidencia de cáncer de hígado en los hombres es significativamente mayor.
En este punto de este contenido, tenemos todos los resultados requeridos para los trabajos de SCI. Si estás interesado, puedes usar la base de datos SEER para hacer tu propio artículo. ¿A qué estás esperando?
Si cree que el código en lenguaje R es demasiado engorroso, también hemos resumido un conjunto de tutoriales sobre la minería de bases de datos SEER usando SPSS y stata en el tutorial de investigación científica. Es relativamente simple y bienvenido a suscribirse.
Hay más artículos interesantes disponibles en la cuenta pública: investigación científica de base cero