Análise de dados R: métodos e avaliação da construção de modelos preditivos para dados de sobrevivência

Já escrevi sobre o nomograma de análise de sobrevivência. O nomograma é uma ferramenta de visualização de modelo preditivo. O processo que usamos é, na verdade, um processo de fazer previsões para novos dados. O modelo interno em si é um modelo preditivo que treinamos com base nos dados existentes. Hoje também é uma continuação do artigo anterior para continuar escrevendo a avaliação do efeito do modelo preditivo para análise de sobrevivência.

A diferença entre o modelo de previsão de dados de sobrevivência e o modelo de previsão de resultado variável contínua e resultado categórico que escrevemos antes é que temos que considerar os fatores de censura e tempo dos dados de sobrevivência. Por meio desse modelo de previsão, nosso objetivo esperado é ajudar os médicos a responder a probabilidade de sobrevivência de um paciente específico em um determinado momento . Nessa perspectiva, temos uma âncora para o padrão de avaliação e avaliação do modelo.

Assim, os modelos de previsão de sobrevivência diferem dos modelos de previsão tradicionais para resultados contínuos ou binários, acomodando adequadamente a censura presente nos dados de tempo até o evento. Essa probabilidade prevista pode ser usada pelos médicos para tomar decisões importantes sobre o atendimento ao paciente

Por exemplo, coletei um grande conjunto de dados representativos de um determinado paciente com câncer e aprendi um modelo de previsão por meio de meus dados e, em seguida, um novo paciente com câncer, o modelo pode me dizer quanto tempo esse paciente pode viver.

Se os novos dados tiverem rótulos, podemos avaliar os prós e contras do modelo comparando os rótulos reais (a probabilidade de sobrevivência em um momento específico) com os resultados da previsão do modelo (a probabilidade de sobrevivência prevista em um momento específico). Os modelos preditivos para logístico e convencional (desfechos categóricos e contínuos) permaneceram os mesmos.

Revisitar a análise de sobrevivência primeiro

Falta ainda rever os termos comuns na análise de sobrevivência:

Nossa variável de resultado tem dois níveis, um é de eventos e o outro é de censura; entretanto, esse resultado também depende de uma variável de tempo.

Acabei de escrever que estamos prevendo os dados de sobrevivência, e a resposta é que estamos prevendo a probabilidade de que um evento ocorra em um determinado momento  .----a probabilidade de um evento ocorrer em um determinado momento. Portanto, neste momento, os indicadores do modelo de avaliação convencional não são fáceis de usar.

Devido à presença da censura nos dados de sobrevivência, as métricas de avaliação padrão para regressão, como a raiz do erro quadrático médio e ܴ R2, não são adequadas para medir o desempenho na análise de sobrevivência.

Para o modelo de previsão de dados de sobrevivência, existem três indicadores para avaliar o modelo neste momento: índice de concordância (índice C), pontuação de Brier e erro absoluto médio. A tarefa de hoje é conduzir todos, um por um, na esperança de ajudá-lo a entender por que esses indicadores podem ser usados ​​para avaliar modelos sob o padrão âncora de "probabilidade de sobrevivência de um indivíduo em um momento específico".

Índice de concordância (índice C)

Primeiro, observe o índice C. Esse índice de consistência foi mencionado no modelo de previsão do resultado da classificação. É a área sob a curva ROC. Para o modelo de previsão de dados de sobrevivência, esse índice não tem nada a ver com sensibilidade e especificidade. Ele é comparado com os valores reais e previstos . O método de compreensão pode se referir ao teste de soma de classificação.

Para um resultado binário, o índice C é idêntico à área sob a curva ROC (AUC).

O índice de concordância ou índice C é uma generalização da área sob a curva ROC (AUC) que pode levar em conta dados censurados. Representa a avaliação global do poder de discriminação do modelo.

A lógica é: cada caso recebe uma pontuação de risco por meio do modelo. Se o modelo tiver um bom desempenho, o caso com a pontuação de risco mais alta deve ter um evento primeiro. De acordo com essa lógica, usamos o modelo para atribuir uma pontuação de risco a cada caso para formar um número de grupos comparáveis ​​(dois são um grupo). Se o grupo atender ao mencionado "quanto maior a pontuação de risco, mais cedo o evento ocorre", então este grupo é um grupo consistente, caso contrário, é um grupo inconsistente. A proporção do grupo consistente para todos os grupos de comparação é o índice C:

O índice é calculado da seguinte forma:

Entre eles, o numerador é o grupo consistente e o denominador são todos os grupos. Então esse valor é quanto maior melhor.

O exposto acima é a lógica interna do índice C na avaliação da análise de sobrevivência e modelos de previsão. Como pesquisadores científicos aplicados, é bom que você preste atenção à lógica e ignore automaticamente as expressões matemáticas.

Pontuação Brier

Vejamos o segundo indicador de avaliação, denominado pontuação de Brier. A pontuação de Brier é a média do quadrado da diferença entre o status de sobrevivência do caso no tempo t menos a probabilidade de sobrevivência prevista no tempo t .

A lógica que pode ser usada para avaliar o modelo é: se meu modelo pode realmente prever muito bem a probabilidade de sobrevivência em um momento específico, então, para um determinado momento, meu status de sobrevivência é de fato 1, então o modelo deve dizer que minha probabilidade de sobrevivência neste momento é infinita; caso contrário, o modelo deve dizer que minha probabilidade de sobrevivência é infinitamente pequena.

Por envolver um tempo específico, este indicador só pode ser visualizado em um ponto no tempo. O algoritmo é o seguinte:

descobrimos que BS depende da seleção do ponto de tempo t. Geralmente, a mediana do tempo de observação é selecionada como ponto no tempo.

É a diferença na probabilidade de previsão do Tempo no status de sobrevivência do T-Time. Por exemplo, a observação real do caso Time é a morte (tomada 0) neste momento, menor a probabilidade da previsão do modelo neste momento; a observação real do caso T-time é a sobrevivência (take 1) neste momento. Quanto menor, menor, melhor e é menor que 0,25 para indicar que esse modelo é melhor do que adivinhar . Mas este indicador só pode olhar para a precisão da previsão do modelo em um determinado ponto no tempo.

O exposto acima é a lógica interna da pontuação de Brier na avaliação do modelo de previsão da análise de sobrevivência.Como pesquisadores científicos aplicados, é bom que todos prestem atenção à lógica e ignorem automaticamente a expressão matemática.

Erro absoluto médio

O índice MAE também está disponível no modelo de previsão de resultado de variável contínua, que se refere à soma do valor absoluto da diferença entre o valor previsto e o valor real. No modelo de previsão de análise de sobrevivência, é a soma do valor absoluto da diferença entre o tempo de sobrevivência real e o tempo de sobrevivência previsto pelo modelo . O algoritmo é o seguinte:

Este indicador considera apenas dados não censurados, sendo pouco utilizado na prática. Basicamente, não me importo.

Prática de avaliação de modelo

Depois de explicar os indicadores, vamos ver o método de operação real. Ainda escolhemos  o artigo do JAMA Surg. como referência. O título do artigo é o seguinte:

Hyder O, Marques H, Pulitano C, et al. Um nomograma para prever a sobrevida a longo prazo após ressecção de colangiocarcinoma intra-hepático: uma experiência oriental e ocidental. JAMA Cir. 2014;149(5):432–438. doi:10.1001/jamasurg.2013.5168

A metodologia de avaliação do modelo no artigo é apresentada a seguir:

Pode-se ver que este artigo relata o índice C, desenha uma curva de calibração com amostras de auto-amostragem e verifica o modelo. Vejamos primeiro a prática do índice C. O valor e o intervalo de confiança do índice C são relatados no artigo:

A precisão preditiva (discriminação) do modelo final foi medida pelo cálculo do índice Harrell C, que foi de 0,692 (95% CI, 0,624-0,762).

Se você executar o modelo com a função coxph, o erro padrão do índice C e do índice C aparecerá automaticamente na saída do modelo, conforme a figura abaixo:

Por exemplo, se quisermos apenas este índice, podemos executar o seguinte código diretamente:

cindex(formula, data)

Se você deseja obter o intervalo de confiança do índice C, deve recorrer à função concordance.index, o código é o seguinte:

concordance.index(predict(c),surv.time = dt,surv.event = e,method = "noether")

A saída é a seguinte, com índice C, erro padrão e limites superior e inferior correspondentes do intervalo de confiança:

Depois de ler a operação do índice C, vamos ver o desenho da curva de calibração. A curva de calibração fornecida no artigo se parece com isso:

Primeiramente, vamos entender o que é uma curva de calibração: na figura acima, o eixo horizontal é a probabilidade de sobrevivência prevista pelo modelo, e o eixo vertical é a probabilidade de sobrevivência real. Há também uma linha pontilhada cinza na figura, o que significa que a probabilidade prevista é consistente com a probabilidade real de sobrevivência. Idealmente, a curva de calibração é uma linha diagonal (a probabilidade prevista é igual à probabilidade real).

O gráfico de calibração é uma ferramenta visual para avaliar a concordância entre previsões e observações em diferentes percentis (principalmente decis) dos valores previstos.

Também deve ser entendido que a distribuição de nossa própria probabilidade de sobrevivência é contínua, mas apenas 3 pontos são desenhados na figura. Isso ocorre porque o algoritmo divide os dados em caixas. Na figura acima, os dados originais são divididos em 3 grupos. Essa operação é controlada pelo parâmetro m na função de calibração

Para modelos de sobrevivência, "previsto" significa probabilidade de sobrevivência prevista em um único ponto de tempo, e "observado" refere-se à estimativa de sobrevivência Kaplan-Meier correspondente, estratificando em intervalos de sobrevivência prevista。

Ao mesmo tempo, também precisamos limitar o tempo em que fazemos previsões sobre os dados de sobrevivência, portanto, precisamos definir o parâmetro u.

Por exemplo, se quisermos auto-amostragem 20 vezes, os dados são divididos em categorias, 200 por categoria, e o código de amostra para a curva de calibração no ponto de tempo 6 é o seguinte:

cal <- calibrate(f, u=6, cmethod='KM', m=200, B=20)
plot(cal)

Com relação aos resultados da verificação do modelo, o artigo relata que o índice C dos dados de treinamento e dados de teste nos resultados da verificação de amostragem repetida mostra que o modelo não é superajustado. O texto original é o seguinte:

A validação de bootstrap do modelo com 300 iterações revelou evidências mínimas de overfit do modelo. A estatística C do conjunto de dados de treinamento foi de 0,699 e a estatística C do conjunto de dados de teste foi de 0,706, o que representou a estimativa corrigida de viés do desempenho do modelo no futuro.

O código de implementação desta parte é o seguinte:

validate(f, B=300) 

O índice C do conjunto de dados correspondente pode ser calculado a partir dos resultados de saída.

D_{xy} são iguais a 2 * (C - 0,5) onde C é o índice C ou probabilidade de concordância

Em seguida, comparamos a diferença entre o índice C dos dados de treinamento e os dados de teste para obter a conclusão de nosso próprio modelo.

Bem, aqui terminamos de escrever a prática e o método de avaliação do modelo de previsão de dados de sobrevivência escrito para você de acordo com o artigo de cirurgia do JAMA. Na verdade, existem outros métodos de avaliação para o modelo de previsão de dados de sobrevivência, como ROC dependente do tempo, curva de decisão etc., que são organizados na próxima edição, continue prestando atenção.

Acho que você gosta

Origin blog.csdn.net/tm_ggplot2/article/details/130230420
Recomendado
Clasificación