Modelo de fusión de aprendizaje automático que apila 14 resúmenes de experiencias y 5 casos exitosos (el más completo en Internet, colección hardcore)

He leído muchos artículos sobre el apilamiento de modelos de fusión. Muchos autores tienden a elogiar el apilamiento de modelos de fusión y minimizar sus deficiencias, lo que es fácil de engañar a los principiantes. Eso es lo que significa.

A muchos de mis alumnos les gusta usar el modelo de fusión como punto de innovación de tesis o patente, que es una tecnología candente.

Recientemente, un compañero de clase preguntó en la consulta de modelado de tesis si el apilamiento de modelos de fusión es realmente confiable. Esta pregunta me hizo pensar profundamente. Creo que escribir este artículo hará que todos entiendan más claramente el apilamiento del modelo de fusión. Este artículo es un resumen de mis años de experimentos a largo plazo sobre la experiencia de apilamiento de modelos de fusión. También tomó medio mes escribir este artículo, y la mayoría de los experimentos se usaron para experimentos. Este artículo es relativamente largo, involucra mucho contenido y tiene muchos conjuntos de datos experimentales. Se estima que será difícil leerlo en poco tiempo. Puede marcar este artículo primero y reflexionar sobre él lentamente más tarde. para ayudarte a evitar los diez mil años de trampas.

Este artículo es más adecuado para entusiastas de modelos de fusión, participantes de concursos de modelos, artículos de escritura y estudiantes de patentes.

El apilamiento o la generalización del apilamiento es un algoritmo de aprendizaje automático conjunto.

Utiliza un algoritmo de metaaprendizaje para aprender a combinar mejor las predicciones de dos o más algoritmos de aprendizaje automático subyacentes.

El beneficio del apilamiento es que puede aprovechar las capacidades de una colección de modelos de buen desempeño en una tarea de clasificación o regresión y, potencialmente, hacer mejores predicciones que cualquier modelo único en el conjunto. Tenga en cuenta que dije posible, no absoluto.

La siguiente figura es el diagrama de flujo del algoritmo del modelo de fusión, podemos ver que el submodelo (modelo base) lee todos los datos de entrenamiento, en lugar de que cada submodelo solo lea una parte de los datos de entrenamiento. Por lo tanto, se pueden agregar más submodelos para la observación en la etapa inicial.

El modelo de fusión entrenado final es como un modelo real, con capacidad predictiva, capacidad de clasificación y capacidad de regresión.

El artículo anterior
"Model Contest Killer - Fusion Model (apilamiento)" introdujo el apilamiento de modelos de fusión. Puede consultar los detalles.

1. El apilamiento de modelos Fusion es difícil de aplicar a los modelos de negocio

Porque el tiempo de cálculo del apilamiento del modelo de fusión es mucho más largo que el de un solo modelo de aprendizaje automático. Los modelos de empresas comerciales deben considerar la complejidad del algoritmo, el costo del tiempo y la interpretabilidad, que son los puntos débiles del apilamiento de modelos de fusión. En la competencia anterior de modelos de kaggle, un concursante extranjero ganó el campeonato con el apilamiento de modelos de fusión, pero la empresa patrocinadora patrocinadora no lo adoptó porque el modelo de fusión tenía demasiados submodelos, lo que requería mucho tiempo y era difícil de aplicar. negocio real.

2. El apilamiento de modelos Fusion es muy popular en trabajos académicos

Las desventajas del apilamiento de modelos de fusión también pueden convertirse en ventajas, es decir, se utiliza en la academia, especialmente para la publicación de artículos. Hemos estado en contacto con una gran cantidad de consultas en papel, y muchos colegas en el círculo académico creen que cuanto más complejo es el modelo, mayor es el valor. A sus ojos, el rango del modelo de aprendizaje profundo es más alto que el del aprendizaje automático y los modelos estadísticos. Todos estos son malentendidos. La elección del algoritmo del modelo debe combinarse con la realidad, dependiendo de la escena y los conjuntos de datos específicos, no existe una rutina general completamente precisa. Es comprensible que muchos colegas académicos no tengan experiencia en modelos de negocios. Por lo tanto, he leído muchos artículos relacionados con los modelos de fusión. El apilamiento de modelos Fusion puede estar compuesto por una gran cantidad de modelos cuánticos, hay muchas combinaciones y también puede crear una gran cantidad de innovaciones en papel.

3. biblioteca scikit-learn y mlxtend

Las bibliotecas scikit-learn y mlxtend proporcionan implementaciones estándar de conjuntos apilados en Python. Las bibliotecas scikit-learn y mlxtend tienen sus pros y sus contras. La ventaja de la biblioteca scikit-learn es que la regresión logística se puede utilizar como metamodelo (modelo de segunda capa). La biblioteca mlxtend es más rápida cuando se ejecuta el modelo de fusión de apilamiento, pero cuando se usa la regresión logística, el modelo fuera de la máquina de vectores de soporte informará un error como un metamodelo.

4. El costo de tiempo del experimento de apilamiento del modelo Fusion es alto

Muchos submodelos tienen diferentes métodos de preprocesamiento de datos, como máquinas de vectores de soporte, las redes neuronales deben completar los valores faltantes de los datos y el suavizado de datos, pero los algoritmos de aprendizaje integrado no. El aprendizaje conjunto puede obtener mejores resultados al usar directamente datos sin procesar.

Las diferentes lógicas de predicción de datos de los submodelos conducen a un aumento en la diversidad y el número de experimentos del modelo de fusión, lo que aumenta el costo del tiempo.

5. El rendimiento del modelo de fusión no es necesariamente superior al del submodelo

Muchas introducciones sobre modelos de fusión en Internet transmiten un malentendido, es decir, el rendimiento de los modelos de fusión debe ser mayor que el de los modelos individuales. Después de modelar, deberíamos mejorar el rendimiento con modelos fusionados. Pero este no es el caso en tiempo real.En una gran cantidad de experimentos, encontramos que el modelo de fusión a menudo es difícil de mejorar, y el rendimiento no es tan bueno como el submodelo, y también consume mucho tiempo. para experimentos

Por ejemplo, en el experimento sobre el conjunto de datos de cáncer de mama, encontramos que el modelo de fusión auc es 0,9820, que no es tan bueno como el submodelo anterior.

Sin embargo, después de que agregamos los submodelos KNN y lightgbm, el rendimiento del modelo de fusión mejoró enormemente y superó a todos los submodelos.

Hemos visto una gran cantidad de artículos que describen que el rendimiento del modelo de fusión es mejor que el de los submodelos. Esto se debe a que el autor pasó mucho tiempo experimentando y probando un conjunto de submodelos fijos para llegar a la conclusión. que el rendimiento del modelo de fusión ha mejorado. La combinación de submodelos que ves no es accidental, sino el resultado de una cuidadosa selección después de mucho tiempo y experimentación.

6. Indicadores específicos para la mejora del desempeño del modelo de fusión

En una gran cantidad de experimentos, encontramos que el modelo de fusión tiene una mayor probabilidad de mejorar la precisión y la puntuación f1 que AUC. Puede mejorar un determinado indicador después de fusionarlo con un grupo de submodelos, pero no se garantiza que mejore todos los indicadores.

7. Habilidades de mejora del modelo Fusion - aplicación de parámetros cv

Estratificado significa estratificado en inglés, y estratificadokfold traducido al chino es validación cruzada estratificada de K-fold. Cuando la variable de destino del conjunto de datos son datos desequilibrados, la validación cruzada encontrará una aleatoriedad insuficiente al dividir los datos, como una alta proporción de buenos clientes, una pequeña proporción de malos clientes o incluso ninguno.

stratifiedkfold es bueno para el procesamiento de datos desequilibrados. Si se selecciona la validación cruzada estratificada de K-fold, la validación cruzada garantizará que la proporción de categorías en la etiqueta original, la proporción de categorías en la etiqueta de capacitación y la proporción de categorías en la etiqueta de verificación sean consistentes durante cada capacitación. .

La siguiente figura es el diagrama de flujo del algoritmo estratificado de kfold.Podemos ver que la variable objetivo de clase tiene tres categorías, y las diferentes categorías tienen un muestreo de validación cruzada uniforme.

Cuando llamemos a la función cross_val_score, recuerde ingresar el parámetro cv, generalmente elija 5 o 10. Ingrese cualquier número entero que represente el número de pliegues en la verificación K-fold estratificada. Por lo tanto, el parámetro cv es muy inteligente y puede ayudarnos a resolver automáticamente el problema del procesamiento de datos desequilibrado de la variable objetivo. Cuando el conjunto de datos no es grande, el rendimiento del modelo cv10 puede ser mejor que el cv5.

scores = model_selection.cross_val_score(clf, X, y,  
                                              cv=5, scoring='roc_auc')

8. Habilidades de mejora del modelo Fusion: selección del meta_clasificador del modelo meta

Para la mayoría de los alumnos, recomiendo la regresión logística como meta_clasificador. En experimentos con algunos conjuntos de datos, otros algoritmos no fueron tan buenos como la regresión logística como los metamodelos. Tomando el conjunto de datos de cáncer de mama como ejemplo, utilicé la regresión logística como metamodelo para obtener un modelo de fusión con un AUC de 0,9959, y usé una máquina de vectores de soporte como metamodelo para obtener un modelo de fusión con un AUC de 0,982 .

En la comunicación con algunos amigos, también encontré excepciones. Sus conjuntos de datos a veces usan el algoritmo de árbol de conjunto como metamodelo para obtener un mejor rendimiento del modelo de fusión. Hay demasiados parámetros en el modelo de fusión y todo depende de los resultados experimentales.

9. Habilidades de mejora del modelo Fusion: la cantidad de submodelos es la correcta

En nuestros experimentos, encontramos que los submodelos del apilamiento del modelo de fusión no son tantos como sea posible, o tan pocos como sea posible, y lo mejor es lo correcto.

Usamos 9 submodelos como KNN y random forest para construir el modelo de fusión, con un AUC de 0.9953,

Después de reducir la cantidad de submodelos, usamos 6 submodelos para construir un modelo de fusión, y el AUC fue 0.9957, que fue mucho más alto que el AUC del modelo de fusión de 9 submodelos. Esto muestra que los submodelos del modelo de fusión no son tantos como sea posible.

10. Habilidades de mejora del modelo de fusión: elimine el submodelo más débil, el modelo de fusión se puede mejorar

Cuando experimentamos con el modelo de fusión, primero podemos aumentar la cantidad de submodelos tanto como sea posible, luego observar qué submodelos tienen un rendimiento débil, eliminar los submodelos que obviamente se están quedando atrás y el modelo de fusión puede ser mejorado. Como se muestra en la siguiente figura, el AUC del submodelo del árbol de decisión es 0,91 y el AUC del bayesiano gaussiano es 0,98, que es significativamente más bajo que el rendimiento de otros submodelos. Después de eliminar estos dos submodelos, el El AUC del modelo de fusión aumenta de 0,9953 a 0,9957. En muchos experimentos, encontramos que el rendimiento del árbol de decisión y el modelo bayesiano gaussiano era demasiado bajo. Por supuesto, esto puede estar relacionado con nuestras muestras experimentales. No se descarta que estos dos algoritmos funcionen bien en algunos conjuntos de datos.

11. Técnica de refuerzo del modelo de fusión: las probabilidades de clase pronosticadas se utilizan para el entrenamiento del metamodelo

Un metaclasificador se puede entrenar en etiquetas de clase pronosticadas o en probabilidades de clase pronosticadas. Usamos la probabilidad de clase predicha por el modelo de nivel 1 en el metamodelo de nivel 2 para obtener un mejor rendimiento del modelo de fusión. Si se utilizan las etiquetas de clase previstas, el modelo de fusión tendrá un rendimiento deficiente.

Esta lógica es muy simple, piénsalo, hay muy pocos resultados de etiquetas de clase, si es un modelo de clasificación binaria, las etiquetas de clase son solo 0 y 1, si elegimos predicción de probabilidad, el resultado es un decimal de 0-1 . Por lo tanto, la variedad de probabilidades de clase puede hacer que el modelo aprenda bien y mejore el rendimiento del modelo.

Siempre que configure use_probas=True, puede configurar la probabilidad de clase para el entrenamiento del metamodelo.

sclf = StackingClassifier(classifiers=[clf1,clf2,clf3,clf4,clf5,clf6],              
                          meta_classifier=lr,use_probas=True)

12. Habilidades de mejora del modelo de fusión - Experimento de diversidad

Algunas teorías dicen que cuanto mayor es la diferencia entre los submodelos, más independientes son entre sí y mayor es el margen de mejora del modelo de fusión. Esta teoría puede explicar que el metamodelo es generalmente una regresión logística, y la regresión logística requiere la eliminación de variables altamente correlacionadas.

Múltiples variables altamente correlacionadas a veces reducen el rendimiento del modelo. Cuando la correlación del submodelo es más baja, la regresión logística tiene más espacio para jugar. El algoritmo de árbol de conjunto no tiene requisitos tan altos en la correlación de variables, por lo que puede relajarse adecuadamente. Puede experimentar, si el metamodelo es un algoritmo de árbol de conjunto, ¿sigue siendo válido el requisito de independencia del submodelo?

Lo anterior es solo una teoría, y hay una gran diferencia en la prueba real. Todos los estudiantes están sujetos a la prueba real. Esto es solo para referencia.

Vi el video de la Maestra Cai Cai, y ella explicó la diversidad en detalle, de la siguiente manera:

12.1 Diversidad de muestra: use las mismas variables para modelar, pero muestree diferentes subconjuntos de muestra para entrenar cada vez. Cuando la cantidad de datos es pequeña, la reducción de muestreo puede provocar una caída drástica en el rendimiento del modelo.

12.2 Diversidad de variables: use la misma matriz de variables, pero muestree diferentes subconjuntos de funciones para el entrenamiento cada vez. Cuando la cantidad de características es pequeña, el muestreo de características puede provocar una fuerte caída en el rendimiento del modelo.

Podemos usar el método de encapsulación de tubería para obtener algunas variables del conjunto de datos para el entrenamiento.

12.3 Diversidad aleatoria/diversidad de entrenamiento: use el mismo algoritmo, pero use diferentes semillas de números aleatorios random_state ((dará lugar a usar diferentes características, muestras, puntos de partida), o use diferentes funciones de pérdida, use diferentes cantidades de impurezas, etc.

12.4 Diversidad de algoritmos: agregue diferentes tipos de algoritmos, como integración, árbol, probabilidad y modelos lineales mixtos. Sin embargo, debe tenerse en cuenta que el efecto del modelo no debe ser demasiado malo. Ya sea que se trate de votar o promediar, si el efecto del modelo es demasiado pobre, el resultado de la fusión puede reducirse considerablemente.

13. Habilidades de mejora del modelo Fusion - mejora de la velocidad

Los modelos Fusion usan validación cruzada y son muy lentos. Está bien si encuentra un conjunto de datos pequeño; si encuentra un conjunto de datos grande, debe elegir el submodelo con cuidado. Suponiendo que nuestro conjunto de datos es muy grande y queremos ahorrar tiempo, los algoritmos SVM y catboost se pueden eliminar.Estos dos submodelos consumen mucho tiempo. SVM tarda mucho tiempo en entrenarse para grandes conjuntos de datos. catboost es un algoritmo de árbol simétrico, y los datos de entrenamiento también requieren mucho tiempo.

Se pueden eliminar variables de ruido o variables de poca importancia en el conjunto de datos, lo que puede reducir la dimensión del conjunto de datos y mejorar el tiempo de entrenamiento del modelo.

Python lee los datos de la tabla de Excel más lentamente que los datos csv. Intentamos llamar a la función read_csv() de pandas para leer los datos, lo que puede ahorrar mucho tiempo. Si el conjunto de datos es particularmente grande, también se puede guardar con el paquete pickle y la velocidad de lectura es más rápida.

En resumen, los tres aspectos de la detección de variables, la detección de algoritmos y la lectura de datos csv pueden mejorar la velocidad de entrenamiento del modelo de fusión.

14. Habilidades de mejora del modelo de fusión - procesamiento de estandarización de datos

Cuando la varianza del conjunto de datos es grande, la capacidad predictiva de nuestros submodelos varía mucho. En el campo médico, la variación del conjunto de datos es muy pequeña, como la edad, la prueba de sangre de rutina, el valor generalmente se distribuye de 0 a 100. Pero en el campo financiero, la variación de datos es muy grande, por ejemplo, el ingreso mensual de Zhang San es de 5000 yuanes y el ingreso mensual de Bill Gates es de 500 mil millones. Cuando la varianza de los datos es grande y los submodelos son más independientes, necesitamos estandarizar los datos para reducir la varianza de los datos. Si los submodelos son todos algoritmos de árbol de conjunto, no se requiere normalización de datos. El Sr. Toby generalmente llamó elegantemente al procesamiento de estandarización de datos como procesamiento de suavizado, y los datos después del procesamiento son más fluidos y no fluctuarán mucho.

El código de procesamiento de Python es muy simple, simplemente llame a la función preprocessing.scale() del paquete sklearn

from sklearn import preprocessing
X= preprocessing.scale(X)

Historias de éxito del modelo Stacking Fusion

Caso exitoso de fusión de apilamiento modelo 1: conjunto de datos de células de cáncer de mama

El conjunto de datos de células de cáncer de mama tiene más de treinta variables y se utiliza para construir un modelo de reconocimiento de células de cáncer de mama.

Para el conjunto de datos de cáncer de mama de Wisconsin, el Sr. Toby utilizó seis submodelos de knn, Random Forest, CatBoost, neuron network, xgboost y lightgbm para apilar el modelo de fusión. El AUC del modelo de fusión es más alto que el de todos los submodelos. -modelos.

El profesor Toby construyó un modelo de fusión con siete submodelos de knn, Random Forest, CatBoost, neuron network, xgboost, lightgbm y svm. La precisión del modelo de fusión es mayor que la de cualquier submodelo.

El profesor Toby construyó un modelo de fusión con cinco submodelos de knn, Random Forest, neuron network, xgboost y svm. El rendimiento de la puntuación f1 del modelo de fusión es más alto que el de cualquier submodelo.

Los diez principales códigos de modelado de aprendizaje automático clásico de cáncer de mama y los códigos de modelo de fusión completos se pueden obtener a través de "Python Machine Learning - Minería de células de cáncer de mama"
.


Caso exitoso de apilamiento del modelo de fusión 2-conjunto de datos de diabetes de Tianchi

El conjunto de datos de diabetes de Tianchi se utiliza para establecer un modelo de predicción del riesgo de diabetes, con varias variables y más de 5000 conjuntos de datos.

El profesor Toby construyó un modelo de fusión con tres submodelos de Random Forest, adaboost y gradiente boost. El rendimiento de la puntuación f1 del modelo de fusión es más alto que el de cualquier submodelo.

La mejora del rendimiento de la puntuación del modelo Fusion f1 es mucho más fácil que AUC y no requiere demasiados submodelos.

El profesor Toby construyó un modelo de fusión con tres submodelos de Random Forest, adaboost y xgboost. El rendimiento de la puntuación auc del modelo de fusión es más alto que el de cualquier submodelo. Antes de modelar, el Sr. Toby usó la mediana para completar los datos faltantes e hizo un preprocesamiento de datos para lograr este efecto.

El conjunto de datos de diabetes de Tianchi es difícil de mejorar la tasa de precisión. El maestro Toby pasó mucho tiempo experimentando, primero completando los valores faltantes con la mediana y luego usando el modelo de fusión construido por los cuatro submodelos de knn, red neuronal , xgboost y svm El modelo de fusión El rendimiento de la puntuación de precisión es superior al de cualquier submodelo.

Los principios algorítmicos de estos cuatro submodelos son muy diferentes, lo que asegura que la diversidad del algoritmo y los resultados experimentales también sean buenos.

La siguiente figura es la visualización del Sr. Toby de los indicadores de precisión del submodelo y el modelo de fusión, que se refleja principalmente en el diagrama de caja. Vemos que el modelo de fusión tiene la mayor precisión.

Caso exitoso de conjunto de datos del club de préstamos del modelo de fusión de apilamiento 3

Lending Club es una empresa de tecnología financiera muy conocida en los EE. UU. Tiene más de 120 variables y millones de conjuntos de datos, con un total de aproximadamente diez años de conjuntos de datos. Pertenece al conjunto de datos en el campo del control de riesgos financieros y es adecuado para bancos, empresas de financiación al consumo, empresas de asistencia crediticia y empresas de tecnología financiera.

El profesor Toby solo usó tres submodelos de lightgbm, catboost y xgboost para construir un modelo de fusión, lo que mejoró significativamente la puntuación de f1.

Debido al conjunto de datos relativamente grande de Lendclub, el Sr. Toby tiene un tiempo limitado. Cómo usar la experiencia del Sr. Toby para mejorar la precisión y el AUC se hará como tarea para todos.

Si está interesado en el modelado de aprendizaje automático del club de préstamos, puede obtenerlo a través de "Python Risk Control Modeling Practical LendingClub"
.


Caso exitoso de apilamiento del modelo 4 de fusión: conjunto de datos p2p de préstamo Pterosaur, una subsidiaria de Lenovo

Yilongdai ha establecido centros de operaciones en más de 100 ciudades a nivel de prefectura en todo el país, cubriendo miles de distritos, condados y casi 10 000 pueblos y ciudades, y establecerá una red de servicio nacional en muchas ciudades de primer y segundo nivel en todo el país. A través de esta plataforma, puede ayudar a las personas con buen crédito y diferentes necesidades a resolver el problema de la escasez de fondos y, al mismo tiempo, puede invertir los fondos excedentes en sus manos con mayores rendimientos para los clientes que necesitan apreciación de la riqueza. Los principales objetos de préstamo de Wing Loong Loan son para ayudar a la agricultura, las áreas rurales y los hogares rurales, los hogares industriales y comerciales individuales y los propietarios de pequeñas y microempresas. Debido a los requisitos normativos financieros, P2P debe transformarse. En la actualidad, los préstamos de Pterosaur se han reducido gradualmente.

El profesor Toby solo usó tres submodelos de lightgbm, catboost y xgboost para construir un modelo de fusión, lo que mejoró significativamente la puntuación de f1.

Caso exitoso del modelo de fusión de apilamiento 5: modelo de extracción de genes que causan la enfermedad de Crohn

La enfermedad de Crohn, también conocida como enfermedad de Crohn, enfermedad de Crohn, enfermedad de Crohn, enfermedad de Crohn y enteritis granulomatosa, es una enfermedad inflamatoria intestinal de causa desconocida que puede ocurrir en cualquier parte del tracto gastrointestinal, pero ocurre con mayor frecuencia en el íleon terminal y colon derecho. Tanto la colitis ulcerosa crónica como la inespecífica se conocen colectivamente como enfermedad inflamatoria intestinal (EII). Las manifestaciones clínicas son dolor abdominal, diarrea y obstrucción intestinal, acompañadas de manifestaciones extraintestinales como fiebre y trastornos nutricionales. El curso de la enfermedad es más prolongado, muestra el efecto repetidamente, es difícil para una curación radical. No existe una cura general y muchos pacientes necesitan tratamiento quirúrgico cuando se presentan complicaciones. La tasa de recurrencia está relacionada con factores como la extensión de la lesión, la fuerza de la invasión de la enfermedad, la prolongación del curso de la enfermedad y el crecimiento de la edad.

Muchas personas famosas tienen antecedentes de enfermedad de Crohn,

1. Larry Nance Jr., el jugador de cabeza de los actuales Cavaliers de la NBA, es hijo del ex rey de las volcadas de la NBA, Larry Nance, un paciente con la enfermedad de Crohn que heredó la ambición de su padre y galopaba en la cancha. Cuando Nance Jr. tenía 15 años, desarrolló la enfermedad de Crohn. Esta enfermedad hizo que Nance Jr. perdiera el apetito y la falta de energía. Comenzó a volverse letárgico y no tenía energía para dedicarse al baloncesto y al trabajo escolar. Una vez lo hizo pensar en dejar el baloncesto.

2. En 2004, Menino, el entonces alcalde de Boston, EE. UU., fue diagnosticado con la enfermedad de Crohn después de comer maní y causarle un dolor abdominal intenso mientras miraba un partido de béisbol.

3. El más conocido es el Comandante Supremo de las Fuerzas Aliadas durante la Segunda Guerra Mundial, un general de cinco estrellas y más tarde el presidente Eisenhower de los EE. UU. Seis meses antes del inicio de la campaña, fue operado de la enfermedad de Crohn.

4. Premiado póstumamente como un "modelo de los tiempos", Wang Yiping, supervisor de doctorado en el Instituto de Materia Médica de Shanghai, Academia de Ciencias de China, padeció la enfermedad de Crohn durante mucho tiempo antes de su muerte. Desde su diagnóstico en 1993 hasta Tras su muerte en 2018, Wang Yiping estuvo enfermo durante 25 años Persistiendo en la investigación científica y compitiendo por el tiempo con el dios de la muerte, lo que queda es una imagen brillante de la modernización de la medicina tradicional china.

El dolor de tener la enfermedad de Crohn está más allá del alcance de la gente común. Los síntomas de la enfermedad de Crohn incluyen diarrea crónica, dolor abdominal, pérdida de peso, pérdida de apetito, fiebre y sangrado rectal, obstrucción intestinal, dolor en las articulaciones, etc., afectando gravemente la calidad de vida. Los pacientes experimentan debilidad por la incapacidad para comer y diarrea, dolor en las articulaciones que les impide hacer ejercicio y cambios completos en los hábitos alimenticios. Junto con el uso frecuente del baño y el escape que no pueden ser controlados por uno mismo, incluso la interacción social normal se verá obstaculizada. El maestro Toby pensó que la enfermedad de Crohn era muy rara, pero con la consulta de datos, se encontró que la prevalencia de la enfermedad aumentaba año tras año. Bilibili tiene muchos pacientes autoproclamados con la enfermedad de Crohn y publicó videos para compartir su vida con los enfermedad.

Teacher Toby solo usa tres submodelos de lightgbm, catboost y xgboost para construir un modelo de fusión para mejorar la tasa de precisión.

El profesor Toby también utilizó la minería de datos para descubrir los genes de alto riesgo de la enfermedad de Crohn, y se los presentaré más adelante cuando tenga tiempo. Toby ha trabajado con profesores de la Academia de Ciencias de China en el proyecto de enfermedades crónicas. Al ver que la cantidad de enfermedades raras aumenta año tras año, tengo que lamentar que todos se cuiden, aprecien sus cuerpos, trabajen bien y no No trabajo demasiado.


El profesor Toby tiene más casos exitosos de apilamiento de modelos de fusión, que se actualizarán sucesivamente. Bienvenidos a todos a seguir y recopilar el curso "Modelo de cuadro de mando de control de riesgos financieros de Python y curso microprofesional de análisis de datos" .

Declaración de derechos de autor: el artículo proviene de la cuenta oficial (modelo de control de riesgos de Python), sin permiso, sin plagio. Siguiendo el acuerdo de derechos de autor de CC 4.0 BY-SA, adjunte el enlace de la fuente original y esta declaración para su reimpresión.

Supongo que te gusta

Origin blog.csdn.net/toby001111/article/details/131268924
Recomendado
Clasificación