El Royal Botanic Gardens utilizó el aprendizaje automático para predecir la resistencia de las plantas a los antipalúdicos, mejorando la tasa de precisión de 0,46 a 0,67

Descripción general del contenido: la malaria es una enfermedad infecciosa importante que pone en grave peligro la vida y la salud de las personas. Los investigadores han estado trabajando arduamente para encontrar nuevos compuestos antipalúdicos derivados de plantas para el desarrollo de medicamentos relacionados. Recientemente, los Jardines Botánicos Reales del Reino Unido utilizaron algoritmos de aprendizaje automático para predecir de manera efectiva la resistencia de las plantas a los antipalúdicos.Los resultados de la investigación se publicaron en la revista Frontiers in Plant Science.
Palabras clave: vectores de apoyo antipalúdicos botánicos

Autor |
Editar lentamente | Sanyang

Este artículo se publicó por primera vez en la plataforma pública hiperneuronal WeChat de HyperAI~

La malaria es una enfermedad parasitaria que asola el mundo, es transmitida por mosquitos y sus tasas de morbilidad y mortalidad siempre han sido altas entre las enfermedades transmitidas por insectos. Según el último "Informe mundial sobre el paludismo", la epidemia mundial de paludismo se intensificará aún más en 2021, con un total de 247 millones de casos nuevos y unas 619 000 muertes a lo largo del año.

En la actualidad, el tratamiento farmacológico todavía se utiliza como el principal medio de prevención y tratamiento de la malaria en el mundo, y las moléculas naturales activas antipalúdicas de muchos medicamentos se derivan de plantas. Por lo tanto, los investigadores han estado trabajando arduamente para encontrar nuevos compuestos antipalúdicos derivados de plantas . Sin embargo, para lograr esto se requiere seleccionar y probar un gran número de plantas, un proceso que lleva mucho tiempo y es costoso.

Recientemente, investigadores de Royal Botanic Gardens, Kew y la Universidad de St Andrews demostraron que los algoritmos de aprendizaje automático pueden predecir de manera efectiva la resistencia a los antipalúdicos de las plantas con una tasa de precisión de 0,67, en comparación con los métodos de prueba tradicionales de 0,46, que se ha mejorado significativamente. Actualmente, los resultados de la investigación se han publicado en la revista "Frontiers in Plant Science", titulada "El aprendizaje automático mejora la predicción de las plantas como fuentes potenciales de antipalúdicos".

Por favor agregue una descripción de la imagen

Los resultados de la investigación han sido publicados en "Frontiers in Plant Science"

Corrección de sesgo de muestreo y conjunto de datos

Uno de los objetivos importantes de este experimento fue evaluar si un modelo de aprendizaje automático podría entrenarse con datos de rasgos de plantas para predecir la actividad antipalúdica de las plantas. Primero, los investigadores proporcionaron un conjunto de datos basado en 21 100 especies de plantas de 3 familias de plantas con flores del orden Gentianae: Apocynaceae, Strychnaceae y Rubiaceae. Se ha descubierto que estas plantas contienen muchos alcaloides, como el alcaloide antipalúdico quinina y su isómero quinidina.

Por favor agregue una descripción de la imagen

Figura 1: Ejemplos de alcaloides antipalúdicos contenidos en adelfa, nuchy y rubiaceae

R: Un alcaloide que se encuentra en Apocynaceae: Aspidocarpina.

B: Un alcaloide que se encuentra en Strychnogucine: Strychnogucine.

C: un alcaloide que se encuentra en las plantas de Rubiaceae y que ahora se usa ampliamente en los medicamentos contra la malaria: la quinina (quinina).

El conjunto de datos incluye específicamente información como las características morfológicas de las plantas, las características bioquímicas, las condiciones ambientales de crecimiento y la ubicación geográfica. La siguiente figura muestra la relación entre las características binarias en este conjunto de datos (características con solo dos valores, como tóxico/no tóxico ) relación.

Por favor agregue una descripción de la imagen

Figura 2: Relaciones entre características binarias en el conjunto de datos

Eje X: características binarias.
Eje Y: valor promedio de cada rasgo, donde cada rasgo representa un atributo diferente de la planta, como si es venenosa, si se usa como medicina tradicional, etc.

Como se muestra, el 10% de todas las especies de plantas se usan como medicinas tradicionales, mientras que el 77% de las especies de plantas venenosas se usan como medicinas tradicionales.Los investigadores se refieren a esta diferencia como sesgo de muestreo y proponen que el sesgo de muestreo se debe al enfoque etnobotánico. .

La etnobotánica se refiere a la búsqueda de plantas medicinales al buscar y estudiar las plantas que los residentes locales usan para tratar enfermedades, pero debido a las diferencias entre diferentes regiones y diferentes culturas, pueden aparecer una o varias especies antipalúdicas. Plantas que aparecen con frecuencia en el conjunto de datos mientras que otras Se pasaron por alto plantas con propiedades antipalúdicas potenciales, lo que se conoce como sesgo de muestreo.

Para entrenar mejor el modelo, los investigadores corrigieron el sesgo de muestreo volviendo a ponderar cada especie de planta, es decir, utilizando la ponderación de probabilidad inversa, de modo que cada muestra de especie pueda ser tratada por igual en el entrenamiento del modelo, mejorando así la representatividad de la conjunto de datos y el rendimiento del modelo.

Visualización de resultados experimentales

Entrenamiento y Validación de Modelos

En este experimento, los investigadores entrenaron 4 modelos de aprendizaje automático basados ​​en vector de soporte (SVC), regresión logística (Logit), XGBoot (XGB) y red neuronal bayesiana (BNN), y compararon estos modelos con 2 grupos étnicos Enfoque botánico : buscando plantas antipalúdicas tradicionales frente a la búsqueda de plantas medicinales tradicionales (no específicas de la malaria) para comparar.

Para los tres modelos basados ​​en Logit, SVC y XGB, el método de entrenamiento de **investigadores es ajustar los hiperparámetros de los modelos a través del algoritmo GridSearchCV y utilizar el índice F0.5 para evaluar el rendimiento del modelo. ** Entre ellos, los investigadores ajustaron los parámetros de regularización C y los parámetros class_weight para los dos modelos basados ​​en Logit y SVC; para el modelo basado en XGB, se ajustó el parámetro max_ depth.

Para el modelo basado en BNN, los investigadores utilizaron dos capas de redes neuronales con 10 y 5 capas y una función de activación de Tahn (función de activación), seguidas de 100 000 iteraciones de Monte Carlo de cadena de Markov (iteraciones de Monte Carlo de cadena de Markov) para entrenar el modelo.

En la fase de validación, los investigadores utilizaron 10 iteraciones de validación cruzada estratificada de 10 veces (10 iteraciones de validación cruzada estratificada de 10 veces) para probar el rendimiento del modelo en dos condiciones (sin corrección de sesgo de muestreo y con corrección de sesgo de muestreo).

Resultados experimentales

En primer lugar, sin la corrección del sesgo de muestreo, los resultados de los experimentos de los investigadores sobre la detección de compuestos antipalúdicos derivados de plantas son los siguientes:

Por favor agregue una descripción de la imagen

Figura 3: Modelo de aprendizaje automático comparado con 2 métodos etnobotánicos sin corrección de sesgo

Como se muestra, en general, el modelo de aprendizaje automático obtuvo una puntuación más alta en promedio que ambos métodos de etnoplanta y pudo predecir la actividad antipalúdica a partir de las características de los datos (BNN: 0,66, XGB: 0,66, Logit: 0,62, SVC: 0,65, Ethno (M): 0,57 , Etno (G): 0,50).

En el caso de la corrección del sesgo, los resultados experimentales de los investigadores para la detección de compuestos antipalúdicos derivados de plantas son los siguientes:

Por favor agregue una descripción de la imagen
Figura 4: Modelo de aprendizaje automático comparado con 2 métodos etnobotánicos con corrección de sesgo

Como se muestra, el modelo de aprendizaje automático aún supera al enfoque etnobotánico a pesar de la mayor variación en el rendimiento del modelo debido al aumento de peso en los conjuntos de entrenamiento y prueba . Los investigadores estimaron que la precisión de la selección tradicional de plantas era de 0,47, mientras que los modelos de máquinas generalmente lograban una mayor precisión de predicción (BNN: 0,59, XGB: 0,63, Logit: 0,66, SVC: 0,67).

Sin embargo, aunque los resultados de este experimento muestran que el modelo de aprendizaje automático puede detectar con relativa precisión las plantas con actividad antipalúdica, los investigadores dijeron que todavía hay partes que deben mejorarse en este experimento:

  • Aumentar los datos de entrenamiento: el conjunto de datos de entrenamiento actual es relativamente pequeño y es necesario agregar más datos de especies de plantas para mejorar aún más el rendimiento del modelo.

  • Resolviendo el problema del sesgo de muestreo: Aunque este experimento ha tratado de resolver el problema del sesgo de muestreo, aún es necesario descubrir más métodos de corrección del sesgo.

  • Optimización de la selección de características : es necesario realizar más selección y optimización de características de la planta.

  • Más pruebas de especies de plantas con muy pocas especies o con una distribución desigual de la muestra: para las especies que están subrepresentadas en los datos existentes, se necesitan más pruebas para obtener resultados más precisos.

Kew Gardens: descubre el poder de las plantas

Al comentar sobre los hallazgos, Kew Gardens Dean dijo: "Nuestros resultados muestran que las plantas tienen un gran potencial para producir nuevos medicamentos. Se estima que hay 34,300 especies conocidas de plantas vasculares, muchas de las cuales no se comprenden bien. investigación científica. Esperamos que la máquina los métodos de aprendizaje se pueden aplicar en esta área para encontrar nuevos compuestos medicinales. Y estos resultados también resaltan la importancia de proteger la biodiversidad y el desarrollo sostenible de los recursos naturales".

Los mundialmente famosos Royal Botanic Gardens (Kew) generalmente se conocen simplemente como "Kew Gardens". Kew Gardens es una institución de investigación y educación sobre plantas de renombre internacional, financiada por el Departamento de Medio Ambiente, Alimentación y Asuntos Rurales (Reino Unido) del gobierno británico, y es un organismo público con la naturaleza de un departamento no gubernamental. La misión de Kew es: "Conservar la biodiversidad y desarrollar soluciones basadas en la naturaleza para los desafíos globales que enfrenta la humanidad".

Hace unos meses, se supo que Greensphere Capital, un fondo dedicado al desarrollo sostenible, planeaba invertir 100 millones de libras en Kew Gardens . La inversión se utilizará para la agricultura sostenible y reclutará nuevos investigadores para estudiar la ciencia de las plantas y los hongos, la protección del hábitat. , agricultura y proyectos forestales.

Este artículo se publicó por primera vez en la plataforma pública hiperneuronal WeChat de HyperAI~

Supongo que te gusta

Origin blog.csdn.net/HyperAI/article/details/130977498
Recomendado
Clasificación