¡El equipo de Lu Cewu de la Universidad Jiaotong de Shanghai publicó los últimos resultados de investigación sobre la comprensión del comportamiento en la naturaleza!

Haga clic en la tarjeta a continuación para seguir la cuenta pública " CVer "

Productos secos pesados ​​AI/CV, entregados lo antes posible

Reimpreso de: El corazón de la máquina

El equipo del profesor Lu Cewu de la Universidad Jiaotong de Shanghái ha estado trabajando en la investigación de la comprensión del comportamiento durante muchos años, y los últimos resultados se han publicado en "Nature".

Cuando un sujeto de comportamiento realiza un determinado comportamiento, ¿produce el cerebro un mapa de patrón neural cerebral estable correspondiente? Si existen mapas estables, ¿se pueden usar métodos de aprendizaje automático para descubrir circuitos neuronales de comportamiento desconocidos?

Para responder a las preguntas esenciales de esta serie de comprensión del comportamiento, un trabajo reciente publicado en la principal revista académica internacional Nature llevó a cabo una investigación sobre el mecanismo de la comprensión del comportamiento. Los dos coautores correspondientes del artículo son el profesor Lu Cewu de la Universidad Jiao Tong de Shanghai y el profesor Kay M. Tye del Instituto de Investigación Salk.

56f42684ce797aef028fb553ad0cfd84.png

Comprensión secuencial compleja a través de la conciencia de conceptos espaciales y temporales.

Enlace en papel: https://www.nature.com/articles/s41586-022-04507-5

Basado en la tecnología de visión por computadora, este logro explicó cuantitativamente la relación interna entre la comprensión del comportamiento de la visión artificial y los nervios cerebrales, y estableció su modelo de mapeo estable por primera vez. Formación de análisis de comportamiento de visión por computadora para descubrir circuitos neuronales conductuales, un nuevo paradigma de investigación que utiliza inteligencia artificial para resolver problemas básicos en neurociencia El circuito neuronal de "Jerarquía social" está orientado a responder la pregunta de cómo los mamíferos juzgan el estado de otros individuos y de sí mismos. en grupos sociales y tomar decisiones de comportamiento. El nuevo paradigma de investigación formado por él también promueve aún más la inteligencia artificial y las cuestiones científicas básicas. El desarrollo del campo de intersección fronteriza (IA para la ciencia).

Los contenidos específicos de la investigación son los siguientes: 

e76003cee52bf7b17ac924b377e445a0.png

Figura 1. Modelo de correlación de señales neuronales de detección de comportamiento visual-cerebro: (a) comprensión del comportamiento visual del ratón (b) marco del sistema y aprendizaje del modelo.

Modelo de correlación de la señal del nervio cerebral-detección del comportamiento visual: utilizamos un grupo de ratones como objeto experimental, y cada ratón llevaba un dispositivo de grabación radiofisiológica para registrar los nervios craneales secuenciales de la corteza prefrontal medial (mPFC) en una región específica del cerebro en social Señal de actividades. Al mismo tiempo, cada ratón es rastreado y posicionado a través de múltiples cámaras, y las etiquetas semánticas de comportamiento se extraen en función de los resultados de la investigación de la estimación de la pose (como la alfaposición) y la clasificación del comportamiento investigada y desarrollada por el equipo del profesor Lu Cewu, de modo que la precisión de la estimación de la pose del ratón es mayor que la del ojo humano. Basado en una gran cantidad de datos recopilados automáticamente por el sistema propuesto, el modelo oculto de Markov entrenó un modelo de regresión de "señales de actividad neuronal en regiones cerebrales de mPFC de ratón" a "etiquetas de comportamiento", y encontró que todavía había una relación de mapeo estable en el conjunto de prueba después del entrenamiento, revelando que existe una relación de mapeo estable entre el tipo visual de comportamiento y el patrón de señal del nervio cerebral en el cerebro del sujeto de comportamiento.

Aplicación del modelo: control de circuitos neuronales de comportamiento de la jerarquía social animal (jerarquía social) Descubrimiento: basado en el modelo de correlación de señales neuronales de detección de comportamiento visual-cerebro, podemos descubrir nuevos circuitos neuronales de comportamiento. Los mecanismos de control neuronal conductual de la "jerarquía social animal" (por ejemplo, los ratones de bajo rango darán prioridad para comer a los ratones de alto rango, y los ratones de bajo rango mostrarán un comportamiento de obediencia) siempre ha sido un tema importante en el mundo académico, es decir , cómo juzgan los mamíferos a otros individuos ya otros individuos ¿Cuál es su estatus de grupo social? ¿Cuál es el mecanismo de control neural detrás de esto? Dado que el comportamiento animal a nivel social es un concepto conductual complejo, este problema siempre ha sido un problema difícil que no ha sido resuelto por la comunidad académica. En un video de competencia de grupo de ratones a gran escala, posicionamos el comportamiento de la "jerarquía social animal" en base a los sistemas y modelos anteriores, y registramos el estado de actividad cerebral del comportamiento de la jerarquía social animal al mismo tiempo, y analizamos profundamente el comportamiento social animal. comportamiento jerárquico en el cerebro El mecanismo de formación, es decir, el descubrimiento de que el circuito del hipotálamo lateral de la corteza prefrontal medial (mPFC-LH) funciona para controlar el comportamiento social jerárquico en animales, fue confirmado por rigurosos experimentos biológicos. Esta investigación ha formado un nuevo paradigma de investigación para descubrir circuitos neuronales de funciones de comportamiento desconocidas basadas en el aprendizaje de visión artificial y ha promovido aún más el desarrollo de inteligencia artificial para resolver problemas científicos básicos (AI for Science).

Investigación sobre la comprensión del comportamiento del equipo de Lu Cewu

El trabajo anterior es parte de la acumulación de comprensión del comportamiento del equipo de Lu Cewu durante muchos años. Cómo las máquinas entienden el comportamiento requiere respuestas integrales a las siguientes tres preguntas:

1. La perspectiva de la cognición de la máquina: ¿cómo hacer que las máquinas entiendan el comportamiento?

2. Perspectiva neurocognitiva: ¿Cuál es la relación intrínseca entre la semántica cognitiva de máquina y la neurocognitividad?

3. Perspectiva de la cognición incorporada: ¿cómo transferir el conocimiento de la comprensión del comportamiento a los sistemas robóticos?

e4702962fb26f3a10e0213f1f2d56dcc.png

Figura 2. El trabajo principal del equipo de Lu Cewu en torno a la comprensión del comportamiento.

El trabajo publicado esta vez en "Nature" es para responder a la segunda pregunta. Para las otras dos preguntas, el trabajo principal del equipo es el siguiente:

1. ¿Cómo hacer que la máquina entienda el comportamiento?

El trabajo principal incluye:

  • Motor de conocimiento de la actividad humana HAKE (Motor de conocimiento de la actividad humana)

Para explorar métodos de reconocimiento de comportamiento generalizables, interpretables y escalables, es necesario superar la conexión difusa entre los patrones de comportamiento y la semántica, y la larga cola de distribución de datos. A diferencia del modelo general de "caja negra" de aprendizaje profundo directo, el equipo ha creado un motor de razonamiento conductual basado en datos y guiado por el conocimiento HAKE (sitio web de código abierto: http://hake-mvig.cn/home/):

9b5a2d9ed46f255383bc953dd11ea547.png

Figura 3.  Marco del sistema HAKE

HAKE divide la tarea de comprender el comportamiento en dos etapas. Primero, los patrones visuales se asignan al espacio primitivo del estado local del cuerpo humano, y los primitivos que son limitados y cercanos a los átomos completos expresan varios patrones de comportamiento; luego, los primitivos se programan de acuerdo con reglas lógicas para una semántica de comportamiento razonable. HAKE proporciona una gran base de conocimientos de primitivas conductuales para respaldar la descomposición primitiva eficiente y completa la comprensión conductual con la ayuda de la generalización combinatoria y el razonamiento simbólico neuronal diferenciable.

(1) Las reglas se pueden aprender: HAKE puede extraer y verificar automáticamente reglas lógicas basadas en una pequeña cantidad de conocimiento previo del comportamiento humano-primitivas, es decir, resumir las reglas de combinación primitiva y realizar una verificación deductiva en datos reales para encontrar efectivo Y reglas generalizables para descubrir reglas de comportamiento desconocidas, como se muestra en la Figura 4.

7a7c967cdabd073af28cca744b5c03ab.png

Figura 4. Aprendiendo reglas de comportamiento invisibles

(2) Límite superior del rendimiento humano: en el conjunto de pruebas de detección de comportamiento a nivel de instancia de comportamiento complejo de 87 clases (10 000 imágenes), el rendimiento del sistema HAKE con detección primitiva completa puede incluso acercarse al rendimiento de percepción del comportamiento humano, verificando su enorme potencial.

(3) Comprensión del comportamiento "Prueba de Turing":

74edbee4a27ec58bc66addf04438e72e.png

Figura 5. Dejar que las máquinas (HAKE) y los humanos borren algunos píxeles hace que sea imposible entender el comportamiento de la imagen La prueba de Turing muestra que el "método de borrado" de HAEK es muy similar al de los humanos.

También proponemos una "prueba de Turing" especial: si una máquina puede borrar píxeles clave de una imagen para que los sujetos humanos no puedan distinguir el comportamiento, se considera que puede comprender mejor el comportamiento. Que HAKE y humanos hagan esta operación de borrado, respectivamente. Y pide a otro grupo de voluntarios que haga la prueba de Turing, preguntando si esta operación de borrado es humana o una operación de MERLUZA. La tasa correcta de discriminación humana es de alrededor del 59,55 % (50 % de adivinanzas aleatorias), lo que indica que la "técnica de borrado" de HAKE es muy similar a la de los humanos, lo que confirma que la comprensión de la "interpretabilidad" del comportamiento es similar a la de los humanos.

  • Modelos computacionales generalizables inspirados en el cerebro para objetos de comportamiento (Nature Machine Intelligence)

Para un comportamiento específico (como "lavar"), el cerebro humano puede abstraer el concepto dinámico generalizado de comportamiento, que es aplicable a diferentes objetos visuales (como ropa, juegos de té, zapatos), y luego reconocer el comportamiento. La investigación en el campo de la neurociencia ha encontrado que para la entrada continua de señales visuales, en el proceso de formación de la memoria humana, la información dinámica espaciotemporal y la información del objeto llegan al hipocampo a través de dos vías de información relativamente independientes para formar una memoria completa, lo que trae la posibilidad de comportamiento de los objetos. de generalizabilidad.

ab6dda51143775874a79db629c1b59a8.png

Figura 6.  Desacoplamiento de conceptos de objetos de comportamiento y conceptos de dinámica de comportamiento, lo que resulta en generalización.

Basado en la inspiración de la ciencia del cerebro, el equipo de Lu Cewu propuso un modelo estructural semiacoplado (SCS) adecuado para información de alta dimensión al imitar el mecanismo de los objetos de comportamiento cognitivo humano y los conceptos dinámicos que trabajan de forma independiente en varias regiones del cerebro para lograr la conciencia. el concepto de objetos visuales conductuales y el concepto de dinámica conductual se memorizan y almacenan en dos neuronas relativamente independientes. Se diseña un mecanismo de retropropagación de desacoplamiento bajo el marco del modelo de acoplamiento profundo para obligar a los dos tipos de neuronas a enfocarse solo en sus propios conceptos, lo que preliminarmente realiza la generalización de la comprensión del comportamiento a los objetos sujeto del comportamiento. El trabajo de modelo estructural semiacoplado propuesto se publicó en "Nature Machine Intelligence" y ganó el premio Outstanding Young Paper Award de la Conferencia Mundial de Inteligencia Artificial de 2020. 

3e036e23fc9919c7419194680a6c3911.png

                                        secuencia de vídeo neurona objeto neurona dinámica

Figura 7. Visualización de neuronas que representan "objetos visuales" y "conceptos dinámicos de comportamiento" "Nature Machine Intelligence"

  • Estimación de la pose humana

La estimación de la pose humana es una base importante para la comprensión del comportamiento. Este problema consiste en obtener una percepción precisa bajo restricciones estructurales. Centrarse en el problema de la percepción bajo restricciones estructurales, coincidencia de competencia gráfica, optimización global del flujo de actitud y movimiento inverso híbrido neural-analítico. optimización se proponen Algoritmos para resolver sistemáticamente los problemas de interferencia de multitudes densas, seguimiento de postura inestable y errores graves de sentido común del cuerpo humano 3D en el sentido de la estructura de movimiento humano, y se publicaron más de 20 artículos en CVPR, ICCV y otra computadora superior conferencias de visión;

11aab1edb3fbe92623e6cd37123c76a6.png

Figura 8. Trabajo consciente de la estructura.

Se han acumulado resultados de investigación relevantes para formar el sistema de código abierto AlphaPose (https://github.com/MVIG-SJTU/AlphaPose), que ganó 5954 estrellas (1656 bifurcaciones) en la comunidad de código abierto GitHub, y GitHub ocupa el puesto 1.6 de los primeros 100.000. Es ampliamente utilizado en el campo de sensores, robótica, medicina y construcción urbana. Después de la estimación de poses, el equipo formó Alphaction, un comportamiento de video de código abierto que comprende el marco de código abierto (https://github.com/MVIG-SJTU/AlphAction).

2. ¿Cómo transferir el conocimiento de la comprensión del comportamiento a los sistemas robóticos?

Explore la comprensión de la naturaleza del comportamiento humano en combinación con una perspectiva en primera persona, desde la simple consideración de "lo que él/ella está haciendo" hasta la consideración conjunta de "qué estoy haciendo yo". Este paradigma de investigación es también la idea de investigación de "IA incorporada". Explorar la transferencia de esta capacidad de comprensión y el conocimiento del comportamiento aprendido a una ontología inteligente incorporada (robot humanoide), de modo que el robot inicialmente tenga "capacidad de comportamiento humano" y finalmente lo impulse a completar algunas tareas en el mundo real, sentando las bases para robots de servicio general. La solución de los problemas científicos anteriores: (1) mejorará en gran medida el rendimiento de la detección semántica del comportamiento y mejorará el alcance de la comprensión semántica; (2) mejorará efectivamente la capacidad de los agentes inteligentes (especialmente los robots humanoides) para comprender el mundo real, y al mismo tiempo, de acuerdo con el mundo real en el proceso de completar tareas. La retroalimentación del mundo prueba la comprensión de la naturaleza de los conceptos de comportamiento de la máquina, sentando una base importante para la realización de robots inteligentes de propósito general. 

En los últimos años, el equipo de Lu Cewu ha cooperado con Feixi Technology en el campo de la inteligencia incorporada para construir GraspNet (https://graspnet.net/anygrasp.html), un marco de agarre de objetos universal, que realiza cuerpos rígidos, objetos deformables y objetos transparentes en cualquier escena Para el agarre de objetos invisibles de este tipo, el índice PPH (picks per hour) superó el nivel humano por primera vez, que fue tres veces mayor que el algoritmo DexNet anterior de mejor rendimiento y documentos relacionados. fueron citados 70 veces en el plazo de un año desde su publicación. El agarre de objetos es el primer paso en la manipulación robótica y sienta una buena base para este proyecto.

fc2380e1ac7322dfe21808b9e5f37ad0.gif

Percepción de la interacción del modelo de objeto-comportamiento del robot

Realice el aprendizaje conjunto y la mejora iterativa de la capacidad de ejecución del comportamiento del robot y la comprensión del conocimiento del objeto, reduzca esencialmente el error de estimación de percepción del modelo de objeto a través de la interacción del robot y mejore aún más la capacidad de ejecución del comportamiento del robot en función de la comprensión del conocimiento del objeto. En comparación con el reconocimiento de objetos visual puro anterior, la interacción aporta nuevas fuentes de información y produce una mejora esencial en el rendimiento de la percepción. Como se muestra en la Figura 9 y el video,

00a60be0fee0a0bc1e5fed53a8dca59e.png

Figura 9. Modelo de conocimiento de objetos: mejora iterativa de la toma de decisiones del comportamiento del robot

46a471828750a69088ec9ae902d2094a.gif

d7da17fb1188ce3ff9bbe7df898dec04.gif

Figura 10. Percepción de interacción: aprendizaje conjunto del comportamiento del robot (arriba) y comprensión del modelo (abajo) (ejecutar el comportamiento mientras se mejora la percepción correctiva)

El trabajo relacionado es el artículo "SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional, and Incremental Robot Learning" (Sistema SAGCI: A Sample-Oriented Efficient, Scalable, Composable, and Incremental Robot Learning Framework) publicado en ICRA 2022) .

  • Sitio web: https://mvig.sjtu.edu.cn/research/sagci/index.html

  • Vídeo: https://www.bilibili.com/video/BV1H3411H7be/

Cewu Lu, profesor y supervisor de doctorado de la Universidad Jiaotong de Shanghai, su dirección de investigación es la inteligencia artificial. En 2018, MIT Technology Review lo seleccionó como una de las 35 élites innovadoras menores de 35 años en China (MIT TR35) y en 2019, Qiushi le otorgó el premio Outstanding Young Scholar.

 
  

ICCV y CVPR 2021 Descarga de papel y código

Respuesta entre bastidores: CVPR2021, puede descargar los documentos de CVPR 2021 y la colección de documentos de código abierto

Respuesta de antecedentes: ICCV2021, puede descargar los documentos de ICCV 2021 y la colección de documentos de código abierto

Respuesta de fondo: revisión de Transformer, puede descargar las últimas 3 revisiones de Transformer en PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

Supongo que te gusta

Origin blog.csdn.net/amusi1994/article/details/124287686
Recomendado
Clasificación