Comprender uno de los mayores logros de AI: las limitaciones de las redes neuronales convolucionales

Autor | Ben Dickson

Traductor | Champagne Supernova

图 | CSDN Descargar de Vision China

Venta | CSDN (ID: CSDNnews)

Después de un largo período de silencio, la inteligencia artificial está entrando en un nuevo período de desarrollo vigoroso, que se debe principalmente al rápido desarrollo del aprendizaje profundo y las redes neuronales artificiales en los últimos años. Más precisamente, el nuevo interés en el aprendizaje profundo se debe en gran medida al éxito de las redes neuronales convolucionales (CNN) , una estructura de red neuronal que es particularmente buena para procesar datos visuales.

Pero si alguien te dice que hay fallas fundamentales en las redes neuronales convolucionales, ¿qué piensas? Este punto fue presentado por el profesor Geoffrey Hinton, conocido como "el creador del aprendizaje profundo" y el "padre de las redes neuronales", en el discurso de apertura de la conferencia AAAI, la principal conferencia sobre inteligencia artificial en 2020. AAAI La Conferencia de la Asociación de Inteligencia Artificial ) es una de las principales conferencias de inteligencia artificial cada año.

Hinton, junto con Yann LeCun y Yoshua Bengio, asistieron a la reunión. Los tres grandes gigantes del aprendizaje profundo, ganadores del Premio Turing, también son conocidos como el "padrino del aprendizaje profundo" por la industria. Hinton habló sobre las limitaciones de las redes neuronales convolucionales (CNN) y las redes de cápsulas, y sugirió que esta es su próxima dirección innovadora en el campo de la inteligencia artificial.

Como todos sus discursos, Hinton profundiza en muchos detalles técnicos, que hacen que las redes neuronales convolucionales sean cada vez más ineficientes y diferentes en comparación con los sistemas visuales humanos. Este artículo explicará algunos de los puntos principales que hizo en la conferencia. Pero antes de tocar estos puntos, comprendamos algunos conocimientos básicos sobre inteligencia artificial, así como los antecedentes y las razones por las cuales las redes neuronales convolucionales (CNN) son tan importantes para la comunidad de inteligencia artificial.

Soluciones de visión por computadora

En los primeros días de la inteligencia artificial, los científicos intentaron crear una computadora que pudiera "ver" el mundo como los humanos. Estos esfuerzos han llevado a la creación de un campo de investigación completamente nuevo, que es la visión por computadora .

Las primeras investigaciones en visión por computadora implicaron el uso de inteligencia artificial simbólica , donde cada regla debe ser especificada por un programador humano. Pero el problema es que no todas las funciones del dispositivo visual humano pueden descomponerse con reglas claras de programas de computadora. Por lo tanto, la tasa de uso y la tasa de éxito de este método son muy limitadas.

Otro método diferente es el aprendizaje automático . Contrariamente a la inteligencia artificial simbólica, los algoritmos de aprendizaje automático tienen una estructura general y desarrollan sus propias capacidades de comportamiento al examinar ejemplos de capacitación. Sin embargo, la mayoría de los algoritmos de aprendizaje automático tempranos todavía requieren mucho trabajo manual para diseñar componentes para detectar características relacionadas con la imagen.

       

Redes neuronales convolucionales (CNN), a diferencia de los dos métodos anteriores, este es un modelo de inteligencia artificial de extremo a extremo que desarrolla su propio mecanismo de detección de características. Una red neuronal convolucional multinivel bien entrenada reconocerá automáticamente las características en capas, desde esquinas simples hasta objetos complejos, como rostros humanos, sillas, automóviles, perros, etc.

Las redes neuronales convolucionales (CNN) fueron introducidas por primera vez por LeCun en la década de 1980, cuando era asistente de investigación posdoctoral en el laboratorio Hinton de la Universidad de Toronto. Sin embargo, debido a la gran demanda de cómputo y datos en redes neuronales convolucionales, se suspendieron, y su adopción en ese momento era muy limitada. Luego, después de treinta años de desarrollo, y con la ayuda de enormes avances realizados en hardware de cómputo y tecnología de almacenamiento de datos, las redes neuronales convolucionales comenzaron a desarrollar todo su potencial.

Hoy, gracias a los grandes grupos de cómputo, hardware dedicado y grandes cantidades de datos, las redes neuronales convolucionales se han utilizado ampliamente y de manera beneficiosa en la clasificación de imágenes y el reconocimiento de objetos.

Cada capa de la red neuronal convolucional extraerá características específicas de la imagen de entrada.

La diferencia entre las redes neuronales convolucionales (CNN) y la visión humana

En un discurso en la conferencia AAAI, Hinton señaló: "Las redes neuronales convolucionales (CNN) hacen un uso completo del aprendizaje de extremo a extremo. Resulta que si una función es buena en un lugar, será buena en otros lugares, así que Han logrado un gran éxito. Esto les permite combinar evidencia y generalizar bien en diferentes lugares. Sin embargo, son muy diferentes de la percepción humana ".

Uno de los desafíos clave de la visión por computadora es lidiar con las diferencias de datos en el mundo real. Nuestro sistema de visión puede reconocer objetos desde diferentes ángulos, diferentes fondos y diferentes condiciones de iluminación. Cuando un objeto está parcialmente oscurecido por otros objetos o coloreado de una manera extraña, nuestro sistema visual utiliza pistas y otros conocimientos para completar la información que falta y el motivo de nuestra vista.

Resulta que es muy difícil crear inteligencia artificial que pueda replicar la misma función de reconocimiento de objetos.

Hinton dijo: "Las redes neuronales convolucionales (CNN) están diseñadas para resolver el problema de la traducción de objetos". Esto significa que una red neuronal convolucional bien entrenada puede reconocer un objeto independientemente de su posición en la imagen. Pero no pueden manejar bien otros efectos, como la rotación y el escalado.

Según Hinton, una forma de resolver este problema es usar mapas 4D o 6D para entrenar la inteligencia artificial y luego realizar la detección de objetos. Añadió: "Pero esto es realmente prohibitivo".

Actualmente, nuestra mejor solución es recopilar una gran cantidad de imágenes y mostrar cada objeto en una ubicación diferente. Luego, capacitamos a la red neuronal convolucional en este enorme conjunto de datos, con la esperanza de que pueda ver suficientes ejemplos de objetos para generalizar, y pueda detectar objetos con precisión confiable en el mundo real. Conjuntos de datos como ImageNet contienen más de 14 millones de imágenes anotadas, que están diseñadas para lograr este objetivo.

Hinton dijo: "Esto no es muy efectivo. Esperamos que la red neuronal convolucional pueda extenderse fácilmente a un nuevo punto de vista. Si aprenden a reconocer algo, y lo amplías 10 veces y lo giras 60 grados, entonces esto No les causará ningún problema. Sabemos que los gráficos por computadora son así, y esperamos que las redes neuronales convolucionales se vean más así ".

De hecho, ImageNet ha demostrado ser defectuoso, y actualmente es el punto de referencia preferido para evaluar los sistemas de visión por computadora. A pesar del gran conjunto de datos, no puede capturar todos los ángulos y posiciones posibles de los objetos. Consiste principalmente en imágenes tomadas en un ángulo conocido bajo condiciones de iluminación ideales.

Esto es aceptable para el sistema visual humano porque puede generalizar fácilmente el conocimiento. De hecho, cuando observamos un objeto desde múltiples ángulos, generalmente podemos imaginar cómo se ve en una nueva posición y diferentes condiciones visuales.

Pero las redes neuronales convolucionales (CNN) necesitan ejemplos detallados para ilustrar los casos con los que deben lidiar, y no poseen la creatividad del pensamiento humano. Los desarrolladores de aprendizaje profundo generalmente intentan resolver este problema aplicando un proceso llamado "aumento de datos", en el que voltean la imagen o la giran un poco antes de entrenar la red neuronal. De hecho, la red neuronal convolucional se entrenará en múltiples copias de cada imagen, y cada copia será ligeramente diferente. Esto ayudará a que la inteligencia artificial se generalice a los cambios en el mismo objeto. Hasta cierto punto, el aumento de datos hace que los modelos de inteligencia artificial sean más robustos.

Sin embargo, el aumento de datos no puede cubrir situaciones extremas que las redes neuronales convolucionales y otras redes neuronales no pueden manejar, como una silla volcada o una camiseta arrugada colocada en una cama. Estas son todas situaciones en las que la manipulación de píxeles no se puede lograr en la vida real.

ImageNet vs. realidad: en ImageNet (columna izquierda), los objetos se colocan de forma ordenada, en condiciones ideales de fondo e iluminación. El mundo real es mucho más caótico (fuente: objectnet.dev)

Algunas personas han resuelto este problema de generalización creando puntos de referencia de visión por computadora y conjuntos de datos de capacitación que representan mejor la realidad caótica del mundo real. Sin embargo, aunque pueden mejorar los resultados de los sistemas actuales de inteligencia artificial, no resuelven el problema fundamental de la generalización de la visión cruzada. Siempre habrá nuevos ángulos, nuevas condiciones de iluminación, nuevos colores y poses, y estos nuevos conjuntos de datos no pueden contener todas estas situaciones. Estas nuevas situaciones incluso harán que el sistema de inteligencia artificial más grande y avanzado se convierta en un caos.

Las diferencias pueden ser peligrosas

Desde el punto de vista presentado anteriormente, las redes neuronales convolucionales (CNN) reconocen claramente los objetos de una manera muy diferente a los humanos . Sin embargo, estas diferencias no solo tienen limitaciones en la generalización débil, sino que también necesitan más ejemplos para aprender un objeto. La representación interna de los objetos generados por las redes neuronales convolucionales también es muy diferente de la red neuronal biológica del cerebro humano.

¿Cómo se manifiesta esto? "Puedo tomar una foto y agregar un poco de ruido, y la red neuronal convolucional lo reconocerá como algo completamente diferente, y apenas puedo ver la diferencia entre ellos. Esto parece realmente extraño, yo Piense en esto como evidencia. Las redes neuronales convolucionales en realidad están utilizando información que es completamente diferente de la nuestra para reconocer imágenes ", dijo Hinton en un discurso de apertura en la conferencia de la AAAI.

Estas imágenes ligeramente modificadas se denominan " muestras adversas " y son temas de investigación candentes en el campo de la inteligencia artificial.

             

Las muestras adversarias pueden hacer que las redes neuronales clasifiquen erróneamente las imágenes sin afectar el ojo humano.

Hinton dijo: "No es que esto esté mal, simplemente usan una forma de trabajo completamente diferente, y su enfoque completamente diferente tendrá algunas diferencias en cómo se generalizan".

Pero muchos ejemplos muestran que la interferencia contradictoria puede ser extremadamente peligrosa. Cuando su clasificador de imágenes marca incorrectamente al panda como un gibón, todo esto es lindo y divertido. Sin embargo, cuando el sistema de visión por computadora de un automóvil sin conductor carece de una señal de alto, y un pirata informático malvado que pasa por alto el sistema de seguridad de reconocimiento facial, o Google Photos marca a los humanos como gorilas, tendrá grandes problemas.

Ha habido mucha investigación sobre la detección de disturbios adversos y la creación de potentes sistemas de inteligencia artificial que resisten los disturbios adversos . Sin embargo, las muestras adversas también nos recuerdan que nuestro sistema de visión ha podido manejar el mundo que nos rodea después de varias generaciones de evolución, y hemos creado nuestro mundo para adaptarnos a nuestro sistema de visión. Por lo tanto, si nuestros sistemas de visión por computadora funcionan de una manera fundamentalmente diferente de la visión humana, serán impredecibles y poco confiables a menos que estén respaldados por tecnologías complementarias como el lidar y el mapeo de radar.

El sistema de coordenadas y la relación parte-todo son importantes

Otro problema señalado por Geoffrey Hinton en el discurso de apertura de la conferencia AAAI es que las redes neuronales convolucionales no pueden entender las imágenes desde la perspectiva de los objetos y sus partes. Reconocen las imágenes como puntos de píxeles dispuestos en diferentes patrones. Tampoco tienen una representación interna explícita de entidades y sus relaciones.

"Cuando imagina una red neuronal convolucional como el centro de cada ubicación de píxeles, describirá cada vez más lo que sucede en esa ubicación de píxeles, dependiendo de cada vez más contexto. Al final, se vuelve tan rico La descripción, para que sepa qué objetos existen en la imagen. Pero no analizaron explícitamente la imagen ", dijo Hinton.

Nuestra comprensión de la composición de los objetos nos ayuda a comprender el mundo y comprender cosas que nunca antes habíamos visto, como esta peculiar tetera.

             

Desglosar un objeto en varias partes nos ayuda a comprender su naturaleza. ¿Es esto un baño o una tetera? (Fuente: rompiendo listas)

Las redes neuronales convolucionales aún carecen de un sistema de coordenadas, que es un componente básico de la visión humana. Básicamente, cuando vemos un objeto, desarrollamos un modelo mental sobre su dirección, que nos ayuda a analizar sus diferentes características. Por ejemplo, en la imagen a continuación, considere la cara de la derecha. Si lo pone boca abajo, verá la cara a la izquierda. Pero, de hecho, no necesita voltear físicamente la imagen para ver la cara de la izquierda. Simplemente ajuste el sistema de coordenadas mentalmente, puede ver las dos caras, independientemente de la dirección de la imagen.

Hinton señaló: "De acuerdo con el sistema de coordenadas aplicado, tendrás una percepción interna completamente diferente. Las redes neuronales convolucionales realmente no pueden explicar esto. Les das una entrada, tienen una percepción, y la percepción no depende de lo impuesto Sistema de coordenadas. Creo que esto está relacionado con muestras adversas y el hecho de que las redes neuronales convolucionales perciben de una manera completamente diferente a los humanos ".

Aprende de los gráficos por computadora

Hinton señaló en un discurso en la conferencia AAAI que una forma muy conveniente de resolver la visión por computadora es hacer un gráfico inverso. El modelo tridimensional de gráficos por computadora se compone de una jerarquía de objetos. Cada objeto tiene una matriz de transformación que define su traducción, rotación y escala en relación con su objeto padre. La matriz de transformación del objeto de nivel superior en cada jerarquía define sus coordenadas y dirección en relación con el origen del mundo.

Por ejemplo, considere un modelo 3D de un automóvil. El objeto base tiene una matriz de transformación 4 × 4, que indica que el centro del automóvil está en coordenadas (X = 10, Y = 10, Z = 0) con rotación (X = 0, Y = 0, Z = 90). El automóvil en sí está compuesto por muchos objetos, como ruedas, chasis, volante, parabrisas, caja de cambios, motor, etc. Cada objeto tiene su propia matriz de transformación, con la matriz principal (el centro del automóvil) como referencia, y definen su posición y orientación. Por ejemplo, el centro de la rueda delantera izquierda se encuentra en (X = -1.5, Y = 2, Z = -0.3). Las coordenadas mundiales de la rueda delantera izquierda se pueden obtener multiplicando su matriz de transformación con su matriz principal.

Algunos de estos objetos pueden tener su propio subconjunto. Por ejemplo, las ruedas están compuestas de neumáticos, llantas, cubos, tuercas y otros componentes. Cada uno de estos subelementos tiene su propia matriz de transformación.

Con esta jerarquía del sistema de coordenadas, puede ubicar y visualizar objetos fácilmente, independientemente de su pose, orientación o punto de vista. Cuando desee renderizar un objeto, multiplique cada triángulo en el objeto 3D por su matriz de transformación y la matriz de transformación de su objeto padre. Luego, alinéelo con el punto de vista (otra multiplicación de matriz) y luego conviértalo a coordenadas de pantalla antes de rasterizar a píxeles.

"Si usted (a alguien que trabaja en gráficos de computadora) dice: '¿Me puede mostrar desde otro ángulo?' No dirán, 'Oh, está bien, estoy feliz. Pero no lo hicimos desde ese ángulo Entrenamiento, así que no podemos mostrarte desde ese ángulo ". Simplemente te muestran desde otro ángulo, porque tienen un modelo 3D, modelan una estructura espacial basada en la relación entre la parte y el todo, y estas relaciones No depende del punto de vista en absoluto ", dijo Hinton. "Creo que es una locura no utilizar esta hermosa estructura al procesar imágenes de objetos 3D".

Capsule Network (Capsule Network) es otro nuevo proyecto ambicioso de Hinton, que intenta hacer gráficos de computadora inversos. Aunque la red de cápsulas debe tener su propio conjunto independiente de cosas, la idea básica detrás de esto es tomar una imagen, extraer sus objetos y partes, definir su sistema de coordenadas y crear una estructura modular de la imagen.

Las redes de cápsulas todavía están en desarrollo, y han pasado por muchas iteraciones desde su lanzamiento en 2017. Pero si Hinton y sus colegas pueden hacer que funcionen con éxito, estaremos más cerca de replicar la visión humana.

Este artículo es una traducción CSDN, indique la fuente.

【FIN】

Más recomendaciones interesantes

CEO de Microsoft Satir · Nadella: No vuelva a crear la rueda, tecnología actualización y densidad fuertes

GitHub star 10,000+, el camino de código abierto del principal proyecto de Apache ShardingSphere

HKUST académico Zheng Guangting futuro interrogatorio, reveló las últimas aplicaciones y la práctica de la gripe aviar

Challenge Desafío inteligente de O&M bajo una gran promoción: ¿Cómo puede Ali resistirse a la "Noche de gatos doble 11"?

Plaza Ethernet 2.0 Custodia del juego y poner en práctica MPC

He escrito 9 preguntas de entrevista MySQL para usted con mucho cuidado.

Cada "observación" que pides, me lo tomo en serio

Artículos originales publicados en 1979 · 40 mil likes + · 18.39 millones de visitas

Supongo que te gusta

Origin blog.csdn.net/csdnnews/article/details/105672151
Recomendado
Clasificación