¿Persuadir o perseverar? Descripción general de la industria de la visión artificial

1 De candente a controvertido

Computer Vision (CV para abreviar) es una disciplina que estudia cómo permitir que las computadoras obtengan información de imágenes o secuencias de imágenes y
comprendan su información. Su objetivo principal es extraer descripciones del mundo a partir de imágenes o secuencias de imágenes. Desde el punto de vista de la ingeniería, estudia
cómo usar algoritmos para simular el sistema visual humano, de modo que se completen una serie de tareas que los humanos pueden realizar a través de la visión. La aplicación más conocida
es el "reconocimiento facial".
$Fotos en línea, si hay alguna infracción, póngase en contacto para eliminar$

Como uno de los campos relacionados con el aprendizaje profundo de más rápido crecimiento en las últimas dos décadas, la visión por computadora ha hecho que innumerables técnicos sueñen y se vayan volando
. Hay dos razones principales por las que la gente persigue la visión artificial: en primer lugar, este campo es muy interesante y tiene el potencial de cambiar el mundo.
El 80% de la información obtenida por el cerebro humano depende de la formación de la visión, y los beneficios económicos y sociales que trae la simulación exitosa del sistema visual humano son inconmensurables.
Desde un punto de vista científico, la visión por computadora vale toda una vida de investigación para los investigadores. Al ingresar a este campo, tendrá la oportunidad de tener su propia
carrera (carrera), no solo un trabajo (trabajo). En segundo lugar, a principios del siglo XXI, el campo de la visión por computadora ha logrado un rápido desarrollo y
tiene una gran cantidad de escenarios de aterrizaje reales, lo que significa que este campo tiene demanda industrial, potencial académico y, lo que es más importante, un alto
valor económico. Estos factores hacen que la visión por computadora sea un favorito en el mercado de capitales, y el precio de los talentos en la industria también ha aumentado.La visión por computadora se ha convertido en la
dirección de desarrollo profesional con la que sueñan muchas personas.
Pero pronto, la gente se alejará de la visión artificial. Sin mencionar que el aprendizaje profundo en sí mismo es un tema con un cierto umbral. En
el otoño de 2019, el reclutamiento de publicaciones de algoritmos también vio una escena de "Twilight of the Gods". Las posiciones de CV
casi han formado un mercado de vendedores completo. Desde entonces, la gente cree que el campo de la visión por computadora se ha involucrado seriamente y la investigación académica se ha estancado. Aunque hay muchos
escenarios de aterrizaje industrial, el costo es enorme. Parece brillante y brillante, pero el rendimiento del costo no es alto. De repente,
se formó una escena de "gran escape" de la visión por computadora. Muchos graduados con sueños de IA se dirigieron a puestos de desarrollo, abandonaron la visión por computadora e incluso abandonaron por completo el camino de la IA.
De candente a llena de controversia, la visión por computadora solo ha pasado por unos pocos años, lo que está relacionado con el auge y la caída de la tendencia global de IA y el aumento de la gente.
Ser optimista sobre el campo de la visión artificial tiene mucho que ver con ello, pero se debe más a las características académicas de umbral bajo, límite superior alto y curva de aprendizaje empinada en el campo de visión
.

2 Umbral bajo, límite superior alto, curva de aprendizaje empinada

El aprendizaje profundo es una tecnología con un umbral. Cualquiera que tenga un poco de comprensión de los conceptos de "algoritmos" e "inteligencia artificial" no se atrevería a decir fácilmente que el aprendizaje profundo, especialmente la visión artificial, tiene un umbral bajo
. Pero en la industria de la visión, en comparación con alcanzar el nivel de "familiaridad" o "competencia", comenzar con la visión es demasiado
fácil; en primer lugar, todos saben que el núcleo de la visión por computadora es la red neuronal convolucional CNN, así que aprenda CNN primero Así es, por lo general, un
excelente maestro solo necesita 30 minutos para dar a las personas una impresión general del flujo de trabajo de la red neuronal convolucional. El resto es encontrar
un fragmento de código en github o incluso CSDN, Baidu, después de unos días de retocando y ejecutando el código, se considera que ha completado la primera
"red neuronal del sistema de visión" en la vida. Para modelos más difíciles, los resultados también se pueden obtener fácilmente utilizando el método de ajuste del paquete. Algunas personas encontrarán algunos
ejemplos de reconocimiento de imágenes para completar su propio aprendizaje, pero la mayoría de las personas solo se detiene en ejecutar el código (de otras personas) y luego pasa al siguiente campo, lo cual no es difícil
.

Pero aprender de esta manera todavía está muy lejos de convertirse en un "talento de visión por computadora". Muchas personas se quedan estupefactas después de completar el estudio de los modelos clásicos, y
encontrarán que "no tienen idea de adónde ir más allá", porque solo hay unos pocos modelos clásicos en este campo, y parece que no hay más
contenido para aprender. (Algoritmos de aprendizaje, además de modelos de aprendizaje, ¿qué más puedes aprender?). Pero mirando el
requisito desnudo de "papel superior" en las condiciones de contratación, no puedo imaginar de dónde debería venir el papel. Solo puedo comenzar desde la perspectiva de "qué campo es bueno para papel". En este punto, ha
llegado al cuello de botella del avance de la visión por computadora. El maestro está en la atmósfera y usted está en el piso 18 bajo tierra, pero no puede ver de dónde proviene la diferencia entre ustedes
. Incluso si ha trabajado duro para encontrar la diferencia entre ustedes, descubrirá que no puede pasar directamente de la arquitectura simple de CNN al
reino de Dios que "leer documentos, escribir documentos y mirar fórmulas pueden reproducirlos". Más del 90 % de los alumnos no pueden cruzar esta curva de aprendizaje empinada y seguir avanzando. No es de
extrañar que la visión por computadora sea demasiado exigente y tenga una gran introversión.
¿Por qué existe tal situación en el campo visual? Hay dos causas fundamentales:

Primero, el campo cubierto por la visión por computadora va mucho más allá de la propia CNN La convolución es solo la punta del iceberg, y la mayoría de las personas especulan sobre la dirección de la visión por computadora sin conocer este hecho.

En segundo lugar, la "visión profunda" con red neuronal convolucional como núcleo es un campo demasiado joven, y los más escasos en este campo son pioneros, y los especuladores no pueden convertirse en pioneros.