Convaincre ou persévérer ? Vue d'ensemble de l'industrie de la vision par ordinateur

1 De chaud à controversé

La vision par ordinateur (CV en abrégé) est une discipline qui étudie comment permettre aux ordinateurs d'obtenir des informations à partir d'images ou de séquences d'images et
de comprendre leurs informations.Son objectif principal est d'extraire des descriptions du monde à partir d'images ou de séquences d'images. D'un point de vue technique, il
étudie comment utiliser des algorithmes pour simuler le système visuel humain, afin d'accomplir une série de tâches que l'homme peut accomplir par la vision.L'application la plus connue
est la "reconnaissance faciale".
$Photos en ligne, en cas d'infraction, veuillez contacter pour supprimer$

En tant que l'un des domaines liés à l'apprentissage profond à la croissance la plus rapide au cours des deux dernières décennies, la vision par ordinateur a fait rêver et s'envoler d'innombrables techniciens
. Il y a deux raisons principales pour lesquelles les gens recherchent la vision par ordinateur : premièrement, ce domaine est très intéressant et a le potentiel de changer le monde.
80% des informations obtenues par le cerveau humain dépendent de la formation de la vision, et les avantages économiques et sociaux apportés par la simulation réussie du système visuel humain sont incommensurables.
D'un point de vue scientifique, la vision par ordinateur vaut toute une vie de recherche pour les chercheurs. En entrant dans ce domaine, vous aurez la possibilité d'avoir votre propre
carrière (carrière), pas seulement un emploi (emploi). Deuxièmement, au début du 21e siècle, le domaine de la vision par ordinateur a connu un développement rapide et
compte un grand nombre de scénarios d'atterrissage réels, ce qui signifie que ce domaine a une demande industrielle, un potentiel académique et, surtout, une
valeur économique élevée. Ces facteurs font de la vision par ordinateur un favori sur le marché des capitaux, et le prix des talents dans l'industrie a également augmenté.La vision par ordinateur est devenue la
direction de développement de carrière dont rêvent de nombreuses personnes.
Mais bientôt, les gens se tiennent à l'écart de la vision par ordinateur. Sans oublier que le deep learning lui-même est un sujet avec un certain seuil.A
l'automne 2019, le recrutement des postes d'algorithmes a également vu une scène de "Crépuscule des dieux".Les postes de CV
ont presque formé un marché de vendeurs complet. Depuis lors, les gens pensent que le domaine de la vision par ordinateur a été sérieusement impliqué et la recherche universitaire a stagné.Bien qu'il existe de nombreux
scénarios d'atterrissage industriel, le coût est énorme.Cela semble brillant et brillant, mais la performance des coûts n'est pas élevée. Tout à coup,
une scène de "grande évasion" de la vision par ordinateur s'est formée. De nombreux diplômés rêvant d'IA se sont tournés vers des postes de développement, ont abandonné la vision par ordinateur et ont même complètement abandonné la route de l'IA.
De chaude à pleine de controverses, la vision par ordinateur n'a traversé que quelques années, ce qui est lié à la montée et à la chute de la tendance mondiale de l'IA et à l'augmentation des
Être optimiste quant au domaine de la vision par ordinateur y est pour beaucoup, mais cela est davantage causé par les caractéristiques académiques du seuil bas, de la limite supérieure élevée et de la courbe d'apprentissage abrupte dans le champ de vision
.

2 Seuil bas, limite supérieure haute, courbe d'apprentissage abrupte

L'apprentissage en profondeur est une technologie avec un seuil. Quiconque comprend un peu les concepts d'« algorithmes » et d'« intelligence artificielle » n'ose pas facilement dire que l'apprentissage en profondeur, en particulier la vision par ordinateur, a un seuil bas
. Mais dans l'industrie de la vision, comparé au fait d'atteindre le niveau de « familiarité » ou de « compétence », commencer avec la vision est en effet
trop facile - tout d'abord, tout le monde sait que le cœur de la vision par ordinateur est le réseau neuronal convolutif CNN, alors apprenez CNN d'abord C'est vrai, généralement un
excellent professeur n'a besoin que de 30 minutes pour donner aux gens une impression générale du flux de travail du réseau de neurones convolutifs. Le reste est de
trouver un morceau de code sur github ou même CSDN, Baidu, Après quelques jours de bricolant et exécutant le code, on considère qu'il a terminé le premier
"réseau de neurones du système de vision" de la vie. Pour les modèles plus difficiles, les résultats peuvent également être facilement obtenus en utilisant la méthode d'ajustement du package. Quelques personnes trouveront quelques
exemples de reconnaissance d'images pour compléter leur propre apprentissage, mais la plupart des gens ne s'arrêtent qu'à parcourir le code (d'autres personnes), puis passent au domaine suivant, ce qui n'est pas difficile
.

Mais apprendre de cette manière est encore loin de devenir un "talent de la vision par ordinateur". Beaucoup de gens sont abasourdis après avoir terminé l'étude des modèles classiques, et
constateront qu'ils "n'ont aucune idée où aller plus loin", car il n'y a que quelques modèles classiques dans ce domaine, et il semble qu'il n'y ait plus de
contenu à apprendre (Algorithmes d'apprentissage, en plus des modèles d'apprentissage, que pouvez-vous apprendre d'autre ?). Mais en regardant l'
exigence nue de "top papier" dans les conditions de recrutement, je ne peux pas imaginer d'où le papier devrait provenir. Je ne peux que partir du point de vue de "quel domaine est bon pour le papier". À ce stade, vous avez
atteint le goulot d'étranglement de l'avancement de la vision par ordinateur. Le maître est dans l'atmosphère et vous êtes au 18e étage sous terre, mais vous ne pouvez pas voir d'où vient la différence entre vous
. Même si vous avez travaillé dur pour trouver la différence entre vous, vous constaterez que vous ne pouvez pas passer directement de la simple architecture CNN au
royaume de Dieu selon lequel "la lecture de documents, l'écriture de documents et la recherche de formules peuvent les reproduire". Plus de 90 % des apprenants sont incapables de franchir cette courbe d'apprentissage abrupte et de continuer à avancer. Il
n'est pas surprenant que la vision par ordinateur soit trop exigeante et présente une sérieuse introversion.
Pourquoi existe-t-il une telle situation dans le champ visuel? Il existe deux causes profondes :

Premièrement, le domaine couvert par la vision par ordinateur va bien au-delà de CNN lui-même. La convolution n'est que la pointe de l'iceberg, et la plupart des gens spéculent sur la direction de la vision par ordinateur sans le savoir.

Deuxièmement, la "vision profonde" avec un réseau de neurones convolutifs car le noyau est un domaine trop jeune, et les plus rares dans ce domaine sont des pionniers, et les spéculateurs ne peuvent pas devenir des pionniers