L'avenir de l'intelligence artificielle --- avec le bon sens et le monde abstrait

Si l’IA à grand modèle comme ChatGPT est la chose la plus en vogue, les modèles mondiaux en sont la bannière.

Deux des trois chercheurs en IA les plus influents de l'histoire, Yann LeCun et Yoshua Bengio, ont été salués comme la voie la plus probable vers la superintelligence de l'IA, représentant une vision de l'IA qui ne nous apprend pas à connaître notre monde par la force brute ou par l'apprentissage par cœur ( comme ChatGPT), mais en en formant des représentations abstraites, à la manière des humains.

Dans ce récit, l’architecture de prédiction conjointe d’intégration basée sur l’image (I-JEPA) construite par Meta devient le premier succès tangible dans la réalisation de cette vision.

Cela nécessite dix fois moins de ressources et ne nécessite aucune astuce humaine pour aider les machines à comprendre les concepts les plus simples de notre monde, nous donnant ainsi un aperçu d’un avenir où l’intelligence artificielle apprend comme le font les humains.

On a beaucoup parlé de GPT-4 et de son potentiel à être le premier précurseur de l’AGI (Artificial General Intelligence), ou le moment où une vie d’IA superintelligente et sensible naît dans notre monde.

Mais à quel point GPT-4 est-il intelligent ?

"Ce n'est pas aussi bon qu'un chien ", déclare Yann LeCun, scientifique en chef de Meta .

Mais comment un mannequin capable d’imiter impeccablement Shakespeare peut-il être considéré comme stupide ?

par exemple, conduite autonome

Pensez à apprendre à conduire une voiture.

En moyenne, il faut environ 20 heures à une personne pour apprendre à le faire correctement.

Les systèmes de conduite autonome, en revanche, nécessitent des milliers d’heures de formation et des milliards de points de données, mais sont moins capables de conduire que les humains.

Alors, comment pouvons-nous, les humains, apprendre d’une manière plus efficace que nos modèles de pointe ?

La raison en est peut-être le modèle mondial, une théorie qui a récemment gagné en popularité dans la communauté scientifique.

Un modèle du monde est une représentation abstraite du monde créée par le cerveau humain pour aider les humains à interagir et essentiellement à survivre dans leur environnement.

Ces modèles mondiaux reposent sur un concept clé : ils sont capables de prédire des événements imprévus pour nous aider à piloter nos actions et minimiser les risques de blessures ou de décès.

En d’autres termes, ils sont considérés comme faisant partie de ce que nous appelons le « bon sens », un sens qui nous aide à réfléchir aux meilleures décisions à chaque étape de notre vie.

S’il y a une chose qui est claire à propos des grands modèles comme ChatGPT, c’est qu’à l’heure actuelle, ils manquent totalement de bon sens.

Les chiens vous montreront pourquoi.

Chiens et GPT

En comparant ChatGPT à ce que Yann a fait avec les chiens, on voit bien à quel point les méthodes d'apprentissage sont différentes.

Par exemple, un chien sait que sauter d’un balcon au troisième étage n’est pas la meilleure idée en termes de survie, même s’il n’a jamais ou jamais expérimenté ce que ce serait de sauter d’une telle hauteur .

Cependant, pour entraîner un robot IA, il faut l’inciter à sauter, en lui faisant comprendre que pour maintenir son intégrité, il doit éviter de sauter de grandes hauteurs.

Cependant, les chiens, comme les humains, doivent faire face à des décisions dans la vie, sans possibilité de procès ni marge d’erreur.

Dans ce cas, le bon sens entre en jeu et sauve la mise en vous disant « si vous sautez, vous ne verrez pas le lendemain » en levant l'incertitude.

Mais qu'est-ce que cela veut vraiment dire?

Tout simplement, contrairement aux modèles les plus modernes d’aujourd’hui, nous n’avons pas besoin de tout apprendre par essais et erreurs.

En fait, une grande partie de notre apprentissage vient de l’observation partielle du monde.

Cela n’est nulle part plus évident que chez nos plus jeunes, les bébés.

faire allusion à la cause à partir de l'observation

Le graphique ci-dessous représente le temps moyen nécessaire aux bébés pour apprendre une série de concepts humains de base :

Comme Yann l'expliquait dans son premier article sur le sujet , le graphique ci-dessus montre à quel âge les bébés acquièrent généralement diverses notions sur le fonctionnement du monde.

Cela est cohérent avec l'idée selon laquelle des concepts abstraits (tels que le fait que les objets sont soumis à la gravité et à l'inertie) sont acquis en plus de concepts non abstraits (tels que la persistance des objets et l'affectation des objets à de larges catégories).

Le concept clé ici est que la plupart des connaissances sont acquises principalement par l'observation, avec peu d'intervention directe, en particulier au cours des premières semaines et des premiers mois.

Ainsi, on voit bien ce qui manque à l’IA de pointe actuelle : la capacité d’apprendre efficacement par l’observation, lui permettant de s’enraciner dans notre monde et de l’aider à surmonter les incertitudes qui le régissent.

En termes simples, créer un modèle mondial pour une IA revient à lui donner du bon sens.

Alors, comment Meta compte-t-elle renforcer l’intelligence artificielle de la manière la plus puissante possible ?

modèle du monde artificiel

Si vous demandiez au scientifique en chef de l'IA de Meta à quoi ressemblerait l'intelligence autonome, il vous montrerait ce diagramme :

Source : Yann LeCun

Je n'entrerai pas dans les détails, mais fondamentalement, ce que vous devez comprendre, c'est que le modèle mondial fait deux choses :

  • Estimation des informations manquantes sur l'état du monde non fournies par le module de perception (données sensorielles reçues du monde en entrée)
  • Prédire les futurs états possibles du monde

En d’autres termes, il s’agit d’un élément nécessaire pour aider les systèmes d’IA (grands modèles ou non) à prendre de meilleures décisions en supposant que le monde connaît des conséquences incertaines que le modèle doit résoudre pour survivre.

Votre système basé sur ChatGPT est peut-être capable d'écrire comme la plupart des humains, mais il est également capable de faire les hypothèses les plus stupides jamais faites simplement parce qu'ils ne comprennent pas intrinsèquement notre monde ; ils ont simplement appris à imiter le langage.

Par exemple, si nous prenons MidJourney comme exemple, jusqu'à récemment, ce modèle de texte en image avait de sérieux problèmes avec les mains humaines car il ajoutait/manquait presque toujours un nombre aléatoire de doigts à chaque main qu'il dessinait.

La raison est évidente.

Même s’il était capable de générer des dessins et des photos impressionnants, il ne comprenait pas naturellement ce qu’il dessinait.

Il s’agit d’un paradigme paradoxal dans lequel l’IA peut cartographier les choses au mieux, mais ne parvient absolument pas à comprendre ce qu’elle dessine.

Est-ce ainsi que vous comprenez la vie ? Bien sûr que non.

Vous venez d'apprendre ce qu'est une main, vous avez appris la représentation abstraite des mains, ce qui suffit pour que nous puissions les reconnaître, et savoir qu'elles ont généralement cinq doigts.

Cependant, la machine doit analyser chaque pixel de l'image pour arriver à une conclusion, et parmi tous ces milliers de pixels, un certain nombre d'entre eux sont regroupés de manière à représenter une main, qui a généralement cinq doigts.

Ainsi, pour éviter une pléthore d’erreurs comme le problème des doigts, les modèles reçoivent tellement de données qu’ils deviennent d’étonnants imitateurs.

Mais il y a clairement un manque de connaissances ici, car elles sont apprises par cœur.

Mais I-JEPA est le premier modèle qui ressemble vraiment à la façon dont nous apprenons.

Modèle I-JEPA

I-JEPA est la première tentative visant à amener l’intelligence artificielle à apprendre des représentations complexes et abstraites de notre monde.

Avec très peu de formation (comme les humains en auraient besoin), un modèle d'IA devrait être capable de voir un chien dans n'importe quelle situation possible tout en comprenant qu'il s'agit d'un chien.

A cet effet, I-JEPA dispose de l'architecture suivante :

Au lieu d'essayer de reconstruire chaque pixel d'une image comme le font les modèles génératifs actuels, les obligeant à scruter chaque pixel pendant l'entraînement, I-JEPA n'examine qu'une petite partie de l'image et est entraîné à prédire d'autres blocs dans la représentation de l'image Image (indiquée par la couleur ci-dessus).

De cette façon, au lieu de reconstruire des images complètes encore et encore pour masquer des lacunes de compréhension de plus en plus profondes, le modèle est empêché de voir des observations complètes des objets qu'il doit apprendre, ce qui l'oblige à réellement comprendre la sémantique qui les sous-tend .

Plus important encore, I-JEPA peut prédire les représentations manquantes de ces correctifs. En termes simples, cela signifie qu'il faut éviter les détails inutiles et se concentrer sur la compréhension de ce qui est vraiment important dans l'image, sinon le projet échouera.

De plus, en exposant les modèles à des vues partiellement observables de la réalité, vous pouvez entraîner ces modèles à gérer l'incertitude.

Par exemple, si vous voyez le visage de votre chien caché devant la porte de votre chambre, vous n'avez pas besoin de voir le chien en entier pour savoir qu'il est là, car même si vous ne pouvez voir que la moitié de son visage, vous avez développé Il suffit de abstrait que le reste du corps du chien est également là.

Si vous entraînez un modèle à détecter les chiens, mais que vous n'incluez pas des milliers d'images recadrées de chiens dans votre ensemble de données, cela échouera terriblement.

Même avec eux, les résultats ne sont au mieux pas mauvais, car pour ce modèle, ce n'est pas un chien, car leur représentation sémantique n'est pas assez bonne, même si elle est évidemment assez bonne.

l'abstraction est l'intelligence

L’idée de ce modèle mondial ne cessait de grandir dans mon esprit.

Il ne fait aucun doute que former les systèmes d’IA à véritablement comprendre ce qu’ils voient en gérant les incertitudes créées par les observations partielles constitue une prochaine étape indéniable dans notre quête d’une intelligence artificielle générale.

Le fait qu’I-JEPA bat presque tous les autres modèles de classification d’images du secteur avec des exigences de formation dix fois supérieures est également utile.

Mais la clé ici n’est pas le résultat, mais la vision que Meta essaie de réaliser avec l’I-JEPA.

Étant donné que l'I-JEPA a une compréhension plus profonde de ce qu'il voit, il n'a pas besoin de millions d'images ni de temps de formation pour comprendre ce qu'il voit... comme le fait un humain.

Je ne pense pas que les grands modèles, ceux qui apprennent à connaître notre monde en lisant un texte qui le décrit, soient la voie vers la superintelligence.

Mais si nous parvenons à intégrer le modèle mondial dans un modèle plus large... c'est une autre histoire.

Meta et I-JEPA ont commencé à ouvrir la voie.

Guess you like

Origin blog.csdn.net/qq_41929396/article/details/132480150