Nous vivons une époque de profusion technologique où chaque nouvelle version des intelligences artificielles comme ChatGPT, Claude ou Gemini suscite l’étonnement. Ces machines réussissent des examens complexes, diagnostiquent des pathologies rares ou rédigent des poèmes en quelques secondes. Pour beaucoup, nous avons atteint le sommet de l’intelligence. Pourtant, une question fondamentale se pose : et si ces modèles donnaient simplement l’illusion de comprendre le monde, alors qu’ils ne manipulent en réalité que des représentations statistiques de celui-ci ?
Le paradoxe de Moravec et les limites du langage
Le véritable problème qui préoccupe Yann LeCun, lauréat du prestigieux prix Turing et l’un des pères fondateurs du deep learning, repose sur le paradoxe de Moravec. Ce principe souligne que les tâches intellectuellement complexes sont souvent faciles à reproduire pour une machine, tandis que les actions physiques intuitives lui sont inaccessibles. Par exemple, un enfant de deux ans comprend la notion de gravité après avoir fait tomber un objet à quelques reprises, alors qu’un grand modèle de langage (LLM) a besoin d’ingurgiter l’intégralité d’Internet pour simuler une conversation sur la physique.
Lorsqu’on interroge une IA générative sur une tasse en équilibre sur une table, elle répond brillamment en citant les lois de Newton. Cependant, elle ne calcule pas la chute de l’objet : elle récite simplement le script probabiliste de cette chute. Ces modèles reposent sur une architecture autorégressive, dont le but est de prédire le prochain mot. En restant à la surface du langage, l’IA ne touche jamais à la structure physique du monde. Pour elle, le concept de pomme n’est qu’un vecteur mathématique associé à d’autres mots comme rouge ou fruit, mais elle ignore sa masse, sa texture ou la façon dont elle rebondit. C’est précisément cette absence de fondations physiques qui provoque les fameuses hallucinations de l’IA.
La vision radicale de Yann LeCun
Face à ces limites, l’industrie technologique a opté pour une stratégie coûteuse : multiplier les données, les serveurs et la puissance de calcul. Cette course au gigantisme pousse des acteurs majeurs à construire des centres de données toujours plus immenses, espérant que la compréhension du monde émergera naturellement de l’accumulation de textes.
Yann LeCun s’oppose fermement à cette approche. Selon l’ancien chef de la recherche en IA chez Meta, essayer d’apprendre à une machine à comprendre le monde uniquement par le texte revient à apprendre à quelqu’un à piloter un avion en lui faisant lire des millions de manuels, sans jamais le laisser entrer dans un cockpit. Sa thèse est claire : l’intelligence n’est pas la maîtrise du langage, c’est la maîtrise de la causalité.
L’architecture JEPA : de la prédiction à la simulation
Pour concrétiser cette vision, Yann LeCun propose une alternative radicale nommée JEPA (Joint Embedding Predictive Architecture). Plutôt que de s’épuiser à prédire le prochain mot ou le prochain pixel d’une image, ce modèle apprend à projeter la réalité dans un espace conceptuel abstrait, appelé espace latent.
Dans une vidéo d’une rue passante, un modèle génératif classique gaspille une énergie colossale à calculer le mouvement de chaque feuille d’arbre ou le reflet du soleil sur une flaque d’eau. L’architecture JEPA, en revanche, apprend à filtrer ce bruit visuel pour ne conserver que les variables essentielles à la prise de décision : une voiture qui approche, un piéton qui hésite ou un feu qui passe au rouge. En se concentrant sur la causalité, l’IA se dote d’un véritable simulateur mental capable de tester des hypothèses de type : « Si je fais ceci, quelles en seront les conséquences ? »
LeWorldModel : la révolution de mars 2026
Cette théorie a pris une dimension très concrète en mars 2026. La start-up parisienne de Yann LeCun a levé plus d’un milliard de dollars pour développer des IA capables de comprendre le monde physique. La preuve de concept, baptisée LeWorldModel, remet en question tous les dogmes actuels de l’industrie.
Alors que la Silicon Valley construit des infrastructures pour des modèles atteignant le billion de paramètres, LeWorldModel n’en utilise que 15 millions. Les résultats sont saisissants :
- Le modèle s’entraîne sur un seul processeur graphique (GPU) en quelques heures.
- Il utilise environ 200 fois moins de données qu’un LLM classique.
- Il se révèle 48 fois plus rapide pour planifier une action physique que les architectures génératives actuelles.
Plus impressionnant encore, ce modèle n’apprend pas en lisant Wikipédia ou en analysant des images étiquetées. Il apprend par observation, comme un nouveau-né. En visionnant des vidéos brutes, il tente de prédire la suite dans son espace latent. S’il se trompe, il ajuste son modèle interne. Par apprentissage auto-supervisé, il finit par déduire les lois de la physique : il comprend qu’un objet ne traverse pas un mur ou que la gravité attire les corps vers le bas.
Le défi technique : l’effondrement de la représentation
Pour parvenir à ce résultat, l’équipe a dû résoudre un problème majeur connu sous le nom d’effondrement de la représentation. Naturellement, une IA cherche la facilité. Pour minimiser ses erreurs, elle pourrait décider de coder tous les objets de la même manière, obtenant un score parfait de prédiction, mais une compréhension nulle de la réalité.
Pour forcer l’IA à rester honnête, les chercheurs ont intégré une innovation appelée CSIG (Creeg Sketch Isotropic Gan regularizer). Ce mécanisme impose des contraintes mathématiques qui empêchent l’IA de tout regrouper dans la même catégorie, l’obligeant ainsi à distinguer les nuances de la physique.
Des applications qui transforment l’industrie
Le passage d’une IA qui réagit à une IA qui anticipe ouvre des perspectives immenses, particulièrement dans deux secteurs clés :
- La robotique : Aujourd’hui, programmer un robot pour ranger de la vaisselle est complexe car le moindre imprévu fait dérailler le système. Avec un modèle du monde, le robot développerait une intuition physique, comprenant instinctivement la fragilité, le poids et l’équilibre des objets.
- La conduite autonome : Les systèmes actuels apprennent par accumulation massive de cas de figure. Le modèle de LeCun, lui, anticipe. S’il voit un ballon rouler sur la route, il simule immédiatement la probabilité qu’un enfant surgisse pour le récupérer, avant même de l’avoir vu.
Bien que LeWorldModel soit immensément plus léger que ses concurrents textuels, la stratégie industrielle reste ambitieuse. La levée de fonds massive servira à acquérir des données et à construire les infrastructures nécessaires pour déployer cette architecture à grande échelle. L’objectif ultime est de publier le code source de ces innovations pour en faire un standard mondial, incitant ainsi toute l’industrie à abandonner la course aux modèles de langage pour se tourner vers une intelligence artificielle véritablement connectée au monde réel.
Source : Grand Angle Nova


























































