Pourquoi les humains restent meilleurs que l’IA pour comprendre les interactions sociales

**Pourquoi les humains restent meilleurs que l’IA pour comprendre les interactions sociales**

L’intelligence artificielle (IA) progresse à grands pas, mais une récente étude menée par des chercheurs de l’Université Johns Hopkins révèle que les humains dépassent encore nettement les modèles actuels d’IA pour décrire et interpréter les interactions sociales en mouvement. Cette aptitude est pourtant cruciale pour le développement de technologies telles que les voitures autonomes et les robots d’assistance, qui doivent naviguer et interagir dans un monde complexe et dynamique.

**Les limites de l’IA face aux dynamiques sociales**

Selon les scientifiques, les systèmes d’IA peinent à saisir les dynamiques sociales et le contexte nécessaires à l’interaction humaine. Leyla Isik, professeure en sciences cognitives à Johns Hopkins, souligne que pour des véhicules autonomes, il ne suffit pas de simplement détecter des objets : il faut aussi comprendre les intentions et les comportements des piétons et des autres conducteurs. Savoir si deux personnes discutent ou s’apprêtent à traverser la rue, ou prédire la direction qu’un piéton envisage de prendre, sont des compétences fondamentales à développer.

**Une étude comparative entre humains et IA**

Pour évaluer cette compétence, les chercheurs ont demandé à des participants humains d’observer de courtes séquences vidéo de trois secondes montrant diverses interactions sociales ou activités parallèles. Ils devaient noter sur une échelle les éléments importants pour comprendre ces interactions. Parallèlement, plus de 350 modèles d’IA spécialisés en langage, vidéo et image devaient prédire ces jugements humains ainsi que les réponses cérébrales correspondantes.

Les résultats furent sans appel : alors que les humains montraient une forte cohérence dans leurs évaluations, les IA présentaient des écarts importants. Les modèles vidéo, notamment, échouaient à décrire avec précision les actions humaines, tandis que les modèles d’image, même avec plusieurs images fixes, ne reconnaissaient pas de façon fiable les communications entre personnes. Les modèles de langage faisaient légèrement mieux pour prédire les comportements humains, et les modèles vidéo étaient plus efficaces pour anticiper l’activité neuronale, mais globalement, aucune IA ne parvenait à égaler la compréhension humaine des scènes dynamiques.

**Une « zone d’ombre » dans le développement des IA**

Kathy Garcia, doctorante et co-auteur de l’étude, explique que si l’IA a beaucoup progressé dans l’analyse d’images statiques, elle montre un point aveugle dans l’appréhension des histoires qui se déroulent au fil du temps dans une scène. Comprendre les relations, le contexte et les dynamiques sociales relève d’une forme de perception que les architectures actuelles d’IA, inspirées du traitement cérébral des images statiques, ne reproduisent pas.

Un des enseignements clés de cette recherche est que le traitement humain des scènes sociales semble reposer sur des mécanismes cérébraux distincts et plus complexes que ceux modélisés par les réseaux neuronaux artificiels actuels.

**Vers une meilleure IA sociale**

Ce travail souligne un défi majeur pour l’avenir de l’intelligence artificielle dans son intégration au quotidien humain : concevoir des systèmes capables d’interpréter avec finesse les interactions sociales en temps réel. Cela nécessite peut-être de repenser les bases mêmes des architectures d’IA afin d’imiter plus fidèlement les processus cognitifs humains.

En somme, comprendre « la pièce » dans laquelle nous évoluons, au-delà d’une simple identification d’objets, demeure pour l’heure une capacité principalement humaine, essentielle pour une interaction fluide et sécurisée avec les technologies intelligentes.

👉 **Source ici**

A lire ensuite