Les limites des modèles vision-texte face à la négation : un frein majeur à leur fiabilité

Les limites des modèles vision-texte face à la négation : un frein majeur à leur fiabilité

Imaginez un radiologue analysant une radiographie thoracique : il doit repérer des signes précis, comme un gonflement des tissus sans cardiomégalie, pour poser un diagnostic fiable. Pour l’assister, des modèles d’intelligence artificielle combinant vision et langage (modèles vision-langage) peuvent rechercher rapidement des cas similaires dans des bases de données. Cependant, une faille importante a été mise en lumière par des chercheurs du MIT : ces modèles ont du mal à comprendre la négation dans les descriptions, ce qui peut entraîner des erreurs de diagnostic dangereuses.

Pourquoi la négation pose-t-elle problème ?

Les modèles vision-langage sont entraînés à partir de vastes collections d’images associées à des descriptions textuelles qui indiquent ce qui est présent dans l’image. Or, ces jeux de données contiennent très peu d’exemples où la négation est explicitement utilisée, comme « sans » ou « ne contient pas ». En pratique, cela conduit les modèles à ignorer ces mots-clés essentiels et à ne retenir que la présence d’objets, même quand il faut comprendre leur absence.

Les chercheurs ont ainsi montré que lorsque le modèle doit récupérer des images en fonction de descriptions négatives (par exemple, une image avec un chien sans hélicoptère), il performe à peine mieux qu’un tirage au sort. Cette affirmation biaisée – la tendance à ignorer la négation – entraîne des erreurs notables aussi bien lors de la recherche d’image que dans des questions à choix multiples où la négation est déterminante.

Une solution partielle mais prometteuse

Pour pallier cette lacune, les chercheurs ont élaboré un ensemble de nouvelles légendes intégrant des termes de négation, générées à partir d’un grand modèle linguistique. En réentraînant les modèles vision-langage sur ces données enrichies, ils ont observé une amélioration significative de leurs performances, avec une hausse allant jusqu’à 10 % en recherche d’image et près de 30 % dans les tests de compréhension des négations.

Cette méthode de data augmentation est cependant une première étape. Elle ne modifie pas la structure même des modèles, qui doivent être encore perfectionnés pour mieux gérer les subtilités du langage, notamment dans des contextes critiques comme la médecine ou la qualité industrielle.

Perspectives et implications

Les auteurs insistent sur la nécessité d’une évaluation rigoureuse avant le déploiement de ces technologies en situation réelle. Ils recommandent que les utilisateurs testent soigneusement les modèles face à la négation pour éviter des conséquences potentiellement graves.

À l’avenir, enseigner aux modèles à traiter séparément images et textes ou créer des bases adaptées à des domaines spécifiques pourrait améliorer leur fiabilité. Dans tous les cas, cette découverte souligne qu’une compréhension fine du langage, incluant ses nuances comme la négation, est indispensable pour exploiter pleinement le potentiel des intelligences artificielles multimodales.

👉 Source ici

A lire ensuite