L’IA découvre comment associer précisément sons et images, à la manière humaine

L’intelligence artificielle apprend à associer sons et images comme les humains

Les humains apprennent naturellement en établissant des liens entre ce qu’ils voient et ce qu’ils entendent. Par exemple, en regardant un violoncelliste jouer, nous percevons que ses mouvements produisent la musique que nous entendons. Des chercheurs du MIT et d’autres institutions ont mis au point une nouvelle méthode permettant à une intelligence artificielle (IA) de mieux apprendre cette correspondance entre le son et l’image, ouvrant la voie à des applications innovantes en journalisme, cinéma, et robotique.

Un apprentissage audio-visuel plus précis

Les chercheurs ont amélioré un modèle d’IA, nommé CAV-MAE, capable d’associer automatiquement des pistes audio à des images extraites de vidéos sans nécessiter d’étiquetage humain. La nouveauté réside dans l’évolution vers un modèle appelé CAV-MAE Sync, qui affine la synchronisation en associant non plus un clip vidéo global au son complet, mais chaque image à l’audio correspondant à ce moment précis.

Cette méthode permet, par exemple, de détecter précisément le bruit d’une porte claquant et de le relier à l’image de cette porte qui se ferme, améliorant ainsi la précision de la reconnaissance dans des scènes multimédia complexes.

Des ajustements architecturaux pour mieux apprendre

Pour optimiser les performances, les chercheurs ont modifié l’entraînement de leur modèle en introduisant deux types de « tokens » (unités de données) : les global tokens qui facilitent la mise en relation générale entre audio et image, et les register tokens qui aident à récupérer des détails spécifiques. Cette dualité permet au modèle d’adopter deux objectifs d’apprentissage complémentaires : apprendre à associer des données similaires et reconstruire précisément des éléments audio-visuels.

Ces ajustements simples mais efficaces donnent plus de « liberté » au modèle pour apprendre de manière équilibrée et indépendante ces deux tâches, ce qui se traduit par une meilleure précision dans la recherche de vidéos correspondant à un son donné ou dans la classification d’actions dans une scène audiovisuelle.

Applications et perspectives d’avenir

Au-delà des avancées dans la récupération automatique de contenus multimédias, ce travail a un impact potentiel sur la robotique, où comprendre précisément l’environnement sonore et visuel est essentiel. Les chercheurs envisagent aussi d’étendre cette technologie pour intégrer la compréhension du texte, posant les bases d’un modèle de langage multimodal associant audio, vidéo et texte.

Le projet, mené par une équipe internationale comprenant des experts du MIT, Goethe University en Allemagne et IBM Research, sera présenté lors de la Conférence sur la Vision par Ordinateur et la Reconnaissance des Formes. Il est soutenu notamment par le ministère allemand de l’Éducation et la collaboration MIT-IBM Watson AI Lab.

En résumé, cette nouvelle approche améliore significativement la capacité des IA à traiter simultanément et précisément les informations visuelles et sonores, à la manière humaine, ce qui ouvre la voie à des innovations dans des domaines variés allant des médias à la robotique avancée.

👉 Source ici

A lire ensuite