Stable Audio Open Small : la nouvelle IA de Stability AI pour générer de l’audio à partir de texte
Stability AI, en partenariat avec Arm, vient de dévoiler une avancée majeure dans le domaine de l’intelligence artificielle audio. Baptisé Stable Audio Open Small, ce nouveau modèle d’IA permet de générer de courts extraits audio à partir de simples instructions textuelles. Cette innovation promet d’accélérer considérablement la création sonore, avec un modèle léger optimisé pour tourner entièrement sur des processeurs Arm.
Un modèle rapide et compact pour une génération audio agile
Stable Audio Open Small est une version allégée et plus rapide du modèle Stable Audio Open initialement lancé en juin 2024. Ce dernier pouvait générer jusqu’à 47 secondes de son, tandis que ce nouveau modèle plus compact, avec ses 341 millions de paramètres, produit jusqu’à 11 secondes d’audio en moins de huit secondes, même lorsqu’il fonctionne en local sur un smartphone.
Cette prouesse technique est particulièrement adaptée aux usages nécessitant une réactivité en temps réel, comme la création de boucles rythmiques, effets sonores (foley), riffs d’instruments ou ambiances sonores. Grâce à sa taille réduite et son optimisation pour les architectures Arm, Stable Audio Open Small peut facilement être déployé sur des appareils mobiles ou des équipements en périphérie (edge devices).
Une technologie de pointe basée sur la diffusion latente
Le fonctionnement de ce modèle repose sur un modèle de diffusion latente fondé sur une architecture de type transformeur. Entraîné sur un large corpus de 486 492 enregistrements audio, tous rigoureusement licenciés, il utilise un modèle T5 pré-entraîné pour le traitement des textes. De plus, un algorithme innovant, nommé Adversarial Relativistic-Contrastive (ARC), a été intégré en phase post-entraînement pour optimiser la fidélité aux prompts et accélérer le temps d’inférence.
Cette combinaison de technologies offre un équilibre idéal entre complexité, rapidité et qualité sonore, ouvrant la voie à des créations audio automatisées accessibles à un large éventail d’utilisateurs et d’applications.
Un modèle open source et accessible à tous
Stable Audio Open Small est disponible en open source, ce qui signifie que les développeurs et créateurs peuvent librement le télécharger et l’intégrer à leurs projets. Les poids du modèle sont accessibles sur la plateforme Hugging Face, tandis que le code source est hébergé sur GitHub.
Le tout est distribué sous la licence Stability AI Community Licence, permissive et adaptée à un usage commercial ou non commercial. Cette démarche collaborative améliore la transparence et facilite la démocratisation des technologies audio génératives.
Vers une nouvelle ère de création audio mobile
La collaboration entre Stability AI et Arm, annoncée lors du Mobile World Congress 2025, vise à démocratiser la création audio par intelligence artificielle sur les appareils mobiles. En réduisant les besoins en ressources tout en maintenant des performances élevées, Stable Audio Open Small est une avancée clé pour le paysage numérique, particulièrement dans un monde connecté où la rapidité et la mobilité sont essentielles.
Ce développement ouvre ainsi des opportunités passionnantes pour les développeurs d’applications, les musiciens, les créateurs de contenu et toutes les industries où le son joue un rôle central.
👉 Source ici