Google révolutionne la génération d’images et de vidéos avec Imagen 4 et Veo 3
Lors de son événement I/O 2025, Google a présenté la toute dernière génération de ses modèles d’intelligence artificielle (IA) dédiés à la création d’images et de vidéos : Imagen 4 et Veo 3. Ces modèles multimodaux apportent des avancées majeures tant en termes de rapidité, de qualité que de fonctionnalités innovantes.
Imagen 4 : une génération d’images plus rapide et plus précise
Sorti environ un an après Imagen 3, Imagen 4 met l’accent sur la vitesse de génération et la précision des détails dans les images créées. Il peut traiter en entrée à la fois du texte et des images, et produit des images avec une finesse accrue, capable de restituer des textures complexes comme les tissus, les gouttes d’eau ou les poils d’animaux. Le modèle se distingue par sa capacité à générer des images dans une large variété de formats, jusqu’en résolution 2K, avec un niveau de photoréalisme élevé.
Une autre amélioration notable concerne le rendu du texte au sein des images. Imagen 4 sait mieux gérer l’orthographe, la typographie, le placement du texte et fait des choix créatifs sur le style et la taille des polices. Cette contextualisation du texte améliore considérablement la qualité visuelle et la lisibilité des images générées.
Actuellement, Imagen 4 est disponible via plusieurs plateformes, notamment l’application Gemini, Whisk, Vertex AI pour les entreprises, ainsi que dans les applications Workspace comme Docs, Slides ou Vids. Google prévoit également de lancer une version capable de générer des images dix fois plus rapidement d’ici la fin de l’année.
Veo 3 : la vidéo générée par IA arrive avec son propre son
Veo 3, la nouvelle version du modèle de génération vidéo, innove en intégrant la génération native de l’audio. Cela signifie que les vidéos créées peuvent désormais intégrer des sons ambiants, des bruits de fond et même des dialogues synchronisés avec précision, offrant ainsi une expérience audiovisuelle plus immersive et naturelle.
La démonstration présentée au I/O 2025 a montré deux personnages animés capables de converser avec une voix claire et réaliste. En plus de cette avancée sonore, Veo 3 améliore la fidélité des gestes, l’adhérence aux consignes données en prompt, ainsi que la synchronisation labiale en accord avec les dialogues.
Ce modèle est aujourd’hui accessible aux abonnés Google AI Ultra aux États-Unis via l’application Gemini et la nouvelle application Flow, et est disponible pour les entreprises sur la plateforme Vertex AI.
Flow, un nouvel outil de création vidéo assistée par IA
Google a également dévoilé Flow, une application de création de films alimentée par les modèles Gemini, Imagen et Veo. Grâce à des commandes en langage naturel, les utilisateurs peuvent générer des clips vidéo de huit secondes qui respectent fidèlement les descriptions fournies. Flow garantit une grande cohérence dans les détails comme les acteurs, les lieux, les objets et les styles visuels.
Disponible pour les abonnés Pro et Ultra de Google AI aux États-Unis, Flow ouvre de nouvelles perspectives pour la production vidéo rapide et automatisée, adaptée tant aux créateurs indépendants qu’aux professionnels.
Avec ces innovations, Google confirme sa volonté de repousser les limites de la création multimédia assistée par intelligence artificielle, en offrant des outils puissants et accessibles pour transformer les idées en images et vidéos d’une qualité impressionnante.
👉 Source ici