Image de Pexels par Ron Larch. Photo de deux personnes travaillant côte à côte, de dos, devant deux écrans d'ordinateur qui affiche des interfaces d'édition de vidéo. La lumière est basse et colorée en vert foncé et jaune. Utilisée pour 'larticle de génération de vidéo par IA.

Génération de vidéo par IA : 5 nouveaux modèles qui bouleversent le secteur

Image de Alice Petitcolin
Alice Petitcolin
Cheffe de projet NLP & IA

L’intelligence artificielle bouleverse le monde de la génération de vidéo par IA à une vitesse fulgurante. Fini le temps où générer une vidéo réaliste nécessitait des heures de travail et des compétences pointues en animation ! Aujourd’hui, des modèles d’IA toujours plus performants repoussent les limites de l’imagination : des mouvements ultra-fluides, des interactions naturelles avec l’environnement et une qualité d’image saisissante… Désormais, tout semble possible !

Parmi les innovations les plus marquantes de ces derniers jours, des géants comme Meta, Alibaba et ByteDance dévoilent des technologies révolutionnaires capables de transformer une simple image en séquence animée ou de générer des vidéos à partir d’un texte. Intrigué ? Alors plongez avec LabSense dans l’univers fascinant des dernières tendances de l’IA en génération vidéo ! 🚀🎥

Logo Allready sur fond bleu ciel. Utilisé dans un article sur la génération de vidéo par IA.

💡 Le saviez-vous ?

Les modèles Allready, la solution IA de LabSense, peuvent vous aider à préparer et publier vos vidéos, et même à trouver les meilleurs prompts de génération. Les tester, c’est les adopter !


🤖 VideoJAM : Une IA révolutionnaire pour la fluidité des mouvements

Une approche innovante de la génération de mouvement

Tout d’abord, l’un des principaux défis des vidéos générées par IA est la création de mouvements naturels. Meta a relevé ce défi avec VideoJAM, un modèle qui fusionne apparence et mouvement dans une représentation unifiée. Contrairement aux approches traditionnelles qui donnent la priorité à la qualité visuelle au détriment de la fluidité du mouvement, VideoJAM assure une meilleure cohérence grâce à un mécanisme d’auto-guidage dynamique.

Vidéo d’annonce sur X partagé par un utilisateur

Des performances impressionnantes

VideoJAM se distingue par :

  • Son efficacité : il utilise 3 millions d’exemples d’entraînement, soit une réduction significative du volume de données nécessaires par rapport à d’autres modèles.
  • Une architecture hybride combinant diffusion latente et modèles autorégressifs, optimisant ainsi la gestion des séquences vidéo complexes.
  • Des résultats supérieurs aux standards actuels : des tests montrent que VideoJAM réduit les bugs visuels de mouvement par rapport aux modèles existants.

Un futur déjà tout tracé

Bien que VideoJAM soit toujours en préparation, son développement marquerait une avancée importante dans l’évolution des IA de génération vidéo. Meta fait en effet le pari de l’open-source. L’entreprise favorise ainsi l’amélioration continue de la technologie et son adoption dans des domaines variés, du média numérique à la production cinématographique.

💡Animate Anyone 2 : L’animation à portée de tous

Interaction entre personnage et environnement

Ensuite, nous avons Animate Anyone 2, toujours en développement chez Alibaba, va au-delà des techniques classiques d’animation d’images en intégrant un principe d’affordance environnementale. Autrement dit, l’IA ne se contente pas d’animer un personnage, elle assure qu’il interagit naturellement avec son environnement en tenant compte des contraintes physiques et logiques.

Exemple vidéo partagé sur X par un utilisateur

Les innovations techniques

Ce qui distingue Animate Anyone 2 :

  • Un moteur de prédiction des interactions : basé sur un modèle de diffusion conditionné, il permet une animation contextuelle ultra-réaliste.
  • Un algorithme d’harmonisation de mouvement : il a pour but d’améliorer la fluidité des séquences en réduisant les anomalies de positionnement.
  • Une modulation de pose perfectionnée : l’IA adapte les transitions corporelles en fonction du terrain et des objets, améliorant la cohérence physique des animations par rapport aux précédentes générations.

Une annonce exceptionnelle pour l’animation

Selon ses créateurs, les tests comparatifs ont montré que Animate Anyone 2 surpassait des modèles concurrents, tels que Viggle V3 et MIMO, en matière d’intégration et de fluidité des mouvements. Par conséquent, cette IA ouvrirait des perspectives pour les jeux vidéo, la cinématographie et la réalité virtuelle, créant des animations plus naturelles et interactives.

Vidéo d’exemple Animate Anyone 2 disponible sur la page GitHub

📺Step-Video-T2V : La haute définition optimisée

Une IA puissante

De leur côté, Geely Auto Group et son partenaire technologique Stepfun ont développé Step-Video-T2V, un modèle text-to-video de 30 milliards de paramètres capable de générer des vidéos à 540p et 204 images avec une fréquence d’images de 30 fps. Son architecture repose sur un VAE avancé et un modèle DiT avec attention 3D, garantissant fluidité et réalisme. Déjà comparé à VEO2 et Sora, ses résultats sont à couper le souffle.

Exemple publié sur le site de Stepfun.ai

Les atouts de Step-Video-T2V

  • Compression efficace : ratio 16×16 spatial et 8x temporel permettant une réduction de la consommation GPU.
  • Optimisation par préférence humaine (DPO) : améliore la qualité des vidéos selon les retours des utilisateurs.
  • Compatibilité avec le cloud : fonctionne sur GPU NVIDIA A100 avec 80Go de mémoire, assurant des performances optimales pour des charges de travail intensives.

Une alternative prometteuse

En outre, Step-Video-T2V est déjà testé et validé sur un benchmark cependant exclusif (Step-Video-T2V-Eval), surpassant vraisemblablement les modèles open-source actuels avec un score FID amélioré. Son potentiel pour le marché commercial et la production créative est immense, offrant une alternative de qualité aux solutions traditionnelles coûteuses.

Logo de Stepfun.ai utilisé dans l'article de génération de vidéo par IA.
Par ici pour le test de l’IA !

🦾OmniHuman-1 : L’animation corporelle ultra-réaliste

Une IA qui anime le corps entier

ByteDance, la maison mère de TikTok, a conçu OmniHuman-1, un modèle capable de générer des animations ultra-réalistes à partir d’une seule image et d’une seule piste audio. Au contraire des technologies qui se concentrent habituellement sur le visage ou le haut du corps, OmniHuman-1 anime le corps entier en garantissant une synchronisation parfaite entre les mouvements et l’audio.

Vidéo d’exemple avec image source publiées sur X par un utilisateur

Des usages variés

OmniHuman-1 ouvre quant à lui de nouvelles perspectives pour les médias, les influenceurs et l’industrie du divertissement, permettant la création de contenus plus immersifs et interactifs. L’IA procède d’abord par compression des données d’entrée, puis génère progressivement les mouvements grâce à un système de raffinement comparatif. En plus de prendre en charge divers types de vidéos, incluant la parole, le chant et la danse, il peut générer des vidéos dans n’importe quel format (portrait, mi-corps ou plein corps).

D’autres points clés : 

  • Formation sur 18 700 heures de vidéos humaines, combinant texte, audio, expressions faciales et mouvements corporels.
  • Gestion multimodale des animations, adaptée aux formats portrait, mi-corps et plein corps.
  • Dispose d’une synchronisation améliorée qui prend en charge la parole, le chant et même la danse.

Un impact profond sur l’industrie du divertissement

Grâce à une formation en « omni-conditions », OmniHuman-1 exploite de vastes ensembles de données sans perdre d’informations cruciales, permettant ainsi une animation plus fluide et réaliste. Cette découverte pourrait révolutionner la création de contenu numérique et offrir de nouvelles perspectives pour l’industrie du divertissement.

⚡Goku : La Nouvelle IA de ByteDance

Une IA polyvalente pour la génération vidéo

ByteDance a également planché sur un autre modèle texto-video, Goku, qui à lui seul permettrait une avancée majeure dans la création de contenu visuel. Goku est une nouvelle famille de modèles de génération conjointe d’images et de vidéos basés sur des transformateurs de flux rectifiés. 

Il est d’ailleurs conçu pour atteindre des performances de niveau industriel, en intégrant des techniques poussées pour une génération visuelle de haute qualité, y compris une curation méticuleuse des données, une conception de modèle et une formulation de flux.

Vidéo d’exemple publiée sur le site de Goku

Des performances inédites

En termes de performances, Goku affiche également des scores impressionnants : 0.76 sur GenEval pour la génération d’images et 84.85 sur VBench pour la génération vidéo, se positionnant comme l’un des meilleurs modèles du marché. Par ailleurs, son efficacité repose sur un entraînement massif utilisant 160 millions de paires texte-image et 36 millions de paires texte-vidéo, combinées avec un encodage VAE permettant une meilleure compression et manipulation des données visuelles.

Il possède aussi deux variantes : 

  • Goku-T2V : Spécialement conçu pour la génération de vidéos à partir de texte.
  • Goku+ : Optimisé pour la publicité et le marketing, permettant de créer des vidéos interactives et réalistes.

Une réduction drastique des coûts de production

ByteDance affirme que Goku, également un modèle open source, pourrait réduire les coûts de production vidéo jusqu’à 99 %, une véritable aubaine pour les créateurs de contenu et les entreprises cherchant des solutions abordables pour leurs campagnes marketing.

Logo de l'IA Goku.ai utilisé dans l'article de génération de vidéo par IA.
Direction Goku.ai pour tester l’IA !

Un avenir prometteur

Ainsi, depuis début 2025, l’évolution de la génération de vidéo par IA s’accélère avec des innovations bluffantes. Si des défis demeurent, notamment en matière d’éthique, de protection des données et d’équilibre dans leur développement à l’échelle internationale, ces technologies ouvrent des perspectives inédites. Elles permettent déjà de repousser les limites de la fluidité des mouvements, de l’intégration environnementale et de la qualité haute définition. Bien que la plupart de ces modèles ne soient pas encore accessibles au grand public, ils esquissent un avenir où la création vidéo sera plus rapide, plus intuitive et toujours plus immersive. 🎥🚀


L’intelligence artificielle révolutionne la création vidéo… mais aussi la production de contenus à grande échelle ! Chez LabSense, nous mettons plus de 10 ans de R&D au service de vos besoins en génération, analyse et optimisation de contenus : articles, textes SEO, posts pour les réseaux sociaux, images et vidéos.

Grâce à nos solutions IA, boostez votre stratégie digitale en intégrant des données pertinentes (opendata, météo, POI, données produits…) pour des contenus plus impactants et adaptés à votre audience. Contactez-nous pour évaluer vos besoins !

💡 Ne manquez pas nos prochaines analyses sur l’IA et ses applications ! Explorez notre blog et suivez les dernières tendances pour garder une longueur d’avance.

Et vous ? Quel modèle attire le plus votre curiosité ?

[Sondage] – Génération de vidéo par IA (février 2025)
Choisissez une des options ci-dessous.

*Sondage réalisé avec Allready

Sommaire

Nos services

Scribt
Génération de textes

La solution est capable de produire de façon automatisée du contenu Premium en langage naturel à une échelle et à une vitesse jamais vues auparavant.

Extraction de données

Vous voulez enrichir vos données ? L’extentision analyse et extrait des données à partir de modèles non structurés pour enrichir vos bases de données.

Verdicto
Synthèse d’avis clients

L’extension vous assiste dans la synthèse écrite des avis et permet de proposer des textes uniques, segmentés par type de clients, utiles aux lecteurs, contribuant à l’amélioration de vos taux de transformation.

À lire aussi