Créer du contenu vidéo avec l'IA

Générer des vidéos avec l’IA, ce n’est pas nouveau, il y a pleins d’outils qui se développent et on pourra bientôt faire de belles choses avec Luma, Runway, Kling, Sora, ..

Mais actuellement, le challenge est la création d’un contenu vidéo cohérent sur un thème précis, et lié à son marché. Il y a plusieurs étapes qui sont assez longues comme la création d’un script de l’histoire, un script pour chaque scène, générer les scènes en vidéo, l’audio pour présenter les scènes, etc.

L’objectif de cette section est de vous montrer un process qui fonctionne, les outils que j’utilise et le rendu final. Si le sujet vous intéresse, la vidéo qui présente ce process sortira dans 1 semaine.

Je crois beaucoup en un système complet de création de contenu avec l’IA 100% automatisé, en partant d’un format de texte brut pour générer tous les formats de contenu, optimisé en fonction des réseaux.

La grosse difficulté est de pouvoir réaliser l’ensemble de ce process en automatisé.

Structurer votre base de données (ici Airtable)

Dans cet exemple, j’ai pris un article du Monde sur le réseau social X.Je partage les paragraphes de l’article dans une cellule d’un tableau sur Airtable (similaire à Gsheets ou Notion).

L’idée est d’agréger dans des onglets l’ensemble des informations qui vont être générés par les outils.

Sur Airtable, ma base de données est structurée en 3 tableaux importants qui correspondent à 3 étapes :

la création de l’histoire
la création des scènes
la génération des scènes

Ces 3 tableaux vont agir comme des vases communiquants et suivre un process linéaire. On passe de la création de l’histoire, à la création des scènes puis à la génération des scènes. Les différentes étapes d’automatisation sont déclenchées en fonction de la valeur des celulles.

1/ La création de l’histoire

La colonne “Source” permet d’ajouter la base d’informations utile pour la génération du script (mes paragraphes de l’article du monde). La colonne “Histoire” sera alors complété par chatGPT grâce à un prompt optimisé dans la création d’une histoire avec le titre, l’introduction, etc

Pour l’automatisation, la création de l’histoire se fait en 2 étapes avec le module d’OpenAI :

La création du script de l’histoire
La création du script de chaque scène de l’histoire

Pour les scènes, on va générer plusieurs prompts qui viennent décrire les scènes qui seront générées ensuite avec un outil de génération d’images.

L’ensemble des prompts des scènes sont stockés sur airtable dans le tableau “scènes”.

2/ La création des scènes

Les scènes sont regroupées par l’ID de l’histoire. C’est à cette étape que l’on va générer chaque scène avec le module Leonardo. Pour chaque scène, on va créer 3 images ou 3 images animées qui seront affichées dans la colonne “Vidéos”.

Côté automatisation, d’abord on va générer une image pour chaque scène, puis va ensuite transformer cette image en une image animée de plusieurs secondes. On aurait aussi pu se contenter d’une image par scène.

3/ La génération des scènes

Au fur et à mesure, les scènes sont générés par Leonardo et sont affichées dans notre base de données.

Générer l’audio avec Eleven Labs et assembler les scènes

Avant d’assembler le résultat de chaque scène pour avoir une vidéo, on va générer un audio grâce à Eleven Labs qui va venir décrire chaque scène : en gros, une voix off qui commente chaque passage.

Pour cela, Eleven Labs est un outil parfait, on peut choisir le type de voix que l’on souhaite et même sa propre voix (en la clonant).

Côté automatisation, on va donc créer l’audio de chaque scène depuis un texte stocké dans la base de données qui correspond à la scène en question, puis on stocke cet audio sur Google Drive pour le mettre en accès libre (lien public) sur Airtable.

Cela correspond à la branche de dessus.

Pour la branche en dessous, cela correspond à l’assemblage de toutes les scènes pour créer une vidéo. On utilise l’outil Json2vidéo qui permet de transformer un Json en une vidéo.

La dernière étape d’assemblage final

Une fois que l’on a l’audio et la vidéo de chaque scène, on va réaliser l’assemblage final et stocker le résultat sur notre base de données.

Côté automatisation, cela correspond à 2 branches puisqu’on doit d’abord faire la fusion de l’audio et la vidéo de chaque scène, avant de faire l’assemblage de chaque vidéo des scènes contenant l’audio et la vidéo.

C’est donc la dernière branche qui fait l’assemblage de toutes les vidéos de chaque scène pour obtenir la vidéo complète.

Voici l’automatisation complète sur Make :

Pourquoi je vous partage ça ?

Je trouve que c’est une bonne occasion de vous montrer ce qu’il est possible de faire avec l’IA, en 100% automatisé, depuis un texte brut.

On pourrait imaginer une création respectant votre branding, vos illustrations depuis un article de blog par exemple.

Les possibilités sont énormes et on part d’une base qui offre une grosse personnalisation sur la création

changer le type d’histoire
changer le format
changer la voix / la langue / etc
ajouter de la musique via Suno par exemple
créer du contenu sur la base d’un simple url en intégrant perplexity (j’en parle de ma précédente newsletter)
publier sur les réseaux en 1 clic

Créer du contenu vidéo avec l'IA

Structurer votre base de données (ici Airtable)

1/ La création de l’histoire

2/ La création des scènes

3/ La génération des scènes

Générer l’audio avec Eleven Labs et assembler les scènes

La dernière étape d’assemblage final

Pourquoi je vous partage ça ?

Nos derniers cas concrets

Canvas Disponible sur OpenAI

Sora enfin disponible - Tutoriel complet

Tutoriel NotebookLM de Google : pourquoi cet outil est devenu essentiel ?