Sora fait son cinéma !

Sora, l'OVNI d’OpenAI s'annonçait en février dernier comme la plus grande évolution audiovisuelle de notre génération. À l'instar d'une star hollywoodienne, son arrivée tardive au grand public a attisé fantasmes ... et inquiétudes. Mais ça y est ! Avec sa dernière mise à jour Sora Turbo, l'impossible semble devenir réalité : un modèle text-to-video qui pulvérise les limites de la créativité et de l'imagination !

Sora, tu sauras

Ce choix sémantique n'est pas anodin. Le nom Sora trouve en effet son inspiration au pays du soleil levant. Et en nippon, l'idéogramme 空 (そら), traduit à la fois la vastitude et la liberté. Selon le contexte, il suggère un potentiel créatif sans borne, un espace infini où l'imagination peut s'exprimer librement sans aucune contrainte. Faut-il y voir une métaphore qui reflète l'ambition d'OpenAI d'ouvrir des horizons illimités dans la génération de contenu vidéo ? Elémentaire mon cher Watson ! Après l'industrie musicale qui a pris un coup dans l'aile avec l'arrivée de Suno.ai, c'est au tour de l'industrie audiovisuelle de balbutier face au génie des premières créations de Sora.

La prouesse de ce nouveau modèle marque l'entrée dans une ère où le text-to-video ne relève plus de la science-fiction.

La vidéo ultra réaliste d'une balade à Tokyo fabriquée par Sora et postée le 15 février 2024 par le compte X d'Open AI dépasse en quelques jours les 90 millions de vues.

Avec Turbo, ces créations atteignent un nouveau niveau de sophistication : résolution en 1080p, vidéos jusqu'à 20 secondes et formats variés (panoramique, vertical ou carré).

Sora est là ! Le modèle de texte en vidéo d'OpenAI crée des vidéos à partir d'instructions textuelles.

Sora Turbo : une prouesse technique ?

Du Kinétographe et Kinétoscope inventés en 1891 par Edison & Dickson à l'invention du cinéma par les Frères Lumière en 1895, le cinéma a connu des génies de l'illusion, à l'instar de Georges Méliès, considéré comme le pionnier des trucages au cinéma. La course aux effets spéciaux n'a eu de limites que l'imagination des réalisateurs : l'utilisation du stop motion (un temps que les moins de 20 ans ne peuvent pas connaître !) que l'on retrouve dans de nombreux films du réalisateur Michel Gondry, les pépites d'innovations visuelles de George Lucas, Spielberg ou encore James Cameron et Peter Jackson, tels Star Wars, Jurassic Park, Avatar ou la trilogie du Seigneur des anneaux. La valeur ajoutée de ces génies de l'illusion résidait dans l'élaboration d'un storyboard léché et poétique, où l'œil du spectateur n'a pas le temps de comprendre la magie derrière son écran. Une illusion qui semblait pour toujours être la chasse gardée de de l'être humain.

Le Voyage dans la lune de Georges Méliès - 1902

La transformation de vidéos en une séquence logique et cohérente de chiffres représentait un défi de taille, découlant de la nature complexe de la vidéo elle-même — un médium qui, contrairement à une image statique, exige une continuité et une logique dans l'enchaînement des images pour narrer une histoire, même en l'absence de son. Deux gros plans consécutifs ou l'utilisation d'un champ/contre-champ ne respectant pas la règle des 180° étaient des jargons réservés jusqu'alors à la logique des artistes de la réalisation. L'industrie cinématographique se voyait alors loin d'être mise à mal...

Sora : la révolution audiovisuelle par OpenAI

Selon les révélations d'OpenAI, Sora Turbo incarne un "diffusion transformer", une architecture qui combine les principes des modèles de diffusion et des transformers. Ces derniers, au cœur du succès de GPT, permettent de comprendre les liens logiques entre les éléments d'un ensemble. Pour Sora, cette approche est adaptée au domaine visuel, où les images de vidéos sont décomposées en patchs, permettant ainsi de tisser un fil narratif visuel cohérent.

Démonstration impressionnante de Sora en vidéo - Chaîne Youtube du Nouvel Obs'

Les forces de SORA Turbo :

Excellence visuelle : Sora excelle dans les animations abstraites, les effets fluides (eau, feu) et les scènes de style cartoon. Les textures et les couleurs sont d’une finesse exceptionnelle, tandis que les transitions entre scènes témoignent d’une véritable compréhension de la composition visuelle.

Exemples d'utilisation de SORA par MKBHD 3

Système de storyboard : Cette fonctionnalité permet d’enchaîner plusieurs prompts pour créer des séquences complexes. Un atout majeur face à la difficulté de gérer des scénarios élaborés en une seule requête.
Remix et personnalisation : Sora intègre un système de remix qui permet de modifier des vidéos existantes en ajoutant ou ajustant des éléments, tout en maintenant l’harmonie esthétique de la scène originale.
Interface intuitive : Une simple zone de texte permet de décrire la vidéo souhaitée, avec des options de définition (360p à 1080p) et de durée (jusqu’à 10 secondes).
Sora à portée de clic ? Avec un coût adapté aux besoins de chacun, allant de 20$ pour 50 vidéos mensuelles jusqu'à 200$ pour 500, Sora se positionne comme une solution accessible et modulable pour les créateurs de tous horizons.

Une avancée sous le signe de la transparence et de la responsabilité

Questionnée par le Wall Street Journal sur les sources de données pour l'entraînement du modèle, la directrice technique d'OpenAI, Mira Murati, gardait ses réponses jusqu'alors imprécises. Sans confirmer l'usage de vidéos issues de YouTube, Facebook ou Instagram, elle révélait cependant que certains contenus de Shutterstock ont été intégrés, fruit d'un partenariat entre les deux sociétés.

Dans un monde où les frontières entre réalité et virtualité s'amincissent, l'accessibilité d'outils sophistiqués comme Sora soulève des préoccupations majeures. Face à l'ingéniosité croissante des acteurs malveillants qui manipulent les technologies d'intelligence artificielle pour produire de fausses informations et des deepfakes, des mesures rigoureuses s'imposent. À l'instar de DALL-E, il semble impératif d'interdire la création de vidéos mettant en scène des personnalités publiques. En réponse, OpenAI a prévu d'apposer des filigranes et d'intégrer des métadonnées signalant clairement l'origine artificielle des contenus vidéo.

Malgré ces gardes-fous, le scepticisme persiste, alimenté par des scandales passés tels que celui des images de Taylor Swift. Mira Murati promettait une version améliorée de Sora pour une arrivée sur le marché en fin d'année. Promesse tenue ? Si certains contenus proviennent d’un partenariat avec Shutterstock, d'autres sources, comme les réseaux sociaux, restent encore floues.

La chanteuse américaine Taylor Swift a vu son identité usurpée dans des fausses vidéos à caractère pornographique générées par intelligence artificielle. Image BFM TV

OpenAI met en place des mesures strictes pour prévenir les usages nuisibles de son modèle Sora, notamment en interdisant la création de contenus à caractère sexuel impliquant des mineurs et des deepfakes sexuels. À son lancement, le modèle limitera les ressources mettant en scène des personnes, et son déploiement s'étendra progressivement en fonction de l'amélioration des dispositifs de sécurité.

Pour garantir la transparence, toutes les vidéos générées incluront des métadonnées C2PA confirmant leur origine, ainsi que des filigranes visibles, bien que perfectibles. De plus, un outil interne permettra de vérifier si un contenu a été produit par Sora. (source zdnet.fr)

Perspectives de Sora Turbo dans l'industrie audiovisuelle

Avec l'arrivée de Sora Turbo, OpenAI offre aux créateurs un outil puissant capable de transformer la production audiovisuelle. Imaginez un réalisateur indépendant créant des séquences de rêve sans budget pour des effets spéciaux coûteux, ou encore des agences de marketing produisant des publicités hyper-personnalisées en quelques heures. Ce potentiel créatif s'étend aussi à l'éducation et aux musées, où des vidéos immersives pourraient enrichir l'expérience des apprenants.

Actuellement accessible dans 160 pays, Sora peut être utilisé via le site dédié, Sora.com, et maintenant directement depuis ChatGPT, dans sa formule payante. Présenté par OpenAI comme un outil puissant et intuitif, il promet de révolutionner la création vidéo grâce à sa simplicité d’utilisation.

À mesure que la technologie s’affine, une question demeure : comment ces outils transformeront-ils notre rapport à la créativité et à la réalité ?