OpenAI lance le générateur vidéo Sora avec « de nombreuses limitations

« Cela génère souvent une physique irréaliste et se débat avec des actions complexes sur de longues durées », explique la société ChatGPT.

OpenAI a enfin lancé Sora, son modèle d'intelligence artificielle qui crée des vidéos à partir de texte. La société, dirigée par le PDG Sam Altman, a averti lundi que le nouvel outil était publié avec « de nombreuses limitations » qui pourraient affecter les vidéos créées par les utilisateurs.

Les abonnés ChatGPT Plus, qui paient 20 $ par mois pour le service, pourront désormais créer jusqu'à 50 vidéos à une résolution de 480p ; ces vidéos dureront jusqu'à 5 secondes. Et ceux qui paient pour le nouvel abonnement ChatGPT Pro, qui coûte 200 $ par mois, auront des « générations illimitées » et pourront créer des vidéos de 20 secondes avec une résolution de 1080p.

Au-delà des invites textuelles, Sora pourra également créer des vidéos basées sur « des images et des entrées vidéo ».

Mais pour l’instant, seul un « sous-ensemble » d’utilisateurs sera en mesure de créer de nouvelles vidéos basées sur des images et des vidéos de personnes réelles, a précisé OpenAI lundi, en raison du « potentiel d’abus ». Les images d’enfants ne seront pas non plus autorisées à générer de nouvelles vidéos pendant cette période d’essai, a déclaré OpenAI, alors que l’entreprise définit son « approche de la sécurité ».

Voici un aperçu de quelques exemples OpenAI partagés sur le site Web de Sora ; une capture d'écran d'une vidéo d'ours en liberté et une capture d'écran d'une vidéo de deux vieillards aux chapeaux brillants :

OpenAI a présenté Sora pour la première fois en février. Il sera disponible pour les utilisateurs américains et « la plupart des pays du monde », selon le livestream YouTube de la société lundi, mais il n'y a « aucun calendrier » pour sa sortie au Royaume-Uni ou dans d'autres régions d'Europe.

« La version de Sora que nous déployons présente de nombreuses limitations », a déclaré OpenAI dans son blog de lundi annonçant la sortie de Sora. « Cela génère souvent une physique irréaliste et se débat avec des actions complexes sur de longues durées. Bien que Sora Turbo soit beaucoup plus rapide que la version préliminaire de février, nous travaillons toujours pour rendre la technologie abordable pour tout le monde.

Dans une revue de février, Bloomberg a souligné que Sora – comme d’autres modèles d’IA texte-vidéo – avait des contraintes évidentes. Ils ont noté à quel point Sora « se débat avec des parties de corps perdues et une compréhension mitigée de la physique ».

L'entrée officielle de l'entreprise dans l'espace texte-vidéo s'accompagne d'une certaine concurrence. Google a publié son modèle Veo la semaine dernière et Meta a dévoilé son outil d'IA texte-vidéo en octobre, pour ne citer que quelques-unes des principales entreprises technologiques du secteur. Stability AI, spécialisée dans le contenu audio et visuel basé sur des invites textuelles, a également reçu un vote de confiance en septembre lorsque James Cameron a rejoint son conseil d'administration.

Vous pouvez consulter le nouvel outil par vous-même sur Sora.com.