A quoi sert Sora ? | Commentaire

A quoi sert Sora ? | Commentaire

Le nouveau générateur vidéo d'OpenAI est riche en facteur cool mais faible en utilité, du moins pour le moment.

Sur l'onglet « en vedette » de son nouveau générateur vidéo Sora, OpenAI met en évidence un certain nombre de clips vidéo d'IA remarquables. Il y a un panda dans le métro, un extraterrestre fumant une cigarette, un bateau en papier naviguant sur une mer agitée et une statue dorée vous faisant un clin d'œil.

Les vidéos sont le résultat époustouflant d’une nouvelle technologie merveilleuse, mais qui sait à quoi elles servent. Attrayants et créatifs mais de qualité trop médiocre pour être insérés dans une production commerciale, les clips Sora existent dans un état de liminalité. Oui, le produit comprend au moins un peu la physique, et la vidéo IA pourrait être l’avancée technologique de l’année. Mais comme pour de nombreux produits d’IA générative jusqu’à présent, ce que nous sommes censés en faire n’est pas tout à fait clair.

La vidéo IA va certainement s'améliorer, mais Sora et ses homologues semblent riches en facteur cool et peu utiles, du moins pour le moment. Le problème : il n’y a pas d’utilisateur naturel. Avec ChatGPT, les codeurs et les étudiants ont vu une valeur immédiate, et la génération de texte IA s'est depuis étendue à davantage de cas d'utilisation. Les générateurs d'images comme Dall-E n'ont cependant pas percé de la même manière, luttant pour trouver des applications naturelles à leur format multimédia plus riche. De même, Sora n'est pas assez performant pour générer des clips pour des longs métrages, ou même des publicités, et est un peu trop intense pour être utile aux gens ordinaires. Son cas d’utilisation reste donc flou.

Dans un article de blog annonçant la sortie générale de Sora cette semaine, OpenAI a déclaré espérer que cela « permettra aux gens du monde entier d'explorer de nouvelles formes de créativité, de raconter leurs histoires et de repousser les limites de ce qui est possible avec la narration vidéo ». Mais en tant que personne qui vient d’apprendre à éditer une vidéo, je peux attester qu’il est difficile de faire quoi que ce soit avec la vidéo. Même avec l'incroyable pouvoir de Sora entre les mains de tous, il est difficile d'imaginer retravailler la règle du 90-9-1 sur Internet, selon laquelle 90 % des gens consomment, 9 % distribuent et 1 % créent.

En parcourant l'onglet « récent » de Sora, on montre un certain intérêt mais une perplexité quant à ce qu'il faut faire avec le service. Un utilisateur a mis un chien sur le siège du conducteur, un autre a mis un chat dans un chapeau de marin, un autre a montré un cheval se promenant dans un cimetière la nuit. Il y a beaucoup d'animaux. Et beaucoup de femmes, certaines incitées avec une quantité de détails effrayants. Les vidéos semblent permettre aux utilisateurs de s’évader vers d’autres mondes, ou de « repousser les limites », comme le suggère OpenAI. Mais une fois que vous y êtes invité plusieurs fois, la raison impérieuse de revenir – et de payer – devient plus difficile à trouver. Combien de chiots conduisant des voitures devez-vous voir ?

Sora trouvera bien sûr quelques applications précieuses. Cela permettra aux réalisateurs de planifier les scènes avant de les tourner. Cela permettra aux marques de mode de voir les mannequins porter leurs créations sur un podium avant de les créer. Et cela aidera les chefs de marque à créer des publications géniales pour Instagram. Oui, ces vidéos d’IA rempliront probablement nos flux de médias sociaux comme Shrimp Jesus a rempli Facebook.

Mais Sora fait également ses débuts à un moment où déterminer ce qui est réel est plus difficile que jamais, et le service et ses pairs vont ajouter à la confusion. La semaine dernière, j’ai trouvé l’histoire de la fusillade de United Healthcare plus difficile à suivre que presque toutes les autres histoires majeures précédentes. Il y avait un faux Substack et de nombreuses fausses informations en ligne. Mais les fausses vidéos du tireur étaient des plus déroutantes. Plusieurs utilisateurs ont généré de fausses vidéos IA du tireur à partir d’une vidéo de surveillance. Et tandis que certains ont explicitement déclaré qu’il s’agissait de l’IA, d’autres ont partagé des vidéos sur lesquelles ils ont insisté sur le fait que ce n’était pas le cas. Tout cela contribue à un sentiment d’apathie avec la réalité, où il est si difficile de distinguer le vrai du faux qu’il suffit d’abandonner.

Au crédit d’OpenAI, les protections de Sora sont plutôt bonnes. Le service ne m'a pas permis de créer des vidéos à partir d'images de personnes, et il a bloqué mes invites après avoir essayé de générer des vidéos de Trump dansant et du tireur de l'UHC arrêté chez McDonalds. OpenAI a refusé de mettre à disposition un membre de l’équipe Sora pour un entretien.

Peut-être qu'en me concentrant autant sur l'aspect génération vidéo, je passe à côté de l'essentiel. Sora peut créer des vidéos sympas, mais le principe de base du produit est d'améliorer la compréhension du monde réel par l'intelligence artificielle au-delà de ce qui est représenté dans le texte. « Sora sert de base à l'IA qui comprend et simule la réalité », a écrit OpenAI dans son annonce, « une étape importante vers le développement de modèles capables d'interagir avec le monde physique ».

Cette interaction avec le monde réel pourrait impliquer d'appliquer l'intelligence de Sora à la robotique, ou peut-être d'aider des modèles qui comprennent la planète sur laquelle ils communiquent. Si cela s’avère être le cas, c’est peut-être exactement à cela que sert Sora.

Cet article provient de Big Technology, une newsletter d'Alex Kantrowitz.

Publications similaires