Come funziona Sora, il nuovo strumento per creare video con l’intelligenza artificiale

Con la nuova IA generativa text-to-video Sora di OpenAI è possibile creare brevi video ad alta risoluzione partendo solo da una breve descrizione testuale. Tutto perfetto, o no?

La scorsa settimana OpenAI, società che si occupa di intelligenza artificiale generativa e che probabilmente conoscete per il suo chatbot ChatGPT, ha annunciato Sora.

Come ChatGPT compone testo seguendo le nostre indicazioni, e IA generative text-to-image come Midjourney compongono invece immagini, Sora è una IA text-to-video capace di produrre interi filmati ad alta risoluzione (per ora lunghi un minuto e senza audio) rappresentando ciò che abbiamo scritto.

Non è la prima IA text-to-video che viene presentata, ma è quella per ora capace della più terrificante aderenza alle nostre indicazioni. Rispetto agli esperimenti precedenti, come la inquietante (ma in un altro senso) pubblicità della birra generata da Runway Gen-2 a maggio del 2023 e diventata virale, qua siamo su un livello nettamente superiore di coerenza sia interna sia rispetto alla realtà fisica e ai nostri riferimenti culturali.

I video realizzati da Sora di OpenAI

“Un canguro in stile cartone animato che balla in discoteca” ed ecco un canguro ballerino, realizzato come se fosse un (brutto) film d’animazione 3D.“Una cucciolata di golden retriever gioca nella neve. Le loro teste escono fuori dalla neve” ed ecco tre canini fotorealistici che lottano per la nostra attenzione davanti a una (inesistente) telecamera.

Sarebbe esagerato dire che è tutto perfetto. Nel video di presentazione escono fuori una decina di panda rossi con solo due zampe. Altre volte il risultato è credibile, ma parecchie cose sono state ignorate rispetto al prompt (al testo) usato. Ed è piuttosto dubbio che si possa effettivamente arrivare a creare lunghi video perfettamente coerenti e fedeli ai nostri ordini. Ma per esempio le brevi sequenze che imitano le riprese aeree fatte con droni sono impressionanti.

Sono convenzionali, banali, uguali a centinaia, a migliaia di video precedenti, perché queste IA generative sanno solo replicare ciò che già esiste, ciò che è stato fornito loro durante l’addestramento e che fa parte del loro cosiddetto dataset.

A questo proposito, va sottolineato che OpenAI agisce in maniera totalmente opaca, senza dire da dove abbia recuperato i dati su cui è addestrata Sora. Si pensa che almeno in parte si tratti di dati sintetici, creati utilizzando il set di strumenti per sviluppo di videogiochi Unreal Engine 5. Ma i risultati sono video credibili, quanto tanti altri video magari banali e convenzionali.

Sora - OpenAI
Sora – OpenAI

I pericoli di Sora di OpenAI

Il pericolo di cui tutte le testate parlano è quello dovuto alla montagna di fake news che verranno prodotte grazie a Sora, che anche per questo al momento ha una disponibilità limitata. Non si tratta solo della possibilità di creare video fotorealistici con fatti mai accaduti, cosa che alla fine è più o meno possibile fare con le attuali tecnologie di computer grafica. Si tratta della possibilità di comporre video del genere in tempi relativamente rapidi e in modo relativamente semplice e quindi in grande quantità.

Potremo mostrare un fatto falso con la facilità con cui oggi possiamo scrivere un fatto falso, e quindi dovremo imparare che un fatto raccontato in video può essere falso quanto un fatto raccontato in prosa (tra l’altro, è assai opinabile che questo non sia vero già ora). Il Papa che fa una sfilata di piumini in piazza San Pietro. L’ex (per quanto?) presidente statunitense Donald Trump che arresta la polizia. I trattori che invadono la tangenziale di Parigi (il boulevard périphérique) per finalmente andare a comandare.

Ma il più serio pericolo dovuto a Sora lo ha secondo noi individuato il fumettista, illustratore e sviluppatore di videogiochi italiano Daniele Giardini in un suo tweet (pardon, in un suo post su X): Sora distruggerà la catonomics? Sora distruggerà la grande economia del mondo online basata sulla diffusione e la fruizione di video di gatti, economia su cui potremmo dire si basa la sopravvivenza dell’intera rete informatica globale (potremmo star esagerando)? Quando non potremo più sapere se il gatto che stiamo guardando è reale o creato da una IA, i video di gatti provocheranno in noi, insomma, lo stesso piacere?

Matteo Lupetti

Artribune è anche su Whatsapp. È sufficiente cliccare qui per iscriversi al canale ed essere sempre aggiornati

Matteo Lupetti

Matteo Lupetti

Diplomato in Fumetto alla Scuola Internazionale di Comics di Firenze nel 2010, gestisce il collettivo di fumettisti indipendenti Gravure e scrive di videogiochi per varie testate italiane ed estere. È diplomato in sommelerie all’interno dell’associazione FISAR ed è direttore artistico…

Scopri di più