in

Dopo 72 ore, i online video di Sora non sembrano più così straordinari


La ragazza con la giacca di pelle nera, un lungo abito rosso e gli occhiali da sole cammina su una strada di Tokyo, nella notte.

L’asfalto bagnato riflette le luci al neon delle insegne luminose alle sue spalle. Potrebbe essere una ragazza qualsiasi, oppure una popolare influencer. Ma in realtà non esiste: è stata creata dalla nuova intelligenza artificiale di OpenAI, chiamata Sora, che genera video clip realistici a partire da un testo.

La “donna in rosso” di Tokyo è stato il primo esempio di video prodotti da Sora – svelata il 15 febbraio scorso da OpenAI – a diventare virale. È anche il più lungo diffuso finora: dura un minuto, il massimo che si può ottenere con la nuova IA textual content-to-video clip. La qualità delle immagini è impressionante. Così come la “regia” dell’IA, che passa dal totale al primissimo piano.

Intelligenza artificiale

OpenaAI ha svelato Sora, una nuova IA for each creare movie realistici


L’unico difetto del online video, a prima vista, riguarda il modo in cui avanza la donna. I suoi passi sembrano incerti. Ma è servito rivedere la clip più e più volte for every accorgersi, finalmente, che c’era un errore molto più grave nelle immagini prodotte dall’IA: guardate bene al secondo 00:15 e al secondo 00:30 e vi accorgerete che i piedi della donna si invertono “magicamente”.

Settantadue ore dopo il lancio di Sora, dopo la sbornia causata da una IA che il New York Situations ha definito “strabiliante”, vengono fuori i primi difetti – alcuni nascosti, altri ben più evidenti – dello strumento creato da OpenAI.

In realtà l’azienda guidata da Sam Altman aveva messo le mani avanti fin da subito, scrivendo nel giorno dell’annuncio di Sora che il nuovo modello ha dei “punti deboli”: “Potrebbe avere difficoltà a simulare accuratamente gli sviluppi di una scena complessa e potrebbe non comprendere istanze specifiche di causa ed effetto – ha scritto OpenAI sul suo site – Advert esempio, una persona potrebbe dare un morso a un biscotto, ma in seguito il biscotto potrebbe non lasciare il segno del morso”.

“Il modello può anche confondere i dettagli spaziali di un prompt, advert esempio confondendo sinistra e destra” ha aggiunto OpenAi mostrando il video clip generato da Sora in cui un uomo corre sul tapis-roulant al contrario.

Insieme a questo video clip, OpenAI ne ha diffusi altri in cui evidenzia volutamente i limiti della sua intelligenza artificiale. Che sono, appunto, palesi. Ma in alcuni casi solo perché sappiamo che dei difetti essitono.

In una clip, tre cuccioli di lupo si moltiplicano. In un’altra, circolata ampiamente sui social, una signora davanti a una torta di compleanno manca clamorosamente le candeline nel momento in cui si accinge a soffiare. E alle sue spalle si vede chiaramente una persona che muove una mano deforme. La scena è qui sotto:

Proprpio una mano sembra penzolare, al posto di quello che dovrebbe essere un telo, in un altro video clip generato da Sora e pubblicato, sul social community X, da uno dei ricercatori di OpenAI che ha lavorato alla nuova IA: Tim Brooks. Il dettaglio appare in questo movie, dietrola sedia a sdraio di sinistra su cui poggia l’uomo.

Nella clip qui sopra tutti gli occhi sono ovviamente puntati sullo squalo, che esce in modo realistico dall’acqua. Solo dopo aver visto e rivisto le immagini ci si accorge della mano “fantasma”, appunto, e del modo innaturale in cui la donna sulla sinistra ruota la testa per manifestare il suo stupore.

Sora, lo sappiamo, non è aperta al pubblico come Runway e Pika, because of strumenti simili che da qualche tempo permettono – con risultati non altrettanto straordinari – di produrre movie a partire da un testo.

I contenuti che vedete circolare sui social, con il marchio OpenAI (in basso a destra), sono stati unicamente generati dall’azienda californiana e dai suoi dipendenti. Anche Sam Altman, il Ceo di OpenAI, ne ha diffuso alcuni, trasformando i prompt che ha ricevuto dai suoi follower su X. Uno di questi ritrae una “nonna influencer” impegnata in un video clip tutorial su come preparare gli gnocchi “in una cucina rustica della Toscana”.

Del online video qui sopra colpiscono due cose: il modo in cui sono state ricreate le mani – con cui l’IA generativa ha avuto fin da subito grandi problemi – e il fatto che all’improvviso appare (e poi scompare) un cucchiaio nella ciotola.

Nonostante qualche imperfezione, le scene realistiche sembrano essere il pezzo forte di Sora. È stupefacente, for each esempio, la breve clip ottenuta con il prompt “ripresa in soggettiva di una formica che si muove all’interno di un formicaio”. O ancora il video che mostra un treno microscopico che si muove sulle venature di una foglia.

Ma poi Sora cade inesorabilmente, sempre for each colpa di un dettaglio a prima vista trascurabile, quando develop una scena in cui un gatto sveglia una ragazza che sta dormendo. L’attenzione di chi guarda, in questo caso, è rivolta alla zampa dell’animale che preme sul naso della ragazza.

Ma se si mette da parte la meraviglia iniziale, si noterà che al gatto quella zampa si sdoppia per qualche istante. E che tra le lenzuola, in basso a destra, spunta in modo innaturale una mano che non è ben collegata al movimento del corpo della donna.

È proprio sulla “meraviglia” che punta OpenAI. I movie di Sora pubblicati sui social sono stati accuratamente selezionati, di certo sono i migliori prodotti finora. Oppure sono quelli a prima vista più sorprendenti.

È facile ingannare chi guarda, perché la valutazione dei video clip di Sora avviene ben prima di cliccare “Play”: inizia dalla lettura del prompt, che rende le immagini a cui è associato più “magiche” di quanto sono in realtà. Il “trucco”, se di trucco possiamo parlare, sta nella nostra razionalità: non si riesce a credere che una macchina, usando solo una manciata di parole fantasiose, sia in grado di replicare in modo così armonioso i movimenti di una metropoli o della natura.

Stiamo parlando, in fondo, di macchine che non comprendono il significato di ciò che fanno: sono solo estremamente courageous a predire, dato un determinato contesto, quale contenuto ha più possibilità di apparire dopo un altro. ChatGpt ci riesce con le parole. E se questo ci è apparso straordinario, cosa dovremmo pensare di una tecnologia in grado di predire body dopo frame lo svolgimento di una scena che implica infinite (e complesse) variabili?

Insomma, è difficile non restare a bocca aperta.

Prendete for every esempio il video qui sotto, ottenuto dal prompt “New York Metropolis sommersa appear Atlantide”. Chi guarda si sofferma sulla miriade di pesci che “nuotano” tra i grattacieli, arrive se si trovasse davvero al cospetto di una città sommersa. Ma a uno sguardo più attento non sfuggirà, in basso, il vero livello dell’acqua, che di fatto non ha sommerso la metropoli.

La “strategia” di OpenAI – che con il marketing and advertising ha dimostrato di saperci fare – ha funzionato, a quanto pare, anche con gli investitori. Poche ore dopo aver annunciato Sora, OpenAI ha chiuso un accordo economico che ha fissato la sua valutazione di mercato a oltre 80 miliardi di dollari.

Ma Sora è una tecnologia ancora giovane. Esattamente appear lo period, un anno fa, Dall-E, l’IA di OpenAI che genera foto realistiche a partire da un testo.

Anche gli esempi diffusi dall’azienda di Sam Altman for every pubblicizzare quel modello – che all’epoca period noto appear Dall-E 2 – erano straordinari. Ma all’inizio gli utenti ottenevano, nella maggior parte dei casi, risultati insoddisfacenti. Solo a partire da Dall-E 3, l’attuale modello textual content-to-image di OpenAI, le immagini create hanno fatto un grande balzo in avanti in termini di consistenza e qualità.

La sensazione è che Sora, una volta aperta al pubblico, affronterà gli stessi problemi – e probabilmente la stessa evoluzione – di Dall-E.





Leggi di più su repubblica.it

Written by bourbiza mohamed

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Morti sul lavoro, i sindacati indicono uno sciopero nazionale e organizzano un flash mob

Scuola, tutti i guai del Liceo Created in Italy. “Pressioni dai presidi, ma gli studenti non lo vogliono”