I risultati finali sono piuttosto apprezzabili visto che le scene, ricostruite tramite l'IA partendo da un input testuale, risultano realistiche e credibili. In tal senso, l'azienda ha specificato che Sora è in grado di creare "scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo". Inoltre, il modello può anche comprendere come gli oggetti "esistono nel mondo fisico", oltre a "interpretare accuratamente gli oggetti di scena e generare personaggi avvincenti che esprimono emozioni vibranti".

Ancora, Sora è in grado di generare un filmato anche partendo da un'immagine statica nonché di aggiungere i fotogrammi mancanti (sarà possibile pure estendere un video).

I risultati finali, come già accennato in precedenza, sono a tratti impressionanti, anche se non mancano delle incertezze. A riguardo, stesso OpenAI ha evidenziato che il modello "potrebbe avere difficoltà a simulare accuratamente la fisica di una scena complessa". Almeno per il momento, la durata massima dei video è di un minuto.