Το OpenAI Sora θα αλλάξει τα βίντεο για πάντα

Η ταχύτητα της ανάπτυξης της τεχνητής νοημοσύνης οδεύει προς ένα σημείο που ξεπερνά την ανθρώπινη κατανόηση, και το σύστημα Sora text-to-video της OpenAI είναι απλώς η πιο πρόσφατη τεχνολογία τεχνητής νοημοσύνης που σοκάρει τον κόσμο, ώστε να συνειδητοποιήσει ότι τα πράγματα συμβαίνουν νωρίτερα από ό,τι περίμενε κανείς. “Το OpenAI Sora θα αλλάξει τα βίντεο για πάντα”.

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ

Το OpenAI Sora δημιουργεί εξαιρετικά ρεαλιστικά βίντεο κλιπ από προτροπές κειμένου, παρουσιάζοντας μια σημαντική πρόοδο στην τεχνολογία τεχνητής νοημοσύνης.
Η ικανότητα του Sora να προσομοιώνει με ακρίβεια τη φυσική στα βίντεο είναι ένα χαρακτηριστικό που ξεχωρίζει. Αλλά εξακολουθεί να έχει κάποια προβλήματα με τις αλληλεπιδράσεις και τη δημιουργία αντικειμένων.
Η διαθεσιμότητα του Sora στο κοινό είναι αβέβαιη. Επί του παρόντος δοκιμάζεται για την ασφάλεια και την ποιότητα πριν οριστεί μια σταθερή ημερομηνία κυκλοφορίας.

Τι είναι το OpenAI Sora;

Όπως και άλλα εργαλεία γεννητικής τεχνητής νοημοσύνης, όπως το DALL-E και το MidJourney, το Sora λαμβάνει από εσάς προτροπές κειμένου και τις μετατρέπει σε οπτικό μέσο. Ωστόσο, σε αντίθεση με αυτές τις προαναφερθείσες γεννήτριες εικόνων τεχνητής νοημοσύνης, το Sora δημιουργεί ένα βίντεο κλιπ πλήρες με κίνηση, διαφορετικές γωνίες κάμερας, σκηνοθεσία και ό,τι άλλο θα περιμένατε από ένα παραδοσιακά παραγόμενο βίντεο.

Κοιτάζοντας τα παραδείγματα στον ιστότοπο του Sora, τα αποτελέσματα είναι τις περισσότερες φορές δυσδιάκριτα από πραγματικά, επαγγελματικά παραγόμενα βίντεο. Τα πάντα, από υψηλής ποιότητας πλάνα με drone μέχρι κινηματογραφικές παραγωγές πολλών εκατομμυρίων δολαρίων. Ολοκληρωμένες με ηθοποιούς που δημιουργούνται από τεχνητή νοημοσύνη, ειδικά εφέ, όλα τα έργα.

“Τεχνητή νοημοσύνη σε εικόνα από drone. Δείχνει τα κύματα να σκάνε στα απόκρημνα βράχια κατά μήκος της παραλίας Garay Point του Big Sur”.

Το Sora δεν είναι φυσικά η πρώτη τεχνολογία που το κάνει αυτό. Μέχρι τώρα, ο πιο ορατός ηγέτης σε αυτόν τον τομέα ήταν η RunwayML. Αυτ οποία προσφέρει τις υπηρεσίες της στο κοινό έναντι αμοιβής. Ωστόσο, τα βίντεο της Runway μοιάζουν περισσότερο με τις πρώτες γενιές των ακίνητων εικόνων του MidJourney. Δεν υπάρχει σταθερότητα στην εικόνα, η φυσική δεν βγάζει νόημα. Επίσης το μεγαλύτερο μήκος κλιπ είναι 16 δευτερόλεπτα.

Ο παληός είναι αλλιώς

Αντίθετα, το καλύτερο αποτέλεσμα που έχει να επιδείξει η Sora είναι απόλυτα σταθερό. Με φυσική που φαίνεται σωστή (τουλάχιστον στον εγκέφαλό μας), και τα κλιπ μπορούν να φτάσουν το ένα λεπτό σε μήκος. Τα κλιπ στερούνται εντελώς ήχου. Αλλά υπάρχουν ήδη άλλα συστήματα τεχνητής νοημοσύνης που μπορούν να παράγουν μουσική, ηχητικά εφέ και ομιλία. Έτσι, δεν έχω καμία αμφιβολία ότι αυτά τα εργαλεία θα μπορούσαν να ενσωματωθούν σε μια ροή εργασίας του Sora. Ή στη χειρότερη περίπτωση σε μια παραδοσιακή δουλειά voiceover και foley.

Δεν μπορεί να υπερεκτιμηθεί το τεράστιο άλμα που αντιπροσωπεύει το Sora. Σε σχέση με τα εφιαλτικά βίντεο τεχνητής νοημοσύνης που υπήρχαν μόλις ένα χρόνο πριν από το demo του Sora. Όπως το αρκετά ενοχλητικό AI Will Smith που τρώει μακαρόνια. Νομίζω ότι αυτό είναι ένα ακόμα μεγαλύτερο σοκ για το σύστημα. Από ό,τι όταν οι γεννήτριες εικόνων τεχνητής νοημοσύνης έγιναν από αστείο για να προκαλέσουν στους εικαστικούς καλλιτέχνες υπαρξιακό τρόμο.

Το Sora είναι πιθανό να επηρεάσει ολόκληρη τη βιομηχανία βίντεο. Από τους παραγωγούς βίντεο ενός ατόμου μέχρι το επίπεδο των μεγαλοπρογραμμάτων της Disney και της Marvel. Τίποτα δεν θα μείνει ανέγγιχτο από αυτό. Νομίζω ότι αυτό ισχύει ιδιαίτερα από τη στιγμή που το Sora δεν χρειάζεται να δημιουργεί πράγματα εξ ολοκλήρου. Αλλά μπορεί να δουλέψει πάνω σε υπάρχον υλικό, όπως η εμψύχωση ενός στιγμιότυπου που έχετε παράσχει. Αυτό μπορεί να είναι το πραγματικό ξεκίνημα της συνθετικής κινηματογραφικής βιομηχανίας.

Πώς λειτουργεί το Sora;

Θα μπούμε λίγο κάτω από το καπό του Sora, όσο μπορούμε, αλλά δεν είναι δυνατόν να μπούμε σε τόσες λεπτομέρειες. Πρώτον, επειδή η OpenAI, κατά ειρωνικό τρόπο, δεν είναι ανοιχτή σχετικά με τις εσωτερικές λειτουργίες της τεχνολογίας της. Είναι όλα ιδιόκτητα και έτσι η μυστική σάλτσα που κάνει το Sora να ξεχωρίζει από τον ανταγωνισμό είναι άγνωστη. Δεύτερον, δεν είμαι επιστήμονας πληροφορικής, πιθανότατα δεν είστε και εσείς επιστήμονας πληροφορικής. Έτσι μπορούμε να καταλάβουμε πώς λειτουργεί αυτή η τεχνολογία μόνο σε γενικές γραμμές.

Τα καλά νέα είναι ότι υπάρχει ένα εξαιρετικό (επί πληρωμή) επεξηγηματικό κείμενο για το Sora. Είναι από τον Mike Young στο Medium. Βασίζεται σε μια τεχνική έκθεση από το OpenAI, την οποία έχει αναλύσει για να την κατανοήσουμε εμείς οι κοινοί θνητοί. Ενώ και τα δύο έγγραφα αξίζει να τα διαβάσετε, μπορούμε να εξάγουμε τα πιο σημαντικά στοιχεία εδώ.

Πού βαζίζεται ρε παιδί μου

Το Sora βασίζεται στα μαθήματα που πήραν εταιρείες όπως η OpenAI όταν δημιούργησαν τεχνολογίες όπως το ChatGPT ή το DALL-E. Το Sora καινοτομεί στον τρόπο με τον οποίο εκπαιδεύεται σε δειγματικά βίντεο. Χωρίζει αυτά τα βίντεο σε “patches”, τα οποία είναι ανάλογα με τα “tokens”. Σαν και αυτ που χρησιμοποιούνται από το μοντέλο εκπαίδευσης του ChatGPT. Αυτά τα tokens έχουν όλα το ίδιο μέγεθος. Έτσι πράγματα όπως το μήκος του κλιπ, η αναλογία διαστάσεων και το μέγεθος της ανάλυσης δεν έχουν σημασία για το Sora.

Το Sora χρησιμοποιεί την ίδια ευρεία προσέγγιση μετασχηματιστή που τροφοδοτεί το GPT μαζί με τη μέθοδο διάχυσης που χρησιμοποιούν οι γεννήτριες εικόνων AI. Κατά τη διάρκεια της εκπαίδευσης, εξετάζει θορυβώδεις μάρκες patch με μερική διάχυση από ένα βίντεο και προσπαθεί να προβλέψει πώς θα έμοιαζε η καθαρή, χωρίς θόρυβο μάρκα. Συγκρίνοντάς το με τη βασική αλήθεια, το μοντέλο μαθαίνει τη “γλώσσα” του βίντεο. Αυτός είναι ο λόγος για τον οποίο τα παραδείγματα από τον ιστότοπο της Sora φαίνονται τόσο αυθεντικά.

Στα πολύ ενδότερα

Εκτός από αυτή την αξιοσημείωτη ικανότητα, το Sora έχει επίσης συμπεριλάβει εξαιρετικά λεπτομερείς λεζάντες για τα καρέ βίντεο στα οποία έχει εκπαιδευτεί, γεγονός που αποτελεί μεγάλο μέρος του γιατί είναι σε θέση να τροποποιεί τα βίντεο που παράγει με βάση τις προτροπές κειμένου.

Η ικανότητα του Sora να προσομοιώνει με ακρίβεια τη φυσική στα βίντεο φαίνεται να είναι ένα αναδυόμενο χαρακτηριστικό, το οποίο προκύπτει απλώς από την εκπαίδευσή του σε εκατομμύρια βίντεο που περιέχουν κίνηση βασισμένη στη φυσική του πραγματικού κόσμου. Το Sora έχει εξαιρετική μονιμότητα αντικειμένων, ακόμη και όταν τα αντικείμενα φεύγουν από το καρέ ή αποκρύπτονται από κάτι άλλο μέσα στο καρέ, παραμένουν παρόντα και επιστρέφουν ανενόχλητα.

Ωστόσο, εξακολουθεί να έχει προβλήματα μερικές φορές όταν τα πράγματα στο βίντεο αλληλεπιδρούν, με την αιτιότητα και με την αυθόρμητη δημιουργία αντικειμένων. Επίσης, κάπως διασκεδαστικά, ο Sora φαίνεται να μπερδεύει το αριστερό με το δεξί από καιρό σε καιρό. Παρ’ όλα αυτά, ό,τι έχει παρουσιαστεί μέχρι στιγμής δεν είναι απλώς ήδη χρησιμοποιήσιμο, αλλά απολύτως σύγχρονο.

Πότε θα αποκτήσετε το Sora;

Έτσι, είμαστε όλοι εξαιρετικά ενθουσιασμένοι για να πάρουμε στα χέρια μας το Sora, και μπορείτε να στοιχηματίσετε ότι θα παίξω μαζί του και θα γράψω ακριβώς πόσο καλή είναι αυτή η τεχνολογία όταν δεν θα μας δείχνουν χειροποίητα επιλεγμένες εξόδους, αλλά πόσο σύντομα μπορεί να συμβεί αυτό;

Από τη στιγμή που γράφονται αυτές οι γραμμές, δεν είναι σαφές πόσος χρόνος θα περάσει μέχρι το Sora να είναι διαθέσιμο στο ευρύ κοινό ή πόσο θα κοστίζει. Η OpenAI έχει δηλώσει ότι η τεχνολογία βρίσκεται στα χέρια της “κόκκινης ομάδας“, η οποία είναι η ομάδα των ανθρώπων που η δουλειά τους είναι να προσπαθούν να κάνουν το Sora να κάνει όλα τα άτακτα πράγματα που δεν πρέπει να κάνει, και στη συνέχεια να βοηθήσουν να μπουν προστατευτικές μπάρες για να μην συμβεί κάτι τέτοιο όταν οι πραγματικοί πελάτες το χρησιμοποιήσουν. Αυτό περιλαμβάνει τη δυνατότητα δημιουργίας παραπληροφόρησης, παραγωγής υποτιμητικού ή προσβλητικού υλικού και πολλές άλλες καταχρήσεις που μπορεί κανείς να φανταστεί.

Επίσης, από τη στιγμή που γράφεται αυτό το κείμενο, βρίσκεται στα χέρια επιλεγμένων δημιουργών, κάτι που υποψιάζομαι ότι γίνεται τόσο για σκοπούς δοκιμής, όσο και για να βγουν κάποιες κριτικές και εγκρίσεις τρίτων, καθώς οδηγούμαστε στην τελική του κυκλοφορία.

Ξέρουμε ή δε ξέρουμε

Η ουσία είναι ότι δεν ξέρουμε στην πραγματικότητα πότε θα είναι διαθέσιμο, με τον ίδιο τρόπο που μπορείτε απλά να πληρώσετε και να χρησιμοποιήσετε το DALL-E 3, και στην πραγματικότητα ακόμα και το OpenAI δεν έχει ακόμα μια σταθερή ημερομηνία. Αυτό συμβαίνει απλά επειδή αν είναι στα χέρια των δοκιμαστών ασφαλείας, μπορεί να αποκαλύψουν ζητήματα που θα χρειαστούν περισσότερο χρόνο για να διορθωθούν από το αναμενόμενο, γεγονός που θα καθυστερήσει μια δημόσια κυκλοφορία.

Το γεγονός ότι η OpenAI αισθάνεται έτοιμη να επιδείξει το Sora και να λάβει ακόμη και μερικές επιμελημένες δημόσιες προτροπές μέσω του X (πρώην Twitter) σημαίνει απλώς ότι η εταιρεία πιστεύει ότι η ποιότητα του τελικού προϊόντος είναι λίγο πολύ έτοιμη, αλλά μέχρι να υπάρξει μια καλύτερη εικόνα της κοινής γνώμης, των ζητημάτων ασφαλείας που αναφέρθηκαν, αλλά και των ζητημάτων ασφαλείας που ανακαλύφθηκαν, κανείς δεν μπορεί να πει με σιγουριά. Νομίζω ότι μιλάμε για μήνες και όχι για χρόνια, αλλά μην το περιμένετε την επόμενη εβδομάδα.

Μπορείτε να κατεβάσετε επίσης δωρεάν, πολύ ενδιαφέροντα e-books που έφτιαξα σχετικά με τη δημιουργία websites αλλά και για γλώσσες προγραμματισμού, εδώ στα free downloads.