Sora: Το μοντέλο τεχνητής νοημοσύνης, που μετατρέπει τις λέξεις σε βίντεο

Σε μια προσπάθεια να παραμείνει μπροστά από τους ανταγωνιστές του κλάδου, η OpenAI που υποστηρίζεται από τη Microsoft, παρουσίασε την τελευταία της καινοτομία – ένα μοντέλο μετατροπής κειμένου σε βίντεο , που ονομάζεται Sora.

Τι είναι το Sora

Το Sora ένα μοντέλο ΑΙ που φτιάχνει ρεαλιστικότατα βίντεο μόνο με την χρήση κειμένου. Το Sora -που σημαίνει ουρανός στα Ιαπωνικά – μπορεί να δημιουργήσει ρεαλιστικά βίντεο διάρκειας έως και 60 δευτερολέπτων με εξαιρετικά λεπτομερείς σκηνές, πολλούς χαρακτήρες με έντονα συναισθήματα και πολύπλοκη κίνηση της κάμερας, τα οποία είναι δύσκολο να ξεχωρίσουν από τα πραγματικά. Το Sora μπορεί να ακολουθεί το κείμενο και τις οδηγίες του χρήστη ώστε να δημιουργεί βίντεο υψηλής ακρίβειας. Σκεφτείτε μοντέλα GPT που δημιουργούν κείμενο βασισμένο σε λέξεις. Κάτι παρόμοιο κάνει και το Sora, αλλά με εικόνες και βίντεο.

Πώς μπορείτε να το δοκιμάσετε;

Οι περισσότεροι από εμάς θα πρέπει να περιμένουμε πριν πάρουμε στα χέρια μας το νέο μοντέλο AI. Αν και παρουσιάστηκε στις 15 Φεβρουαρίου, βρίσκεται στη φάση της «κόκκινης ομάδας», μια πρακτική όπου μια ομάδα ειδικών, ερευνά για τον εντοπισμό τρωτών σημείων και αδυναμιών του συστήματος. Παρέχεται επίσης πρόσβαση σε καλλιτέχνες, σχεδιαστές και κινηματογραφιστές για να λάβουν σχόλια σχετικά με τον τρόπο προώθησης του μοντέλου, ώστε να είναι πιο χρήσιμο για δημιουργικούς επαγγελματίες. Η εταιρεία, ωστόσο, μοιράστηκε πολλά demo στην ανάρτηση ιστολογίου, με τον Διευθύνοντα Σύμβουλο της OpenAI να μοιράζεται βίντεο με μηνύματα που ζητήθηκαν από χρήστες.

Το μοντέλο έχει «αδυναμίες»

Σε ανάρτηση της, η εταιρεία αναγνώρισε, ότι το σημερινό μοντέλο μπορεί να αντιμετωπίσει προκλήσεις στην “ακριβή προσομοίωση μιας περίπλοκης σκηνής και μπορεί να μην κατανοεί συγκεκριμένες περιπτώσεις αιτίας και αποτελέσματος”. Για παράδειγμα, ένα άτομο μπορεί να φάει μια μπουκιά από ένα cookie, αλλά στη συνέχεια, το cookie μπορεί να μην έχει σημάδι δαγκώματος. Το μοντέλο μπορεί επίσης να μπερδεύει τις χωρικές λεπτομέρειες μιας προτροπής, για παράδειγμα, να αναμιγνύει αριστερά και δεξιά και μπορεί να δυσκολεύεται με ακριβείς περιγραφές γεγονότων, που λαμβάνουν χώρα με την πάροδο του χρόνου.

Η εταιρεία ωστόσο ισχυρίζεται, ότι το νέο αυτό μοντέλο μπορεί να δημιουργήσει ρεαλιστικά βίντεο χρησιμοποιώντας στατικές εικόνες ή υπάρχοντα πλάνα, που παρέχονται από τον χρήστη. «Διδάσκουμε την τεχνητή νοημοσύνη να κατανοεί και να προσομοιώνει τον φυσικό κόσμο σε κίνηση, με στόχο μοντέλα εκπαίδευσης, που βοηθούν τους ανθρώπους να επιλύουν προβλήματα που απαιτούν αλληλεπίδραση στον πραγματικό κόσμο», ανέφερε σε ανάρτηση της.

Πηγή: www.moneycontrol.com