Η σειρά Χάρι Πότερ χρησιμοποίησε τον κόσμο για την ιδέα της ζωντανής πορτρέτας με τις ομιλούμενες ζωγραφιές και τις κινούμενες φωτογραφίες. Αλλά την περασμένη εβδομάδα, όταν ένα "ζωντανό πορτραίτο" της Mona Lisa του Λεονάρντο Ντα Βίντσι άρχισε να κάνει τους γύρους στο διαδίκτυο, πολλοί άνθρωποι έκπληκαν όταν το περίφημο πορτρέτο κινούσε τα χείλη της και κοίταξε γύρω.
Το κινούμενο πορτρέτο της Lisa Gherardini ήταν ένα από τα πολλά καινούργια "μοντέλα ομιλίας" - πιο γνωστά ως "deepfakes" - που δημιουργήθηκαν από ερευνητές από το Κέντρο AI της Samsung στη Μόσχα και το Ινστιτούτο Επιστήμης και Τεχνολογίας του Skolkovo. Χρησιμοποιώντας μόνο λίγα πλαίσια αναφοράς ή ακόμα και μία εικόνα, οι ερευνητές έκαναν βαθιές φήμες από διασημότητες όπως η Oprah, έφεραν στη ζωή απλά στιγμιότυπα της Marilyn Monroe και του Albert Einstein και δημιούργησαν νέες εκφράσεις για διάσημες εικόνες όπως το κορίτσι της Vermeer με ένα μαργαριτάρι σκουλαρίκι .
Οι ερευνητές δημοσίευσαν τη μέθοδο τους, την οποία ονομάζουν "λίγη εκμάθηση γυρισμάτων", στο YouTube και σε ένα έγγραφο το οποίο δεν έχει ακόμη αξιολογηθεί από τον αρχειοφύλακα πριν από την αποτύπωση arXiv.org. Ενώ οι λεπτομέρειες είναι αρκετά τεχνικές, ο Mindy Weisberger στο LiveScience αναφέρει ότι για να παράγει τα ζωντανά πορτραίτα ένας τύπος τεχνητής νοημοσύνης που ονομάζεται συνελικτικό νευρωνικό δίκτυο εκπαιδεύεται από την ανάλυση εικόνων αναφοράς. Στη συνέχεια εφαρμόζει τις κινήσεις του προσώπου από μια σειρά πλαισίων σε μια στατική εικόνα, όπως η Mona Lisa . Όσο περισσότερες γωνίες και εικόνες αναφοράς έχει, τόσο καλύτερα γίνεται το ζωντανό πορτρέτο. Σύμφωνα με το χαρτί, το AI θα μπορούσε να παράγει "τέλειο ρεαλισμό" (που μετράται από την ικανότητα των ανθρώπων να διακρίνουν ποια από τα τρία σύνολα εικόνων ήταν βαθιά) χρησιμοποιώντας μόνο 32 εικόνες αναφοράς.
Η Μόνα Λίζα, φυσικά, είναι μόνο μία εικόνα, έτσι τα τρία "ζωντανά πορτραίτα" του αριστουργηματικού του Leonardo είναι λίγο ανησυχητικά. Για τα σύντομα κινούμενα σχέδια, το νευρωνικό δίκτυο παρατηρούσε τρία διαφορετικά βίντεο κατάρτισης και οι τρεις εκδόσεις της Mona Lisa βασισμένες σε αυτά τα πλαίσια φαίνονται διαφορετικές προσωπικότητες. Εάν ο Leonardo είχε ζωγραφίσει το περίφημο μοντέλο του από διαφορετικές οπτικές γωνίες, το σύστημα θα μπορούσε να έχει δημιουργήσει ένα ακόμα πιο ρεαλιστικό ζωντανό πορτρέτο.
Ενώ η κινούμενη Mona Lisa είναι διασκεδαστική, η άνοδος των βαθύτατων φαινομένων έχει δημιουργήσει ανησυχίες ότι οι παραγόμενες από τον υπολογιστή ομοιότητες θα μπορούσαν να χρησιμοποιηθούν για να κακοφορήσουν τους ανθρώπους, να προκαλέσουν φυλετικές ή πολιτικές εντάσεις και να διαβρώσουν περαιτέρω την εμπιστοσύνη στα online μέσα. "[Η] υπονομεύει την εμπιστοσύνη μας σε όλα τα βίντεο, συμπεριλαμβανομένων εκείνων που είναι αυθεντικά", γράφει ο John Villasenor στο The Brookings Institution. "Η ίδια η αλήθεια καθίσταται αόριστη, διότι δεν μπορούμε πλέον να είμαστε σίγουροι για το τι είναι πραγματικό και τι δεν είναι".
Ενώ η AI χρησιμοποιείται για να δημιουργήσει βαθιές μορφές, η Villasenor λέει ότι, τουλάχιστον προς το παρόν, μπορεί επίσης να χρησιμοποιηθεί για τον εντοπισμό βαθύτερων ψαριών αναζητώντας ασυνέπειες που δεν είναι εμφανείς στο ανθρώπινο μάτι.
Ο Tim Hwang, διευθυντής της Πρωτοβουλίας AI για τη Ηθική και τη Διακυβέρνηση του Χάρβαρντ, λέει στον Gregory Barber στο Wired ότι δεν είμαστε στο σημείο όπου οι καλοί ηθοποιοί μπορούν να δημιουργήσουν εξελιγμένους deepfakes στους προσωπικούς τους φορητούς υπολογιστές μόλις τώρα. "Τίποτα δεν μου υποδεικνύει ότι θα χρησιμοποιήσετε το κλειδί στο χέρι για να δημιουργήσετε βαθύτατα στο σπίτι", λέει. "Όχι βραχυπρόθεσμα, μεσοπρόθεσμα, ή ακόμα και μακροπρόθεσμα."
Αυτό συμβαίνει επειδή το νέο σύστημα της Samsung είναι δαπανηρό και απαιτεί εμπειρογνωμοσύνη. Αλλά το άρθρο του Barber επισημαίνει ότι δεν παίρνει ένα υπερ-εξελιγμένο φωτορεαλιστικό βίντεο που κατασκευάζεται από ένα νευρικό δίκτυο για να ξεγελάσει τους ανθρώπους. Μόλις την περασμένη εβδομάδα, ένα βίντεο με χειραγώγηση που είχε επιβραδυνθεί για να κάνει ο Αμερικανός Σώμα Ομιλητής Νάνσι Πελόζι ηχητικός μεθυσμένος κυκλοφόρησε στα κοινωνικά δίκτυα.
Τελικά, ωστόσο, η τεχνολογία θα είναι αρκετά καλή ώστε οι κακοί ηθοποιοί να είναι σε θέση να παράγουν βαθύτατα, τόσο πειστικά, που δεν μπορούν να ανιχνευθούν. Όταν έρθει εκείνη η μέρα, ο Hwang λέει στο Wired, οι άνθρωποι θα χρειαστεί να βασίζονται σε έλεγχο των πραγματικών περιστατικών και ενδείξεις συμφραζομένων για να διαλέξουν τι είναι πραγματικό και τι είναι ψεύτικο. Για παράδειγμα, εάν το μισό χαμόγελο της Mona Lisa γίνεται ένα κακό χαμόγελο και προσπαθεί να σας πουλήσει λεύκανση οδοντόκρεμας, είναι σίγουρα ένας βαθύτατος.