Ένα νέο νευρωνικό δίκτυο που αναπτύχθηκε από ερευνητές του Ινστιτούτου Τεχνολογίας της Μασαχουσέτης είναι ικανό να κατασκευάσει μια τραχιά προσέγγιση του προσώπου που βασίζεται αποκλειστικά σε ένα απόσπασμα της ομιλίας του, ένα άρθρο που δημοσιεύθηκε σε εκθέσεις arXiv του διακομιστή πριν από την εκτύπωση.
Η ομάδα εκπαίδευσε το εργαλείο τεχνητής νοημοσύνης - έναν αλγόριθμο μηχανικής μάθησης προγραμματισμένο να «σκέπτεται» σαν τον ανθρώπινο εγκέφαλο - με τη βοήθεια εκατομμυρίων online κλιπ που συλλαμβάνουν περισσότερα από 100.000 διαφορετικά ηχεία. Ονομάστηκε Speech2Face, το νευρωνικό δίκτυο χρησιμοποίησε αυτό το σύνολο δεδομένων για να καθορίσει τις συνδέσεις μεταξύ φωνητικών συνθηκών και συγκεκριμένων χαρακτηριστικών του προσώπου. όπως γράφουν οι επιστήμονες στη μελέτη, την ηλικία, το φύλο, το σχήμα του στόματος, το μέγεθος του χείλους, τη δομή των οστών, τη γλώσσα, τον προφορά, την ταχύτητα και την προφορά, όλα στη μηχανική της ομιλίας.
Σύμφωνα με την Melanie Ehrenkranz της Gizmodo, το Speech2Face βασίζεται σε συσχετισμούς μεταξύ εμφάνισης και ομιλίας για τη δημιουργία φωτορεαλιστικών απεικονίσεων προσώπων που αντιμετωπίζουν μπροστά με ουδέτερες εκφράσεις. Παρόλο που αυτές οι εικόνες είναι υπερβολικά γενικές για να αναγνωριστούν ως συγκεκριμένα άτομα, η πλειοψηφία τους εντοπίζει επακριβώς το φύλο, τη φυλή και την ηλικία των ομιλητών.
Είναι ενδιαφέρον ότι ο Jackie Snow εξηγεί για τη Fast Company ότι η νέα έρευνα δεν βασίζεται μόνο σε προηγούμενες έρευνες σχετικά με τις προγνώσεις ηλικίας και φύλου από την ομιλία, αλλά επίσης προβάλλει τους δεσμούς μεταξύ της φωνής και των «κρανιοπροσωπικών χαρακτηριστικών» όπως η δομή της μύτης.
Οι συγγραφείς προσθέτουν, "Αυτό επιτυγχάνεται χωρίς προηγούμενες πληροφορίες ή με την ύπαρξη ακριβών ταξινομητών για αυτούς τους τύπους ωραίων γεωμετρικών χαρακτηριστικών".
Ακόμα, ο αλγόριθμος έχει τα ελαττώματά του. Όπως σημειώνει ο Mindy Weisberger της Live Science, το μοντέλο έχει πρόβλημα να αναλύσει τις γλωσσικές παραλλαγές. Όταν παίζαμε ένα ηχητικό κλιπ ενός Ασιάτη που μιλάει Κινέζικα, για παράδειγμα, το Speech2Face δημιούργησε ένα πρόσωπο της σωστής εθνικότητας, αλλά όταν το ίδιο άτομο καταγράφηκε μιλώντας αγγλικά, το AI δημιούργησε μια εικόνα ενός λευκού άνδρα.
Σε άλλες περιπτώσεις, τα υψηλά ανδρικά, συμπεριλαμβανομένων των παιδιών, αναγνωρίστηκαν εσφαλμένα ως θηλυκά, αποκαλύπτοντας τη μεροληψία του φύλου του μοντέλου στη συσχέτιση χαμηλών φωνών με τους άνδρες και τις υψηλές με γυναίκες. Δεδομένου ότι τα δεδομένα κατάρτισης προέρχονταν σε μεγάλο βαθμό από εκπαιδευτικά βίντεο που δημοσιεύθηκαν στο YouTube, οι ερευνητές επισημαίνουν περαιτέρω ότι ο αλγόριθμος αποτυγχάνει να «αντιπροσωπεύει εξίσου τον παγκόσμιο πληθυσμό».
Σύμφωνα με τη Jane C. Hu της Slate, η νομιμότητα της χρήσης βίντεο YouTube για επιστημονική έρευνα είναι αρκετά ξεκάθαρη. Τέτοιου είδους κλιπ θεωρούνται διαθέσιμες στο κοινό πληροφορίες. ακόμη και αν ένας χρήστης προστατεύει τα βίντεό τους, οι επιστήμονες μπορούν να συμπεριλάβουν τα υλικά στα πειράματά τους με ρήτρα "δίκαιης χρήσης".
Αλλά η ηθική αυτής της πρακτικής είναι λιγότερο απλή. Μιλώντας με τον Hu, ο Nick Sullivan, επικεφαλής της κρυπτογραφίας στο Cloudflare, δήλωσε ότι ήταν έκπληκτος που είδε μια φωτογραφία του ίδιου που παρουσιάστηκε στη μελέτη της ομάδας του MIT, καθώς ποτέ δεν είχε υπογράψει μια παραίτηση ή άκουσε απευθείας από τους ερευνητές. Παρόλο που ο Sullivan λέει στον Hu ότι θα ήταν "ωραίο" να ενημερωθεί για την ένταξή του στη βάση δεδομένων, αναγνωρίζει ότι δεδομένου του τεράστιου μεγέθους της ομάδας δεδομένων, θα ήταν δύσκολο για τους επιστήμονες να προσεγγίσουν όλους που απεικονίζονται.
Ταυτόχρονα, ο Sullivan καταλήγει: «Δεδομένου ότι η εικόνα και η φωνή μου είχαν επισημανθεί ως παράδειγμα στο χαρτί Speech2Face, και όχι απλώς ως σημείο δεδομένων σε μια στατιστική μελέτη, θα ήταν ευγενικό να επικοινωνήσουμε μαζί μου ή ζητήστε την άδειά μου. "
Μία πιθανή εφαρμογή πραγματικού κόσμου για το Speech2Face χρησιμοποιεί το μοντέλο για να "επισυνάψει ένα αντιπροσωπευτικό πρόσωπο" στις τηλεφωνικές κλήσεις με βάση τη φωνή ενός ηχείου. Το χιόνι προσθέτει ότι η τεχνολογία αναγνώρισης φωνής χρησιμοποιείται ήδη σε πολλά πεδία - συχνά χωρίς τη ρητή γνώση ή συγκατάθεση των ατόμων. Πέρυσι, ο Chase ξεκίνησε ένα πρόγραμμα "Φωνητικής Ταυτότητας" το οποίο μαθαίνει να αναγνωρίζει τους πελάτες της πιστωτικής κάρτας που καλούν την τράπεζα, ενώ τα σωφρονιστικά ιδρύματα σε ολόκληρη τη χώρα κατασκευάζουν βάσεις δεδομένων των "φωνητικών αποτυπωμάτων" των φυλακισμένων ατόμων.