Το λογισμικό αναγνώρισης φωνής, οι περισσότεροι από εμάς πιθανώς θα συμφωνούσαμε, είναι ένα αρκετά δροσερό πράγμα. Αλλά η συνομιλία με τα μηχανήματα είναι είτε smartphone, είτε τηλεοπτική οθόνη είτε ταμπλό, αλλά όχι τόσο. Ζητώντας συμβουλές για μια συσκευή; Πειραματικά. Εκφωνώντας κάθε λέξη ώστε να κατανοήσετε; Πόσο cool μπορείτε πραγματικά να είστε;
Αλλά η Apple, αληθινή στο σχήμα, έχει πάρει αυτό το κεφάλι επάνω με την πρόσληψη τριών εικόνων δροσερό για να αστέρι στην τελευταία διαφημιστική καμπάνια τους για το Siri, τη φωνή του iPhone 4S. Υπάρχει ο Zooey Deschanel (Adorable Cool) και ο John Malkovich (Cerebral Cool) και ο Samuel L. Jackson (Ultimate Cool), και όλοι κάνουν τη συμμετοχή τους σε wordplay με ένα τηλέφωνο να φαίνεται το άθλημα των θεών.
Οι κριτικοί, ωστόσο, επισημαίνουν ότι στην πραγματική ζωή, η Siri δεν είναι ούτε απόκριση ούτε εξειδικευμένη όσο παρουσιάζεται σε διαφημίσεις. Εσείς, επίσης, είμαι βέβαιος ότι, είναι συγκλονισμένοι να το ακούω αυτό. Άλλοι βλέπουν όλο το πράγμα ως ώριμο για παρωδία - δείτε τον αδερφό του Zooey Jooey να κάνει μια αστεία ή Die έκδοση του Zooey και του βροχερού μέρα του Σίρι μαζί.
Δεν πειράζει. Το Siri έχει γίνει τραγουδιστής στη ροή των ρομπότ, τη φωνή "You Got Mail" μιας νέας γενιάς.
Είναι μοντέρνο σε μερικούς κύκλους να υποδηλώνει ότι ο Siri δεν είναι άξιοι του Steve Jobs, ότι αν ήταν ακόμα ζωντανός, η Jobs θα το έβγαζε από την αγορά ή, τουλάχιστον, ποτέ δεν θα είχε εγκρίνει μια τέτοια διαφήμιση υψηλού προφίλ καμπάνια για ένα τόσο χαλασμένο προϊόν.
Αλλά ως διάδοχος της Jobs, Tim Cook, είπε νωρίτερα αυτήν την εβδομάδα, οι ιδιοκτήτες iPhone 4S όπως η Siri. Σύμφωνα με έρευνα που δημοσιεύθηκε τον Μάρτιο, σχεδόν το 90% λέει ότι το χρησιμοποιούν τουλάχιστον μία φορά το μήνα. Και να θυμάστε ότι η Siri, ένα από τα πολύ λίγα προϊόντα της Apple που δήλωσε ότι είναι σε beta όταν απελευθερώθηκε, δεν θα γιορτάσει τα πρώτα της γενέθλια μέχρι τον Οκτώβριο. Μαθαίνει ακόμα τη γλώσσα και, ακόμα πιο σημαντικό, μόλις αρχίζει να αξιοποιεί το δυναμικό της τεχνητής νοημοσύνης.
Το Siri θα αποτελέσει το επίκεντρο της Apple TV, που αναμένεται να κάνει το ντεμπούτο του τον Δεκέμβριο. Αλλά οι πιθανότητες είναι, ο τόπος όπου η συζήτηση με τα μηχανήματα θα πάει mainstream είναι στα αυτοκίνητά μας.
Οδηγήστε, είπε
Σίγουρα, αυτό συμβαίνει ήδη, αλλά πρέπει ακόμα να μεταβείτε στο ρομπότ να μιλήσετε αν θέλετε να γίνει κατανοητό. Και ακόμα δεν υπάρχει εγγύηση. Αυτό θα αρχίσει να αλλάζει αυτό το καλοκαίρι, όταν κάποια νέα μοντέλα θα έρθουν εξοπλισμένα με κάτι που ονομάζεται Dragon Drive!
Είναι η εφεύρεση της Nuance Communications, μίας εταιρείας που εδρεύει στη Μασαχουσέτη και έχει γίνει μια δύναμη στην επιχείρηση αναγνώρισης φωνής. (Είναι ευρέως πιστεύεται ότι είναι το μυαλό πίσω από Siri.) Nuance και αναγνώριση φωνής στα αυτοκίνητα πήρε ένα μεγάλο άλμα προς τα εμπρός την περασμένη εβδομάδα, όταν η εταιρεία ανακοίνωσε ότι Dragon Drive! θα είναι σε θέση να αξιοποιήσει το σύννεφο.
Αυτό σημαίνει ότι το σύστημα θα αυξήσει δραματικά την υπολογιστική του δύναμη και την ικανότητα μνήμης. Και αυτό σημαίνει ότι η φωνή στο ταμπλό σας θα γίνει περισσότερο σαν Siri και θα σας επιτρέψει να συζητήσετε πραγματικά με αυτό. Δεν υπάρχει πλέον μονοσλαβική φωνή. Η μέρα έρχεται όταν θα είστε σε θέση να αναφερθεί τυχαία ότι αισθάνεστε σαν κάποιοι αδελφοί Allman και δευτερόλεπτα αργότερα "Whipping Post" θα έρθει άντληση μέσω των ομιλητών.
Το κλειδί είναι πόσο καλά μπορούμε να διδάξουμε τα περιβάλλοντα και τις πραγματικές μηχανές - πώς χρησιμοποιείται η γλώσσα σε κοινωνικές καταστάσεις. Και αυτό είναι δύσκολο έργο. Για αρχάριους, ακόμα και η πιο εξελιγμένη συσκευή αναγνώρισης φωνής πρέπει να περιμένει έναν άνθρωπο να ολοκληρώσει την ομιλία, ώστε να είναι σε θέση να αναλύσει και να ερμηνεύσει ολόκληρη την πρόταση. Στη συνέχεια υπάρχει η «θεωρία του νου», η ικανότητα να κατανοήσουμε ότι οι άλλοι άνθρωποι μπορούν να έχουν διαφορετικές πεποιθήσεις και προθέσεις απ 'ό, τι η δική μας. Από όσο γνωρίζουμε, μόνο οι άνθρωποι μπορούν να το κάνουν αυτό.
Μια πρόσφατη μελέτη δύο ψυχολόγων του Στάνφορντ μπορεί να σας δώσει μια αίσθηση του τι εμπλέκεται στην υποβοήθηση των μηχανών. Οι ερευνητές Michael Frank και Noah Goodman δημιούργησαν ένα σε απευθείας σύνδεση πείραμα στο οποίο οι συμμετέχοντες κλήθηκαν να εξετάσουν ένα σύνολο αντικειμένων και στη συνέχεια να επιλέξουν ποια από αυτές αναφέρεται ως μια συγκεκριμένη λέξη. Για παράδειγμα, μια ομάδα συμμετεχόντων είδε ένα μπλε τετράγωνο, έναν μπλε κύκλο και ένα κόκκινο τετράγωνο. Το ερώτημα για αυτή την ομάδα ήταν: Φανταστείτε ότι μιλάτε σε κάποιον και θέλετε να ανατρέξετε στο μεσαίο αντικείμενο. Ποια λέξη θα χρησιμοποιούσατε, "μπλε" ή "κύκλο";
Η άλλη ομάδα ρωτήθηκε: Φανταστείτε ότι κάποιος σας μιλάει και χρησιμοποιεί τη λέξη "μπλε" για να αναφερθεί σε ένα από αυτά τα αντικείμενα. Για ποιο αντικείμενο μιλούν;
Οι απαντήσεις βοήθησαν τους ερευνητές να αποκτήσουν μια σαφέστερη εικόνα του τρόπου με τον οποίο ένας ακροατής κατανοεί έναν ομιλητή και πώς ο ομιλητής αποφασίζει τι να πει. Από αυτό, ανέπτυξαν το είδος του μαθηματικού μοντέλου που μπορεί να επεκτείνει και να τελειοποιήσει τη διαδικασία σκέψης ενός υπολογιστή.
Είπε Frank: "Θα χρειαστούν χρόνια εργασίας, αλλά το όνειρο είναι ενός υπολογιστή που πραγματικά σκέφτεται τι θέλετε και τι εννοείτε και όχι απλά αυτό που είπατε".
Ένας τρόπος ομιλίας
Ακολουθούν μερικές πιο πρόσφατες εξελίξεις στην αναγνώριση φωνής:
- Το Siri σιωπά: Η IBM τείνει να είναι πραγματικά νευρικός για τα εταιρικά μυστικά από το να βγει έξω, οπότε τώρα απαγορεύει στους υπαλλήλους της να χρησιμοποιούν δημόσιους ιστότοπους μεταφοράς αρχείων, όπως το Dropbox. Αλλά έχει επίσης απαγόρευση της χρήσης του Siri στο γραφείο, επειδή η ασφάλεια εξηγεί την ανησυχία ότι κάποιος, ενώ μιλάει στο τηλέφωνό του, θα μπορούσε να αποκαλύψει ευαίσθητες πληροφορίες που καταλήγουν στους διακομιστές της Apple.
- Πάρτε αυτό, Apple !: Η Samsung ξεκίνησε το νέο της Galaxy X III smartphone στο Λονδίνο αυτή την εβδομάδα και ενώ η μεγάλη οθόνη αφής της παίρνει μεγάλη προσοχή, διαθέτει και νέο λογισμικό αναγνώρισης φωνής και προσώπου.
- Κάνετε ό, τι λέω, όχι αυτό που κάνω: και η Samsung δεν σταματά εκεί. Πρόσφατα υπέβαλε αίτηση για δίπλωμα ευρεσιτεχνίας για ένα ρομπότ που κατανοεί την ανθρώπινη ομιλία. Το ρομπότ θα μπορεί να προσαρμόζει τις δυνατότητές του "ακρόασης" ώστε να λαμβάνει υπόψη τον θόρυβο του περιβάλλοντος που μπορεί να διακόψει ή να διακόψει τις εντολές που του έχουν δοθεί. Θα ήταν επίσης σε θέση να αναγνωρίσει ποιος μιλάει σε αυτόν, ακόμα και αν ο θόρυβος του περιβάλλοντος είναι πολύ δυνατός.
Infographic bonus: Πιστεύετε ότι το αυτοκίνητό σας είναι ηλεκτρονικό τώρα. Περιμένετε μέχρι να συνδεθεί πλήρως στο Internet. Πάρτε το lowdown σε αυτό που ένα συνδεδεμένο αυτοκίνητο μπορεί να κάνει.