Η Karen Jacobsen, αυστραλιανή τραγουδίστρια και φωνή ηθοποιός, πήρε το κοινό το 2000, λίγο μετά την άφιξή της στη Νέα Υόρκη. Οι παραγωγοί - εταιρικοί τύποι - την έστειλαν σε ένα στούντιο ηχογράφησης για τρεις εβδομάδες, όπου πέρασε τέσσερις ώρες την ημέρα λέγοντας πράγματα όπως "στην επόμενη διασταύρωση, στρίψτε αριστερά" και "επανυπολογίζοντας". Στο τέλος, δεν ήταν η φωνή της που ήταν τεντωμένο. "Είπα περίπου 186 φορές", θυμάται ο Jacobsen. "Αυτά τα πράγματα μπορούν να σας κάνουν να πάτε χαλαρά."
σχετικό περιεχόμενο
- Από το Πτολεμαίο στο GPS, το Σύντομο Ιστορικό των Χαρτών
Δύο χρόνια αργότερα, πήρε ένα τηλεφώνημα από έναν φίλο. «Κάρεν», η φίλη της κοίταξε. "Αγόρασα τον σύζυγό μου ένα από αυτά τα νέα GPS πράγματα και το βάζουμε στην αυστραλιανή φωνή. Είστε εσείς! "Έτσι ο Jacobsen ανακάλυψε ότι η φωνή της έδινε κατευθύνσεις σε 400 εκατομμύρια ανθρώπους σε όλο τον κόσμο.
Η δουλειά της τονίζει το υβρίδιο του αίματος και της τεχνολογίας που πηγαίνει στις πανταχού παρούσες φωνές που μας λένε πού να στρίψουμε: Περισσότεροι από ένα δισεκατομμύριο άνθρωποι στηρίζονται στους Χάρτες Google κάθε μήνα και το 80% ενεργοποιεί την επιλογή φωνής.
Στις πρώτες μέρες της φωνητικής σύνθεσης - σκεφτείτε τους ρομποτικούς ήχους μιας λέξης Speak & Spell της δεκαετίας του 1970 - ένας αλγόριθμος μετατρεπόταν το κείμενο σε ένα μονότονο ρεύμα. Στη συνέχεια, καθώς αυξήθηκαν οι βάσεις δεδομένων, θα μπορούσατε να καταγράψετε έναν ηθοποιό φωνής όπως ο Jacobsen, ο οποίος θα εκφράζει ένα συλλαβισμό συλλαβών και λέξεων, τους οποίους οι αλγόριθμοι θα συνδυάζουν και θα αλλάζουν σύμφωνα με τους βασικούς κανόνες. Πιο πρόσφατα, οι προγραμματιστές λογισμικού σε επιχειρήσεις όπως η Nuance, η οποία σχεδιάζει διασυνδέσεις πλοήγησης για αυτοκίνητα, έχουν αναπτύξει μια τρίτη προσέγγιση-εφαρμόζοντας βαθιά μάθηση στη σύνθεση ομιλίας. Αναμιγνύει καταγεγραμμένα λόγια και συνθετικά αποσπάσματα, βασιζόμενα στην τεχνητή νοημοσύνη για να κάνουν την προφορά ακόμη πιο ανθρώπινη. "Φωνάζουν απρόσμενα φυσικά", λέει ο επικεφαλής της τεχνολογίας Nuance, ο Vlad Sejnoha.
Φυσικά, οι ιδιοτροπίες γλώσσας παραμένουν μια πρόκληση για τα συστήματα φωνής. "Σκεφτείτε" το κλαδί "σε σχέση με το" αγόρασε "ή" διαβάστε "έναντι" διαβάστε ", λέει ένας εκπρόσωπος της Google. "Αλλά ελπίζουμε ότι ο χρήστης μπορεί πάντα να μαντέψει τι εννοούσαμε." Τώρα που η AI διδάσκει συστήματα ναυτιλιακών αυτοκινήτων για να μιλήσει πιο έξυπνα, τότε θα ψάξει τον online κόσμο και θα καταλάβει πού θέλετε να πάτε ακόμα και πριν να το κάνετε.

Εγγραφείτε στο περιοδικό Smithsonian τώρα για μόλις $ 12
Αυτό το άρθρο είναι μια επιλογή από το τεύχος Ιουλίου / Αυγούστου του περιοδικού Smithsonian
Αγορά