https://frosthead.com

Πώς η Google κρατά το spam σας από τα εισερχόμενά σας

Πίσω από όλες τις πληροφορίες τρυπών της Google - από την κατανόηση των αποτελεσμάτων αναζήτησης που είναι τα πιο σημαντικά, από την ανάγνωση και την τήρηση καρτελών στο ηλεκτρονικό ταχυδρομείο σας - υπάρχουν μερικά ενδιαφέροντα μαθηματικά. Και πρόσφατα Javier Tordable, μηχανικός λογισμικού, έκανε μια παρουσίαση σε αυτό, ανοίγοντας ένα παράθυρο στον γεμάτο κόσμο της Google, ακριβώς μια ρωγμή.

Ας ξεκινήσουμε με το Gmail. Μερικές φορές λαμβάνετε μηνύματα spam, αλλά το Gmail είναι πολύ καλό για να διαπιστώσει ότι, όταν κάποιος ανταποκριτής προσπαθεί να σας κάνει να επενδύσετε σε έναν νιγηριανό πρίγκιπα, πιθανότατα δεν θέλετε αυτό το κομμάτι αλληλογραφίας στα εισερχόμενά σας. Πώς το ξέρει; Βήμα πρώτο: Εκπαιδεύστε το μηχάνημα. Βήμα δεύτερο: θέστε το σε λειτουργία.

Λέγεται μηχανική μάθηση, και η Google κάνει έναν τόνο της. Στο πρώτο βήμα, πρέπει να κάνετε ό, τι οι επιστήμονες υπολογιστών ονομάζουν "χαρακτηρίστε μια εμφάνιση". Στο μαθηματικό λόγο αυτό σημαίνει:

Γενικά, τα χαρακτηριστικά ενός στιγμιότυπου μπορούν να θεωρηθούν ως στοιχεία σε ένα διάνυσμα ενός μη διακριτικού ευκλείδειου χώρου για ένα μεγάλο n (100-1000 διαστάσεις είναι κανονικές, 1M-10M δεν είναι ανήκουστο)

Αλλά εδώ είναι πώς να το σκεφτείτε αν σταματήσατε τα μαθηματικά μετά το Calc 1. Το Gmail μπορεί να τραβήξει μερικά βασικά κομμάτια των πληροφοριών από οποιοδήποτε email. Πόσο καιρό είναι; Πόσα κεφαλαία γράμματα υπάρχουν; Είναι αυτό από κάποιον που έχετε λάβει ένα μήνυμα ηλεκτρονικού ταχυδρομείου από πριν; Δεν θέλετε οι πληροφορίες που απαιτούνται για να κάνετε την απόφαση να είναι πολύ δύσκολη για να κάνετε ή να ασχοληθείτε, επειδή αυτό θα επιβραδύνει και θα μειώσει την ακρίβεια του μηχανήματός σας. Έτσι, η Google σχεδιάζει μια γραμμή, βασισμένη σε αυτό που γνωρίζει για το spam. Τα μηνύματα ηλεκτρονικού ταχυδρομείου που περνούν πέφτουν στη μία πλευρά της γραμμής, και τα spammy, από την άλλη.

Περισσότερα μαθηματικά μιλάμε:

Ένα απλό μοντέλο ταξινόμησης είναι ένα υπερ-επίπεδο στο χώρο των χαρακτηριστικών. Οι παρουσίες δεδομένων στη μία πλευρά του υπερπληρωμένου χαρακτηρίζονται ως έγκυρα μηνύματα ηλεκτρονικού ταχυδρομείου και οι περιπτώσεις στην άλλη πλευρά ταξινομούνται ως ανεπιθύμητη αλληλογραφία.

Τι γίνεται με τη φωνητική αναζήτηση - ονομάζεται επίσης αυτοματοποιημένη αναγνώριση ομιλίας, ή ASR; Όπως η εκμάθηση μηχανών, η ASR συμβαίνει σε δύο μέρη: επεξεργασία του ήχου που έρχεται και καταμέτρηση του τι λέτε. Το πρώτο μέρος περιλαμβάνει μετασχηματισμούς Fourier, οι οποίοι απομονώνουν τα σημαντικά κομμάτια που μπορεί να μεταφράσει ο υπολογιστής. Το δεύτερο μέρος είναι η μοντελοποίηση της ομιλίας χρησιμοποιώντας αυτό που ονομάζεται "κρυφό μοντέλο Markov". Ο Tordable εξηγεί:

Σε αυτό το μοντέλο οι καταστάσεις είναι τα γράμματα του μηνύματος και η ακολουθία των συμβάντων είναι το ηχητικό σήμα. Ο αλγόριθμος Viterbi μπορεί να χρησιμοποιηθεί για τη λήψη της ακολουθίας καταστάσεων μέγιστης πιθανότητας.

Η Google θα ήθελε να κάνει την φωνητική αναγνώριση καλύτερη και ευκολότερη. Σε αυτήν την περίπτωση, μια ομάδα Google whizzes γράφει:

Ένας στόχος στο Google είναι να καταστήσει την ομιλητή πρόσβαση διαθέσιμη παντού. Θα θέλαμε να αφήσουμε τον χρήστη να επιλέξει - θα πρέπει να είναι σε θέση να το θεωρήσει δεδομένο ότι η προφορική αλληλεπίδραση είναι πάντα μια επιλογή. Η επίτευξη της πανταχού παρουσίας απαιτεί δύο πράγματα: τη διαθεσιμότητα (δηλ. Ενσωματωμένη σε κάθε δυνατή αλληλεπίδραση όπου η εισαγωγή ή έξοδος ομιλίας μπορεί να έχει νόημα) και την απόδοση (δηλ. Λειτουργεί τόσο καλά ώστε η συνθήκη δεν προσθέτει καμία τριβή στην αλληλεπίδραση).

Ένας άλλος τομέας όπου η Google χρησιμοποιεί τα μαθηματικά είναι στους χάρτες τους - στο προσκήνιο πρόσφατα αφού η Apple έκανε ντεμπούτο το σύστημα χαρτογράφησης σε σημαντικές κριτικές. Στο επίκεντρο των Χαρτών Google είναι η βασική θεωρία γραφημάτων - το μαθηματικό της μετάβασης από το ένα μέρος στο άλλο, ενώ ταξιδεύετε με τη μικρότερη απόσταση. Αλλά, φυσικά, είναι πιο περίπλοκο από αυτό. Ο Tordable γράφει: "Ένα μοναδικό πρόβλημα είναι ότι τα γραφικά που χρησιμοποιούνται στους Χάρτες Google περιέχουν εκατομμύρια κόμβους, αλλά οι αλγόριθμοι πρέπει να εκτελούνται σε χιλιοστά του δευτερολέπτου."

Η Google δεν θα μας πει πώς το κάνουν. Διαφορετικά, η Apple δεν θα είχε αντιμετωπίσει το πρόβλημά της, αλλά τα βασικά περιλαμβάνουν τον αλγόριθμο του Dijsktra (πιθανώς τον πιο συχνά χρησιμοποιούμενο αλγόριθμο αναζήτησης γραφήματος). Πριν από μερικά χρόνια, οι επιστήμονες υπολογιστών στο Πανεπιστήμιο της Καρλσρούης περιέγραψαν έναν νέο τρόπο ταξινόμησης των διαδρομών για να αποκτήσουν πολύ ταχύτερα αποτελέσματα. Αυτοί έγραψαν:

Ο αλγόριθμος μας προεπεξεργάζεται τον οκταψήφιο αριθμό κόμβων που χρειάζονται για χάρτες των ΗΠΑ ή της Δυτικής Ευρώπης μέσα σε λίγες ώρες χρησιμοποιώντας γραμμικό χώρο. Τα πιο σύντομα (δηλαδή ταχύτερα) ερωτήματα διαδρομής παίρνουν περίπου οκτώ χιλιοστά του δευτερολέπτου για να παράγουν ακριβείς πιο σύντομες διαδρομές. Αυτό είναι περίπου 2.000 φορές γρηγορότερο από τον αλγόριθμο του Dijkstra.

Το Tordable περνάει από πολλά άλλα μαθηματικά εργαλεία που χρησιμοποιεί η Google, συμπεριλαμβανομένων αυτών που εμπλέκονται στα Βιβλία Google, τις αναζητήσεις εικόνων, το Analytics, το YouTube, το Google Translate, το Google Earth και το Picasa. Μπορείτε να δείτε ολόκληρο το σύνολο των διαφανειών εδώ.

Περισσότερα από το Smithsonian.com:

Smithsonian παίρνει Google Mapped
Παρακολουθήστε Τάσεις Τροφίμων με τα Βιβλία Google

Πώς η Google κρατά το spam σας από τα εισερχόμενά σας