https://frosthead.com

Μια μηχανή αναζήτησης που ταιριάζει με τα σχέδια σας σε φωτογραφίες δεν είναι πολύ μακριά

Πριν από μερικές εβδομάδες, βρισκόμουν σε εμπορικό κέντρο όταν παρατήρησα μια γυναίκα που φορούσε μια υπέροχη τσάντα με έναν ιμάντα σαν σχοινί. Δεδομένου ότι είμαι στην αγορά για ένα νέο tote, σκέφτηκα να την ρωτήσω από πού πήρε. Αλλά πριν μπορέσω να κάνω την κίνησή μου, εξαφανίστηκε γύρω από μια γωνία. Όταν πήγα σπίτι, προσπάθησα να βγάλω την τσάντα. Αλλά δεν είμαι fashionista, και βρήκα ότι δεν είχα το λεξιλόγιο για να περιγράψω αυτό που είχα δει. "Δερμάτινη τσάντα με κορδόνι περίσφιξης" δεν ήταν σωστή. Ούτε ήταν "πορτοφόλι με λαβή σχοινιού" ή "τσάντα με λουρί καλώδιο." Τελικά, έδωσα.

Τώρα, μια νέα τεχνολογία στοχεύει να βοηθήσει τους ανθρώπους να ψάξουν για πράγματα που δεν μπορούν απαραίτητα να περιγράψουν με λόγια.

Ο James Hays, επιστήμονας πληροφορικής στο Ινστιτούτο Τεχνολογίας της Γεωργίας, δημιούργησε ένα πρόγραμμα ηλεκτρονικών υπολογιστών ικανό να ταιριάζει με τις φωτογραφίες που έχουν τραβηχτεί με το χέρι. Αυτό θα μπορούσε τελικά να οδηγήσει σε ένα πρόγραμμα που μπορεί να συνδυάσει τις υπηρεσίες αναζήτησης εικόνων στο Διαδίκτυο, όπως το Google Images, και να βρει φωτογραφίες που ταιριάζουν με ακρίβεια τα σχέδια των χρηστών.

"Ο στόχος είναι να είναι σε θέση να σχετίζονται ή να ταιριάζουν φωτογραφίες και σκίτσα σε κάθε κατεύθυνση, ακριβώς όπως ένα ανθρώπινο μπορεί", λέει ο Hays. "Ένας άνθρωπος μπορεί να δει ένα άσχημα σκίτσο και να καταλάβει ποια φωτογραφία φαίνεται να ταιριάζει. Θέλουμε να έχουμε την ίδια υπολογιστική ικανότητα. "

Για να δημιουργήσει το πρόγραμμα, ο Hays προσέλαβε περίπου 700 εργαζόμενους από την Amazon Mechanical Turk, μια αγορά με πλήθος υπηρεσιών που ταιριάζει με τους ανθρώπους που χρειάζονται καθήκοντα. Η ομάδα του έδειξε φωτογραφίες εργαζομένων απλών αντικειμένων και ζώων, όπως σκίουροι, τσαγιέρες και μπανάνες, που τους επέτρεψαν να δουν την εικόνα για δύο δευτερόλεπτα. Ο εργαζόμενος θα τραβούσε τότε το αντικείμενο από τη μνήμη. Η ομάδα συγκέντρωσε τελικά περισσότερα από 75.000 σκίτσα των 12.500 αντικειμένων. Κάλεσαν αυτό το "Sketchy βάση δεδομένων".

Το πρόγραμμα αναλύει έπειτα τα σκίτσα και τις ταιριάζει με τη φωτογραφία που μοιάζουν περισσότερο. Η τεχνολογία αναγνώρισε τη σωστή φωτογραφία 37 τοις εκατό του χρόνου. Οι άνθρωποι, σε σύγκριση, ήταν σωστοί περίπου το 54 τοις εκατό του χρόνου. Ενώ το 37 τοις εκατό μπορεί να μην φαίνεται εντυπωσιακό, είναι πραγματικά ένα άλμα για τους υπολογιστές.

"Οι άνθρωποι είναι τόσο εκπληκτικά καλοί στο όραμα, αναγνωρίζουμε τις εικόνες χωρίς κόπο", λέει ο Hays. "Είναι πραγματικά εκπληκτικά δύσκολο υπολογιστικά."

Μία από τις κύριες προκλήσεις για τη βελτίωση του προγράμματος είναι ότι οι περισσότεροι άνθρωποι είναι αρκετά κακοί καλλιτέχνες. Όπως έγραψε ο Hays και η ομάδα του σε μια δημοσίευση για το θέμα, "Τα σχήματα και οι κλίμακες παραμορφώνονται. Τα αντικείμενα αντικατοπτρίζονται (μεγάλα αυτιά σε έναν ελέφαντα), ανθρωπομορφισμένα (χαμογελαστά στο στόμα σε μια αράχνη) ή απλουστευμένα (ραβδωτά άκρα). "

Ιστορικά, η έρευνα σχετικά με τη λήψη υπολογιστών για την αναγνώριση σκίτσων επικεντρώθηκε σε πράγματα όπως η κατανομή των γραμμών σε ένα σχέδιο, η κατεύθυνση στις γραμμές που εισέρχονται ή τα όρια του σχεδίου. Επειδή όμως οι άνθρωποι αντλούν μόνο όσα είναι σημαντικά για τους ανθρώπους (τα μάτια, για παράδειγμα, περιλαμβάνονται πάντα στα σκίτσα, αν και είναι σχετικά μικρά), είναι σημαντικό για έναν υπολογιστή να «μάθει» πώς τα σκίτσα τείνουν να είναι παρόμοια και πώς τείνουν να να διαφέρει από τις φωτογραφίες. Για αυτό, το πρόγραμμα χρησιμοποιεί δύο ξεχωριστά δίκτυα, ένα που αξιολογεί σκίτσα, ένα που αξιολογεί φωτογραφίες. Με τη συνεχή ανάλυση ενός μεγάλου συνόλου δεδομένων, το πρόγραμμα μπορεί να "μαθαίνει" συνεχώς.

Ο Hays και η ομάδα του σχεδιάζουν να συνεχίσουν να βελτιώνουν το πρόγραμμα προσθέτοντας δεδομένα. Οι προόδους στην εκμάθηση ηλεκτρονικών υπολογιστών θα πρέπει επίσης να συμβάλλουν στη βελτίωση των ποσοστών αντιστοίχισης Από τώρα, το πρόγραμμα έχει αρκετά υψηλό ποσοστό αντιστοίχισης όταν συγκρίνει σκίτσα με τις βάσεις δεδομένων φωτογραφιών του διαδικτύου, συμπεριλαμβανομένου του Flickr, αν και είναι δύσκολο να ποσοτικοποιηθεί, λέει ο Hays.

Εκτός από την αναζήτηση εικόνων τσάντα που χρειάζομαι τόσο πολύ, το πρόγραμμα έχει αρκετές λιγότερο επιδεικτικές δυνατότητες χρήσης. Η αστυνομία θα μπορούσε να ανιχνεύσει ύποπτα σκίτσα και να τα συγκρίνει με μια βάση δεδομένων εγκληματικών φωτογραφιών. Το πρόγραμμα θα μπορούσε να χρησιμοποιηθεί από άτομα που μιλούν και γράφουν σε οποιαδήποτε γλώσσα ή δεν μπορούν να γράψουν καθόλου.

"Ένας στόχος της κατανόησης σκίτσα είναι ότι είναι μια κάπως παγκόσμια γλώσσα", λέει ο Hays. "Δεν είναι συνδεδεμένο με μια συγκεκριμένη γραπτή γλώσσα και δεν είναι καν δεμένη με το αλφαβητισμό. [Ένα τέτοιο πρόγραμμα θα μπορούσε να προσφέρει] πρόσβαση σε πληροφορίες χωρίς γραπτή γλώσσα. "

Το πρόγραμμα θα μπορούσε επίσης να χρησιμοποιηθεί καλλιτεχνικά, για να δημιουργηθούν φωτορεαλιστικές σκηνές από σκίτσα. Πάντα φανταζόταν ότι ζούσατε σε ένα κάστρο στο φεγγάρι; Σχεδιάστε το και το πρόγραμμα θα μπορούσε μία μέρα να δημιουργήσει μια εικόνα φωτογραφίας για εσάς συνδυάζοντας κομμάτια από άλλες εικόνες.

Οι πληροφορίες που συγκέντρωσε ο Hays και η ομάδα του θα μπορούσαν επίσης να συμβάλουν στην αντιμετώπιση ορισμένων ερωτήσεων για τη νευροεπιστήμη και την ψυχολογία, λέει ο Hays.

"Αυτά τα ζευγάρια σκίτσων και φωτογραφιών λένε κάτι για την ανθρώπινη αντίληψη, για αυτό που πιστεύουμε ότι είναι σημαντικό, ποια τμήματα των εικόνων κατακτούν την προσοχή μας", λέει ο Hays. "Με κάποιους τρόπους, αυτή η βάση δεδομένων κωδικοποιεί αυτό αρκετά καλά. Θα μπορούσε να πειράξει κάτι από αυτό, αν θέλετε να πείτε κάτι για τον ίδιο τον άνθρωπο ».

Μια μηχανή αναζήτησης που ταιριάζει με τα σχέδια σας σε φωτογραφίες δεν είναι πολύ μακριά