ΤΟ ΝΈΟ AI ΤΗΣ GOOGLE ΕΊΝΑΙ ΚΎΡΙΟΣ ΤΩΝ ΠΑΙΧΝΙΔΙΏΝ, ΑΛΛΆ ΠΏΣ ΣΥΓΚΡΊΝΕΤΑΙ ΜΕ ΤΟ ΑΝΘΡΏΠΙΝΟ ΜΥΑΛΌ; | ΚΑΙΝΟΤΟΜΊΑ | SMITHSONIAN - ΆΡΘΡΑ, ΚΑΙΝΟΤΟΜΊΑ, ΤΕΧΝΟΛΟΓΊΑ, ΕΠΙΣΤΉΜΗ

Για τους ανθρώπους, το σκάκι μπορεί να πάρει μια ζωή για να κυριαρχήσει. Αλλά το νέο πρόγραμμα Google DeepMind για την τεχνητή νοημοσύνη, το AlphaZero, μπορεί να διδάξει τον εαυτό του να κατακτήσει το σκάφος σε λίγες ώρες.

Βασιζόμενοι στην προηγούμενη επιτυχία της με την οικογένεια AlphaGo - μια σειρά από προγράμματα ηλεκτρονικών υπολογιστών που σχεδιάστηκαν για να παίξουν το κινεζικό επιτραπέζιο παιχνίδι Go-Google, μπορεί να υπερηφανεύεται για το ότι το νέο της AlphaZero επιτυγχάνει ένα επίπεδο υπεράνθρωπης επίδοσης όχι μόνο σε ένα επιτραπέζιο παιχνίδι, σκάκι και shogi (ουσιαστικά, ιαπωνικό σκάκι). Η ομάδα επιστημόνων και μηχανικών υπολογιστών, με επικεφαλής τον David Silver της Google, ανέφερε τα ευρήματά της πρόσφατα στο περιοδικό Science .

"Πριν από αυτό, με τη μηχανική μάθηση, θα μπορούσατε να πάρετε μια μηχανή για να κάνετε ακριβώς αυτό που θέλετε - αλλά μόνο αυτό», λέει η Ayanna Howard, ειδικός στον διαλογικό υπολογισμό και τεχνητή νοημοσύνη στο Ινστιτούτο Τεχνολογίας της Γεωργίας που δεν συμμετείχε έρευνα. "Αλλά το AlphaZero δείχνει ότι μπορείτε να έχετε έναν αλγόριθμο που δεν είναι τόσο [συγκεκριμένος] και μπορεί να μάθει μέσα σε ορισμένες παραμέτρους."

Ο έξυπνος προγραμματισμός της AlphaZero σίγουρα αναβαθμίζει το gameplay για το ανθρώπινο και το μηχάνημα, αλλά το Google έχει από καιρό θέσει τα βλέμματά του σε κάτι μεγαλύτερο: μηχανική νοημοσύνη.

Οι ερευνητές είναι προσεκτικοί να μην ισχυριστούν ότι το AlphaZero βρίσκεται στα πρόθυρα της παγκόσμιας κυριαρχίας (άλλοι ήταν λίγο πιο γρήγορα για να πηδούν το όπλο). Ακόμα, το Silver και το υπόλοιπο της ομάδας DeepMind είναι ήδη αισιόδοξοι ότι κάποια μέρα θα δουν ένα παρόμοιο σύστημα που εφαρμόζεται στο σχεδιασμό φαρμάκων ή στην επιστήμη των υλικών.

Έτσι τι κάνει το AlphaZero τόσο εντυπωσιακό;

Το gameplay έχει από καιρό σεβαστεί ως χρυσό πρότυπο στην έρευνα τεχνητής νοημοσύνης. Τα διαρθρωμένα, διαδραστικά παιχνίδια είναι απλοποιήσεις πραγματικών σεναρίων: Πρέπει να γίνουν δύσκολες αποφάσεις. οι νίκες και οι απώλειες οδηγούν τα στοιχήματα. και η πρόβλεψη, η κριτική σκέψη και η στρατηγική είναι καίριας σημασίας.

Η κωδικοποίηση αυτού του είδους των δεξιοτήτων είναι δύσκολη. Τα παλαιότερα AI-παίζοντας παιχνίδια, συμπεριλαμβανομένων των πρώτων πρωτοτύπων του αρχικού AlphaGo, παραδοσιακά αντλούνται από κώδικες και δεδομένα που μιμούνται την εμπειρία που συνήθως κερδίζεται από χρόνια φυσικής ανθρώπινης αναπαραγωγής παιχνιδιού (ουσιαστικά παθητική απόσπαση γνώσης που προέρχεται από προγραμματιστές). Με το AlphaGo Zero (η πιο πρόσφατη έκδοση του AlphaGo) και τώρα το AlphaZero, οι ερευνητές έδωσαν στο πρόγραμμα μόνο μία εισροή: τους κανόνες του συγκεκριμένου παιχνιδιού. Στη συνέχεια, το σύστημα κατέρρευσε και έμαθε ενεργά τα κόλπα του ίδιου του εμπορίου.

Το AlphaZero βασίζεται στο AlphaGo Zero, τμήμα της σουίτας AlphaGo που σχεδιάστηκε για να παίξει το κινεζικό επιτραπέζιο παιχνίδι Go, που απεικονίζεται παραπάνω. Οι πρώτες επαναλήψεις του αρχικού προγράμματος τροφοδοτούσαν δεδομένα από παιχνίδια ανθρώπων έναντι ανθρώπων. μεταγενέστερες εκδόσεις που ασχολούνται με αυτοδιδασκαλία, όπου το λογισμικό παίζει παιχνίδια εναντίον του για να μάθει τη δική του στρατηγική. (Chad Miller / Flickr / CC BY-SA 2.0)

Αυτή η στρατηγική, που ονομάζεται μάθηση οπλισμού με αυτο-αναπαραγωγή, είναι ακριβώς αυτό που ακούγεται: Για να εκπαιδεύσει για τα μεγάλα πρωταθλήματα, η AlphaZero διαδραμάτισε επανάληψη μετά από επανάληψη, επιδιώκοντας τις δεξιότητές της με δοκιμασία και λάθος. Και η προσέγγιση της ωμής βίας εξόφλησε. Σε αντίθεση με το AlphaGo Zero, το AlphaZero δεν παίζει μόνο Go: Μπορεί να νικήσει τους καλύτερους AIs στην επιχείρηση στο σκάκι και το shogi. Η διαδικασία εκμάθησης είναι επίσης εντυπωσιακά αποδοτική, απαιτώντας μόνο δύο, τέσσερις ή 30 ώρες αυτοεξυπηρέτησης να ξεπεράσουν τα προγράμματα ειδικά προσαρμοσμένα στους master shogi, το σκάκι και το Go, αντίστοιχα. Συγκεκριμένα, οι συγγραφείς της μελέτης δεν ανέφεραν καμία περίπτωση του AlphaZero που πηγαίνει επικεφαλής με έναν πραγματικό άνθρωπο, λέει ο Χάουαρντ. (Οι ερευνητές μπορεί να έχουν υποθέσει ότι, δεδομένου ότι τα προγράμματα αυτά συσσωρεύουν με συνέπεια τους ανθρώπινους ομολόγους τους, μια τέτοια προσαρμογή θα ήταν άσκοπη.)

Το AlphaZero ήταν επίσης ικανό να παγιδεύει το Stockfish (ο πλέον αήττητος σκάφος σκάφους AI) και ο Elmo (ο πρώην εμπειρογνώμονας του AI shogi), παρά την αξιολόγηση λιγότερων πιθανών επόμενων κινήσεων σε κάθε στροφή κατά τη διάρκεια του παιχνιδιού. Αλλά επειδή οι εν λόγω αλγόριθμοι είναι εγγενώς διαφορετικοί και μπορεί να καταναλώνουν διαφορετικές ποσότητες ενέργειας, είναι δύσκολο να συγκρίνουμε άμεσα το AlphaZero με άλλα παλαιότερα προγράμματα, επισημαίνει η Joanna Bryson, που μελετά την τεχνητή νοημοσύνη στο Πανεπιστήμιο του Bath στο Ηνωμένο Βασίλειο και έκανε δεν συνεισφέρει στο AlphaZero.

Η Google διατηρεί τη μαμά της για μια πολύ καλή εκτύπωση στο λογισμικό της και το AlphaZero δεν αποτελεί εξαίρεση. Παρόλο που δεν γνωρίζουμε τα πάντα για την κατανάλωση ενέργειας του προγράμματος, αυτό που είναι ξεκάθαρο είναι ότι το AlphaZero πρέπει να συσκευάσει κάποια σοβαρή υπολογιστική πυρομαχικά. Σε αυτές τις λίγες ώρες εκπαίδευσης, το πρόγραμμα έμεινε πολύ απασχολημένο, συμμετέχοντας σε δεκάδες ή εκατοντάδες χιλιάδες κύκλους πρακτικής, για να πάρει τη στρατηγική του στο παιχνίδι του παιχνιδιού μέχρι το ταμπλό - πολύ περισσότερο από ό, τι θα χρειαζόταν ένας ανθρώπινος παίκτης (ή, στις περισσότερες περιπτώσεις, ακόμη και να επιτύχει) στην επιδίωξη της επάρκειας.

Αυτή η εντατική θεραπεία χρησιμοποίησε επίσης 5.000 από τις ιδιόκτητες μονάδες επεξεργασίας μηχανών εκμάθησης της Google ή TPU, οι οποίες κατά κάποιες εκτιμήσεις καταναλώνουν περίπου 200 βατ ανά τσιπ. Ανεξάρτητα από το πώς το κόβετε, το AlphaZero απαιτεί περισσότερη ενέργεια από τον ανθρώπινο εγκέφαλο, ο οποίος λειτουργεί σε περίπου 20 Watt.

Η απόλυτη κατανάλωση ενέργειας του AlphaZero πρέπει να ληφθεί υπόψη, προσθέτει ο Bin Yu, ο οποίος εργάζεται στη διεπαφή των στατιστικών, της μηχανικής μάθησης και της τεχνητής νοημοσύνης στο Πανεπιστήμιο της Καλιφόρνιας του Μπέρκλεϊ. Το AlphaZero είναι ισχυρό, αλλά ίσως να μην είναι καλό κτύπημα για το buck - ειδικά όταν προσθέτετε τις ώρες του ατόμου που πήγαν στη δημιουργία και εκτέλεση του.

Εξαιρετικά ενεργητικός ή όχι, το AlphaZero κάνει μια βουτιά: Τα περισσότερα AIs είναι υπερ-εξειδικευμένα σε ένα μόνο έργο, καθιστώντας αυτό το νέο πρόγραμμα - με την τριπλή του απειλή παιχνιδιού - αξιοσημείωτα ευέλικτο. "Είναι εντυπωσιακό το γεγονός ότι το AlphaZero μπόρεσε να χρησιμοποιήσει την ίδια αρχιτεκτονική για τρία διαφορετικά παιχνίδια", λέει ο Yu.

Οπότε ναι. Το νέο AI της Google ορίζει ένα νέο σημάδι με διάφορους τρόπους. Είναι γρήγορο. Είναι ισχυρό. Αλλά αυτό το κάνει έξυπνο;

Εκεί οι ορισμοί αρχίζουν να αποκρύπτονται. "Το AlphaZero κατάφερε να μάθει, ξεκινώντας από το μηδέν χωρίς καμία ανθρώπινη γνώση, να παίξει κάθε ένα από αυτά τα παιχνίδια σε υπεράνθρωπο επίπεδο", ανέφερε ο DeepMind's Silver σε δήλωση προς τον Τύπο.

Ακόμη και αν η εμπειρογνωμοσύνη επιτραπέζιων παιχνιδιών απαιτεί ψυχική οξύτητα, όλοι οι πληρεξούσιοι για τον πραγματικό κόσμο έχουν τα όριά τους. Στην τρέχουσα επανάληψή του, το AlphaZero μεγιστοποιείται με τη νίκη σε ανθρώπινα σχεδιασμένα παιχνίδια - τα οποία μπορεί να μην δικαιολογούν την ενδεχομένως ανησυχητική ετικέτα του "υπεράνθρωπου". Επιπλέον, αν εκπλησσόταν με ένα νέο σύνολο κανόνων στο μέσο του παιχνιδιού, το AlphaZero θα μπορούσε να πάρει φουσκωτό. Ο πραγματικός ανθρώπινος εγκέφαλος, από την άλλη πλευρά, μπορεί να αποθηκεύσει περισσότερα από τρία επιτραπέζια παιχνίδια στο ρεπερτόριό του.

Επιπλέον, η σύγκριση της γραμμής βάσης του AlphaZero με μια tabula rasa (όπως και οι ερευνητές) είναι ένα τέντωμα, λέει ο Bryson. Οι προγραμματιστές το τροφοδοτούν ακόμα ένα σημαντικό κομμάτι της ανθρώπινης γνώσης: τους κανόνες του παιχνιδιού που πρόκειται να παίξει. "Έχει πολύ λιγότερο να προχωρήσει από ό, τι έχει πριν", προσθέτει ο Bryson, "αλλά το πιο θεμελιώδες είναι ότι εξακολουθεί να δίνεται κανόνας. Αυτά είναι ρητά. "

Και αυτοί οι ενοχλητικοί κανόνες θα μπορούσαν να αποτελέσουν ένα σημαντικό κουρέλι. "Παρόλο που αυτά τα προγράμματα μάθουν πώς να εκτελέσουν, χρειάζονται τους κανόνες του δρόμου", λέει ο Χάουαρντ. "Ο κόσμος είναι γεμάτος από καθήκοντα που δεν έχουν αυτούς τους κανόνες."

Όταν η ώθηση έρχεται στο χέρι, το AlphaZero είναι μια αναβάθμιση ενός ήδη ισχυρού προγράμματος-AlphaGo Zero, εξηγεί ο JoAnn Paul, ο οποίος μελετάει την τεχνητή νοημοσύνη και τα υπολογιστικά όνειρα στο Πολυτεχνείο της Βιρτζίνια και στο κρατικό πανεπιστήμιο και δεν συμμετείχε στη νέα έρευνα. Το AlphaZero χρησιμοποιεί πολλά από τα ίδια δομικά στοιχεία και αλγορίθμους όπως το AlphaGo Zero και εξακολουθεί να αποτελεί απλώς ένα υποσύνολο των πραγματικών smarts. "Νόμιζα ότι αυτή η νέα εξέλιξη ήταν πιο εξελικτική παρά επαναστατική", προσθέτει. "Κανένας από αυτούς τους αλγόριθμους δεν μπορεί να δημιουργήσει . Η νοημοσύνη είναι επίσης για την αφήγηση. Φαντάζει πράγματα που δεν υπάρχουν ακόμα εκεί. Δεν σκέφτομαι αυτούς τους όρους σε υπολογιστές. "

Μέρος του προβλήματος είναι ότι δεν υπάρχει ακόμη συναίνεση για έναν πραγματικό ορισμό της "νοημοσύνης", λέει ο Yu - και όχι μόνο στον τομέα της τεχνολογίας. "Δεν είναι ακόμα σαφές πώς ασχολούμαστε με την κριτική σκέψη των όντων ή πώς χρησιμοποιούμε τον ασυνείδητο εγκέφαλο", προσθέτει.

Σε αυτό το σημείο, πολλοί ερευνητές πιστεύουν ότι υπάρχουν πιθανότητες πολλαπλών τύπων νοημοσύνης. Και αξιοποιώντας σε ένα πολύ μακριά εγγυάται τα συστατικά για ένα άλλο. Για παράδειγμα, μερικοί από τους πιο έξυπνους ανθρώπους εκεί έξω είναι φοβερό στο σκάκι.

Με αυτούς τους περιορισμούς, το όραμα του Yu για το μέλλον της τεχνητής νοημοσύνης συνεργαζόμενων ανθρώπων και μηχανών σε ένα είδος συνεργασίας. Οι μηχανές σίγουρα θα συνεχίσουν να υπερέχουν σε ορισμένα καθήκοντα, εξηγεί, αλλά η ανθρώπινη εισροή και εποπτεία μπορεί πάντα να είναι απαραίτητα για να αντισταθμιστεί η μη αυτόματη.

Φυσικά, δεν υπάρχει λόγος πως τα πράγματα θα κλονιστούν στην αρένα του AI. Εν τω μεταξύ, έχουμε πολλά να συλλογιστούμε. "Αυτοί οι υπολογιστές είναι ισχυροί και μπορούν να κάνουν κάποια πράγματα καλύτερα από έναν άνθρωπο", λέει ο Παύλος. "Αλλά αυτό εξακολουθεί να υπολείπεται του μυστηρίου της νοημοσύνης."

Αυτό το άρθρο δημοσιεύθηκε αρχικά στο NOVA.