https://frosthead.com

Το AI είναι η μάθηση της ομαδικής εργασίας με την κυριαρχία στα παιχνίδια για πολλούς παίκτες

Οι υπολογιστές έχουν κυριαρχήσει τους ανθρώπους σε παιχνίδια one-on-one όπως το σκάκι εδώ και δεκαετίες, αλλά η απόκτηση τεχνητής νοημοσύνης (AI) να συνεργαστεί με τους συμπαίκτες είναι λίγο πιο δύσκολη. Τώρα, οι ερευνητές στο πρόγραμμα DeepMind της Google έχουν διδάξει τους παίκτες της AI να δουλεύουν μαζί σε ομάδες με ανθρώπους και άλλους υπολογιστές για να συναγωνιστούν στο video game Quake III Arena του 1999.

Ο Edd Gent στο Science αναφέρει ότι όταν ο AI έχει μόνο έναν αντίπαλο, συνήθως κάνει αρκετά καλά, καθώς μόνο αντιλαμβάνεται τις πιθανές κινήσεις ενός μόνο μυαλού. Αλλά η ομαδική εργασία είναι μια εντελώς διαφορετική υπόθεση επειδή περιλαμβάνει δράσεις που οι υπολογιστές δεν είναι παραδοσιακά καλοί, όπως η πρόβλεψη πως μια ομάδα συμπαίκτων θα συμπεριφερθεί. Για να είναι πραγματικά χρήσιμο το AI, πρέπει να μάθει πώς να συνεργάζεται με άλλες νοημοσύνη.

Η ομάδα DeepMind της Google εξηγεί σε μια ανάρτηση ιστολογίου:

"Δισεκατομμύρια άνθρωποι ζουν στον πλανήτη, με τους δικούς τους στόχους και ενέργειες, αλλά μπορούν ακόμα να συναντηθούν μέσα από ομάδες, οργανώσεις και κοινωνίες με εντυπωσιακές επιδείξεις συλλογικής νοημοσύνης. Αυτή είναι μια ρύθμιση που ονομάζουμε μάθηση πολλαπλών πρακτόρων: πολλοί μεμονωμένοι πράκτορες πρέπει να ενεργούν ανεξάρτητα, αλλά να μάθουν να αλληλεπιδρούν και να συνεργάζονται με άλλους παράγοντες. Πρόκειται για ένα εξαιρετικά δύσκολο πρόβλημα - επειδή με τους παράγοντες προσαρμογής ο κόσμος αλλάζει διαρκώς ».

Παιχνίδια πολλαπλών παικτών, πρώτων προσώπων, στα οποία οι ομάδες των παικτών τρέχουν σε εικονικούς κόσμους, συνήθως γυρίσματα όπλων ή εκτοξευτές χειροβομβίδων ο ένας στον άλλο, είναι ο ιδανικός χώρος για το AI να μάθει τις περιπλοκές της ομαδικής εργασίας. Κάθε παίκτης πρέπει να ενεργεί ξεχωριστά και να κάνει επιλογές που ωφελούν την ομάδα ως σύνολο.

Για τη μελέτη, η ομάδα εκπαίδευσε το AI να παίζει τη σημαία στην πλατφόρμα Quake III Arena . Οι κανόνες είναι αρκετά απλοί: Δύο ομάδες αντιμετωπίζουν ένα πεδίο μάχης όπως το λαβύρινθο. Ο στόχος είναι να συλλάβουν όσες άλλες ομάδες έχουν εικονικές σημαίες προστατεύοντας παράλληλα τις δικές τους και όποια ομάδα συλλαμβάνει τις περισσότερες σημαίες σε πέντε λεπτά κερδίζει. Στην πράξη, όμως, τα πράγματα μπορούν να γίνουν πολύ περίπλοκα γρήγορα.

Η ομάδα DeepMind δημιούργησε 30 αλγορίθμους νευρωνικών δικτύων και τους είχε μάθει ο ένας με τον άλλο σε μια σειρά τυχαία παραγόμενων χαρτών παιχνιδιών. Τα bots σημείωσαν πόντους καταγράφοντας τις σημαίες και παγιδεύοντας άλλους παίκτες, στέλνοντάς τους πίσω σε μια περιοχή respawn όπου επανέρχεται ο χαρακτήρας τους. Αρχικά, οι ενέργειες των bots εμφανίστηκαν τυχαίες. Ωστόσο, όσο περισσότερο έπαιξαν, τόσο καλύτερα έγιναν. Οποιαδήποτε νευρωνικά δίκτυα που έχαναν σταθερά απομακρύνθηκαν και αντικαταστάθηκαν από τροποποιημένες εκδοχές του νικητή AI. Στο τέλος των 450.000 αγώνων, η ομάδα στέφθηκε ένα νευρωνικό δίκτυο - που ονομάστηκε For the Win (FTW) - ως πρωταθλητής.

Η ομάδα DeepMind έπαιξε τον αλγόριθμο FTW ενάντια σε αυτό που ονομάζεται ρομπότ με καθρέφτες, οι οποίοι λείπουν από τις δεξιότητες εκμάθησης του AI και στη συνέχεια και κατά των ανθρώπινων ομάδων. Το FTW συνθλίβει όλους τους αμφισβητίες.

Στη συνέχεια ο όμιλος διοργάνωσε ένα τουρνουά στο οποίο 40 ανθρώπινοι παίκτες συνδυάστηκαν τυχαία ως τόσο συμπαίκτες όσο και αντιπάλους του bot. Σύμφωνα με την ανάρτηση ιστολογίου, οι ανθρώπινοι παίκτες βρήκαν ότι τα bots ήταν πιο συνεργατικά από τους συμπαίκτες τους από την πραγματική ζωή. Ανθρώπινοι παίκτες που συνεργάστηκαν με πράκτορες FTW κατάφεραν να νικήσουν τους πολεμιστές του κυβερνοχώρου στο 5% περίπου των αγώνων.

Όπως έμαθαν, τα ρομπότ ανακάλυψαν κάποιες στρατηγικές που αγκαλιάστηκαν για πολύ από ανθρώπους, όπως να κρέμονται κοντά στο σημείο αναπνοής μιας σημαίας για να το αρπάξουν όταν επανεμφανιστεί. Οι ομάδες του FTW βρήκαν επίσης ένα σφάλμα που θα μπορούσαν να εκμεταλλευτούν: εάν πυροβόλησαν τον δικό τους συμπαίκτη στο πίσω μέρος, τους έδινε μια ώθηση ταχύτητας, κάτι που ωφελήθηκε.

"Αυτό που ήταν καταπληκτικό κατά την ανάπτυξη αυτού του έργου ήταν η εμφάνιση ορισμένων από αυτές τις συμπεριφορές υψηλού επιπέδου", λέει ο ερευνητής του DeepMind και επικεφαλής συγγραφέας Max Jaderberg στο Gent. "Αυτά είναι πράγματα που μπορούμε να συσχετίσουμε με τους ανθρώπους."

Ένας βασικός λόγος για τον οποίο τα bots ήταν καλύτερα από τους ανθρώπους είναι ότι ήταν γρήγοροι και ακριβείς σκοπευτές, καθιστώντας τους πιο γρήγορα στην ισοπαλία από τους ανθρώπινους αντιπάλους τους. Αλλά αυτό δεν ήταν ο μόνος παράγοντας στην επιτυχία τους. Σύμφωνα με το blog, όταν οι ερευνητές χτίσουν σε ένα τέταρτο δευτερόλεπτο καθυστερημένο χρόνο αντίδρασης στους ρομποτάρους, οι καλύτεροι άνθρωποι θα μπορούσαν ακόμα να τους χτυπήσουν μόνο το 21% του χρόνου.

Από την αρχική αυτή μελέτη, ο FTW και οι απόγονοί του απελευθερώθηκαν στο πεδίο μάχης Quake III Arena και έδειξαν ότι μπορούν να κυριαρχήσουν σε έναν ακόμη πιο περίπλοκο κόσμο με περισσότερες επιλογές και αποχρώσεις. Έχουν επίσης δημιουργήσει ένα bot που υπερέχει στο εξαιρετικά περίπλοκο στρατηγικό παιχνίδι Space Starcraft II.

Αλλά η έρευνα δεν αφορά μόνο την παραγωγή καλύτερων αλγορίθμων βιντεοπαιχνιδιών. Η μάθηση σχετικά με την ομαδική εργασία θα μπορούσε τελικά να βοηθήσει το AI να εργαστεί σε στόλους αυτο-οδήγησης αυτοκινήτων ή ίσως κάποια στιγμή να γίνει βοηθός ρομπότ που βοηθά στην πρόβλεψη των αναγκών των χειρουργών, τις εκθέσεις της Gent Science .

Ο καθένας, ωστόσο, δεν πιστεύει ότι οι bots των arcade-stars αντιπροσωπεύουν την αληθινή ομαδική εργασία. Ο ερευνητής της AI Mark Riedl της Γεωργίας Tech εξηγεί στους The New York Times ότι τα bots είναι τόσο καλά στο παιχνίδι επειδή κάθε ένας κατανοεί τις στρατηγικές σε βάθος. Αλλά αυτό δεν είναι απαραίτητα συνεργασία δεδομένου ότι οι ομάδες ΑΙ δεν διαθέτουν ένα κρίσιμο στοιχείο της ανθρώπινης ομαδικής εργασίας: επικοινωνία και συνεργατική συνεργασία.

Και, φυσικά, στερούνται και το άλλο χαρακτηριστικό γνώρισμα της συνεταιριστικής εμπειρίας βιντεοπαιχνιδιών: τα σκουπίδια που μιλάνε η άλλη ομάδα.

Το AI είναι η μάθηση της ομαδικής εργασίας με την κυριαρχία στα παιχνίδια για πολλούς παίκτες