https://frosthead.com

Μπορεί ένα στατιστικό μοντέλο να προβλέψει με ακρίβεια το ολυμπιακό μετάλλιο;

Εάν κάποιος σας ζητήσει να προβλέψετε τον αριθμό των μεταλλίων που κάθε χώρα θα κερδίσει στους φετινούς Ολυμπιακούς Αγώνες, θα προσπαθήσετε πιθανώς να προσδιορίσετε τους αγαπημένους αθλητές σε κάθε εκδήλωση και, στη συνέχεια, το συνολικό κέρδος κάθε χώρας να φτάσει σε αποτέλεσμα.

Οι Tim και Dan Graettinger, οι αδελφοί πίσω από την εταιρεία εξόρυξης δεδομένων Discovery Corps, Inc., έχουν μια μάλλον διαφορετική προσέγγιση. Αγνοούν πλήρως τους αθλητές.

Αντ 'αυτού, το μοντέλο τους για τα παιχνίδια του Σότσι εξετάζει τη γεωγραφική περιοχή κάθε χώρας, το κατά κεφαλήν ΑΕγχΠ, τη συνολική αξία των εξαγωγών και το γεωγραφικό πλάτος για να καθορίσει πόσα μετάλλια θα κερδίσει η κάθε χώρα. Σε περίπτωση που αναρωτιέστε, προβλέπει ότι οι ΗΠΑ θα βγουν στην κορυφή, με 29 μετάλλια συνολικά.

Οι Graettingers δεν είναι οι πρώτοι που χρησιμοποιούν αυτό το είδος προσέγγισης που βασίζεται σε δεδομένα, από την κορυφή προς τα κάτω για την πρόβλεψη του αριθμού των μετάλλων. Ο Daniel Johnson, καθηγητής οικονομικών του Κολοράντο, δημιούργησε παρόμοια μοντέλα για τους πέντε Ολυμπιακούς Αγώνες μεταξύ 2000 και 2008 - επιτυγχάνοντας συνολική ακρίβεια 94% στην πρόβλεψη του αριθμού των μεταλλίων σε κάθε χώρα - αλλά δεν δημιούργησε μοντέλο για το Σότσι.

Ο Dan και ο Tim είναι νεότεροι στο παιχνίδι. Ο Dan, ο οποίος συνήθως εργάζεται σε πιο συμβατικά έργα εξόρυξης δεδομένων, για παράδειγμα προβλέποντας τους δυνητικούς πελάτες μιας εταιρείας, αρχικά ενδιαφερόταν να χρησιμοποιήσει μοντέλα για να προβλέψει διαγωνισμούς πριν από τέσσερα χρόνια κατά τη διάρκεια των χειμερινών Ολυμπιακών Αγώνων του Βανκούβερ. «Χρησιμοποιώ δεδομένα για το παρελθόν για να προβλέψω το μέλλον όλη την ώρα», λέει. «Κάθε βράδυ, θα έδειχναν την καταμέτρηση των μετάλλων στην τηλεόραση και άρχισα να αναρωτιέμαι αν μπορούσαμε να προβλέψουμε αυτό».

Παρόλο που οι επιδόσεις των μεμονωμένων αθλητών μπορεί να ποικίλλουν απρόβλεπτα, θα μπορούσε να υπάρχει μια συνολική σχέση μεταξύ των θεμελιωδών χαρακτηριστικών μιας χώρας (το μέγεθος, το κλίμα και το ποσό του πλούτου, για παράδειγμα) και τον αριθμό των μεταλλίων που θα έπαιρνε κατ 'οίκον. Αυτή η προσέγγιση δεν θα μπορούσε να πει ποιος ανταγωνιστής θα μπορούσε να κερδίσει ένα συγκεκριμένο γεγονός, αλλά με αρκετά στοιχεία, ίσως είναι σε θέση να προβλέψει με ακρίβεια τις συνολικές μετρήσεις για κάθε χώρα.

Αρχικά, ο ίδιος και ο αδελφός του έθεσαν σε εφαρμογή ένα προκαταρκτικό μοντέλο για τα παιχνίδια του Λονδίνου το 2012. Αρχικά, συγκέντρωσαν ένα ευρύ φάσμα διαφορετικών τύπων συνόλων δεδομένων, για όλα, από τη γεωγραφία της χώρας έως την ιστορία, τη θρησκεία, τον πλούτο και την πολιτική δομή. Στη συνέχεια, χρησιμοποίησαν αναλύσεις παλινδρόμησης και άλλες μεθόδους για τη μέτρηση των δεδομένων, για να δουν ποιες μεταβλητές είχαν τη στενότερη σχέση με ιστορικά δεδομένα για τα ολυμπιακά μετάλλια.

Διαπίστωσαν ότι, για τους καλοκαιρινούς αγώνες, ένα μοντέλο που ενσωμάτωσε το ακαθάριστο εγχώριο προϊόν, τον πληθυσμό, το γεωγραφικό πλάτος και τη συνολική οικονομική ελευθερία (όπως μετράται από τον δείκτη του Heritage Foundation) συσχετίζεται καλύτερα με τον αριθμό των μεταλλίων κάθε χώρας για τους δύο προηγούμενους θερινούς Ολυμπιακούς Αγώνες και 2008). Αλλά σε αυτό το σημείο, το προκαταρκτικό μοντέλο τους θα μπορούσε μόνο να προβλέψει ποιες χώρες θα κερδίσουν δύο ή περισσότερα μετάλλια, όχι τον αριθμό των μεταλλίων ανά χώρα.

Αποφάσισαν να το βελτιώσουν για τα παιχνίδια του Σότσι, αλλά δεν μπορούσαν να βασιστούν στο προηγούμενο μοντέλο τους, επειδή οι χώρες που έχουν επιτυχία τον χειμώνα διαφέρουν τόσο πολύ από το καλοκαίρι. Το νέο μοντέλο του Σότσι αντιμετωπίζει το πρόβλημα της πρόβλεψης του αριθμού των μεταλλίων σε δύο βήματα. Επειδή περίπου το 90 τοις εκατό των χωρών δεν έχει κερδίσει ποτέ ένα μετάλλιο των Χειμερινών Ολυμπιακών Αγώνων (δεν έχει ποτέ κερδίσει κανένα Μέση Ανατολή, Νότια Αμερική, Αφρικανική ή Καραϊβική αθλητή), ξεχωρίζει πρώτα το δέκα τοις εκατό που πιθανόν να κερδίσει τουλάχιστον ένα, ο καθένας θα κερδίσει.

"Ορισμένες τάσεις είναι σχεδόν αυτό που θα περίμενε κανείς - καθώς ο πληθυσμός μιας χώρας μεγαλώνει, υπάρχει πιθανότητα να κερδίσει ένα μετάλλιο", λέει ο Tim. "Τελικά, όμως, χρειάζεστε πιο ισχυρό στατιστικό μηχανισμό που μπορεί να αλέσει πολλές μεταβλητές και να τις ταξινομήσει με βάση ποια είναι τα πιο προγνωστικά."

Τελικά, καταλήγουν σε μερικές μεταβλητές που διαχωρίζουν με ακρίβεια το ενενήντα τοις εκατό των χωρών που δεν έχουν κερδίσει το μετάλλιο από το δέκα τοις εκατό που θα κερδίσει πιθανότατα: περιλάμβαναν ποσοστό μετανάστευσης, αριθμό ιατρών ανά κάτοικο, γεωγραφικό πλάτος, ακαθάριστο εγχώριο προϊόν και αν η χώρα είχε κέρδισε ένα μετάλλιο στα προηγούμενα καλοκαιρινά παιχνίδια (καμία χώρα δεν είχε κερδίσει ποτέ ένα χειμερινό μετάλλιο χωρίς να κερδίσει το προηγούμενο καλοκαίρι, εν μέρει επειδή η δεξαμενή των καλοκαιρινών νικητών είναι πολύ μεγαλύτερη από τη χειμερινή). Με το τρέξιμο αυτού του μοντέλου στους δύο χειμερινούς Ολυμπιακούς Αγώνες, το μοντέλο αυτό διέκρινε τα έθνη που πήραν στο σπίτι ένα μετάλλιο με ακρίβεια 96, 5%.

Με το 90 τοις εκατό των χωρών να εξαλείφθηκαν, οι Graettingers χρησιμοποίησαν παρόμοιες αναλύσεις παλινδρόμησης για να δημιουργήσουν ένα μοντέλο που προέβλεπε, αναδρομικά, πόσα μετάλλια κέρδισε η κάθε μία από τις υπόλοιπες χώρες. Η ανάλυσή τους διαπίστωσε ότι ένας ελαφρώς διαφορετικός κατάλογος μεταβλητών ταιριάζει καλύτερα στα δεδομένα του ιστορικού μετάλλου. Αυτές οι μεταβλητές μαζί με τις προβλέψεις για τα παιχνίδια του Σότσι είναι κάτω από:

Εικόνα 4-Προβλεπόμενο μετάλλιο Πίνακας 2 - με σύνορα.png Οι προβλέψεις του μοντέλου για τα παιχνίδια του Σότσι (Graph courtesy Discovery Corps, Inc.)

Ορισμένες από τις μεταβλητές που αποδείχτηκαν συσχετιστικές δεν είναι τεράστιο σοκ - έχει νόημα ότι οι χώρες με μεγαλύτερο γεωγραφικό πλάτος βελτιώνουν καλύτερα τα γεγονότα που παίζουν κατά τη διάρκεια των χειμερινών αγώνων, αλλά μερικά ήταν πιο εκπληκτικά.

"Θεωρήσαμε ότι ο πληθυσμός, όχι ο χώρος της γης, θα ήταν σημαντικός", λέει ο Dan. Δεν είναι σίγουροι για ποιο λόγο η γεωγραφική περιοχή καταλήγει να ταιριάζει καλύτερα τα ιστορικά δεδομένα, αλλά μπορεί να οφείλεται στο γεγονός ότι μερικές χώρες υψηλού πληθυσμού που δεν κερδίζουν χειμερινά μετάλλια (όπως η Ινδία και η Βραζιλία) εκτοξεύουν τα δεδομένα. Χρησιμοποιώντας το έδαφος αντί του εδάφους, το μοντέλο αποφεύγει την επιρροή των χωρών αυτών, αλλά εξακολουθεί να διατηρεί μια άγρια ​​συσχέτιση με τον πληθυσμό, διότι σε γενικές γραμμές οι χώρες με μεγαλύτερες περιοχές έχουν μεγαλύτερο πληθυσμό.

Φυσικά, το μοντέλο δεν είναι τέλειο, ακόμα και στην αντιστοίχιση των ιστορικών δεδομένων. "Η προσέγγισή μας είναι η προσέγγιση των 30.000 ποδιών. Υπάρχουν μεταβλητές που δεν μπορούμε να υπολογίσουμε", λέει ο Tim. Ορισμένες χώρες έχουν επανειλημμένα ξεπεράσει τις προβλέψεις του μοντέλου (συμπεριλαμβανομένης της Νότιας Κορέας, η οποία κερδίζει δυσανάλογα μεγάλο αριθμό βραχυχρόνιων γεγονότων με ταχύτητα), ενώ άλλα υποφέρουν με σταθερότητα (όπως το Ηνωμένο Βασίλειο, το οποίο φαίνεται να βελτιώνει πολύ καλά τα θερινά γεγονότα που αναμένεται, ίσως επειδή - παρά το γεωγραφικό πλάτος του - παίρνει πολύ περισσότερη βροχή από το χιόνι).

Επιπλέον, μια συνεπής εξαίρεση που βρήκαν στις προβλέψεις του μοντέλου είναι ότι η χώρα υποδοχής τσακώνει περισσότερα μετάλλια από ό, τι διαφορετικά, με βάση απλώς τα δεδομένα. Τόσο η Ιταλία (κατά τη διάρκεια των παιχνιδιών του Τορίνου 2006) όσο και ο Καναδάς (κατά τη διάρκεια των αγώνων του Βανκούβερ το 2010) ξεπέρασαν το μοντέλο, με τον Καναδά να θέτει το ρεκόρ όλων των εποχών κερδίζοντας 14 χρυσά.

Ωστόσο, με βάση τη στατιστικά αυστηρή τους προσέγγιση, οι Graettingers είναι βέβαιοι ότι συνολικά το μοντέλο τους θα προβλέψει το τελικό μετάλλιο μετράει με σχετικά υψηλό βαθμό ακρίβειας.

Πώς συγκρίνουν τις προβλέψεις τους με εκείνες των εμπειρογνωμόνων που χρησιμοποιούν πιο συμβατικές στρατηγικές; Οι εμπειρογνώμονες δεν διαφέρουν δραματικά, αλλά έχουν μερικές παραδοσιακά επιτυχημένες χώρες (Νορβηγία, Καναδάς, Ρωσία) που κερδίζουν μεγαλύτερο αριθμό μεταλλίων, μαζί με μερικές άλλες (Κίνα, Ολλανδία, Αυστραλία), κερδίζοντας μερικές λιγότερες.

Μέχρι στιγμής, οι Graettingers δεν έχουν βάλει τα στοιχήματα στις προβλέψεις τους, αλλά σχεδιάζουν να συγκρίνουν την απόδοση του μοντέλου τους με τις πιθανότητες στοιχηματισμού λίγο πριν ξεκινήσουν τα παιχνίδια. Αν βλέπουν τυχόν αποκλίσεις που θα ήθελαν να εκμεταλλευτούν, ίσως καταλήξουν να βάζουν τα χρήματά τους εκεί όπου είναι το στόμα τους.

Μπορεί ένα στατιστικό μοντέλο να προβλέψει με ακρίβεια το ολυμπιακό μετάλλιο;