https://frosthead.com

Γιατί η Google Flu Trends δεν μπορεί να παρακολουθήσει τη γρίπη (ακόμα)

Το 2008, η Google ανακοίνωσε μια ενδιαφέρουσα νέα υπηρεσία που ονομάζεται Google Flu Trends. Οι μηχανικοί στην εταιρεία είχαν παρατηρήσει ότι ορισμένα ερωτήματα αναζήτησης (όπως αυτά που περιλαμβάνουν τις λέξεις "πυρετός" ή βήχας) φαινόταν να ακτινοβολούν κάθε εποχή της γρίπης.Η ιδέα τους ήταν να χρησιμοποιήσουν τη συχνότητα αυτών των αναζητήσεων για τον υπολογισμό των εθνικών ποσοστών γρίπης ταχύτερα από ό, με τα συμβατικά δεδομένα (τα οποία συνήθως χρειάζονται μερικές εβδομάδες για να συλλέξουν και να αναλύσουν), επιτρέποντας στους ανθρώπους να γνωρίζουν πότε πρέπει να λαμβάνουν πρόσθετες προφυλάξεις για να αποφύγουν τον ιό.

σχετικό περιεχόμενο

  • Πώς τα μοντέλα καιρού και το Google θα μπορούσαν να βοηθήσουν την περίοδο πρόγνωσης της γρίπης
  • Μεγάλα δεδομένα ή πάρα πολλές πληροφορίες;

Τα μέσα μαζικής ενημέρωσης (συμπεριλαμβανομένου αυτού του δημοσιογράφου) έσπευσαν να συγχαρώ την Google για μια τόσο διορατική, καινοτόμο και διαταραγμένη χρήση μεγάλων δεδομένων. Το μόνο πρόβλημα? Το Google Flu Trends δεν έχει αποδώσει πολύ καλά.

Η υπηρεσία έχει υπερεκτιμηθεί συνεχώς τα ποσοστά γρίπης σε σύγκριση με τα συμβατικά δεδομένα που συλλέχθηκαν στη συνέχεια από το CDC, εκτιμώντας ότι η επίπτωση της γρίπης είναι υψηλότερη από ό, τι στην πραγματικότητα ήταν για 100 από τις 108 εβδομάδες μεταξύ Αυγούστου 2011 και Σεπτεμβρίου 2013. Τον Ιανουάριο του 2013, τα ποσοστά γρίπης έφθασαν στο μέγιστο, αλλά οι εκτιμήσεις της Google Flu Trends ήταν διπλάσιες από τα πραγματικά δεδομένα, η ανακρίβειά της άρχισε τελικά να καλύπτει την κάλυψη του τύπου.

Η πιο συνηθισμένη εξήγηση για την ασυμφωνία είναι ότι η Google δεν έλαβε υπόψη τα ερωτήματα που σχετίζονται με τη γρίπη που εμφανίζονται ως αποτέλεσμα της υστερίας της γρίπης που προκαλείται από τα μέσα ενημέρωσης που συμβαίνει κάθε χειμώνα. Αλλά αυτή την εβδομάδα στην επιστήμη, μια ομάδα κοινωνικών επιστημόνων με επικεφαλής τον David Lazer προτείνει μια εναλλακτική εξήγηση: ότι οι ελιγμοί της Google στον αλγόριθμο αναζήτησης της είναι φταίξιμοι.

Είναι βέβαιο ότι είναι δύσκολο για τους ξένους να αναλύσουν τα Google Flu Trends, επειδή η εταιρεία δεν δημοσιοποιεί τους συγκεκριμένους όρους αναζήτησης που χρησιμοποιεί ως ανεπεξέργαστα δεδομένα ή τον συγκεκριμένο αλγόριθμο που χρησιμοποιεί για να μετατρέψει τη συχνότητα αυτών των όρων σε αξιολογήσεις γρίπης. Ωστόσο, οι ερευνητές έκαναν τον καλύτερο εαυτό τους για να συμπεράνουν τους όρους χρησιμοποιώντας το Google Correlate, μια υπηρεσία που σας επιτρέπει να εξετάζετε τα ποσοστά συγκεκριμένων όρων αναζήτησης με την πάροδο του χρόνου.

Όταν οι ερευνητές το έκαναν για ποικίλα ερωτήματα που σχετίζονται με τη γρίπη τα τελευταία χρόνια, διαπίστωσαν ότι οι αναζητήσεις με δύο κύριες λέξεις-κλειδιά (για τις θεραπείες για τη γρίπη και εκείνες που ζήτησαν να διαφοροποιήσουν τη γρίπη από το κρύο) Οι εκτιμήσεις των τάσεων παρά με τους πραγματικούς ρυθμούς γρίπης, ειδικά όταν η Google υπερεκτίμησε την επικράτηση της ασθένειας. Αυτές οι συγκεκριμένες αναζητήσεις, φαίνεται, θα μπορούσαν να είναι ένα τεράστιο μέρος του προβλήματος της ανακρίβειας.

Υπάρχει ένας άλλος καλός λόγος να υποψιάζεστε ότι αυτό μπορεί να συμβαίνει. Το 2011, η Google άρχισε να συστήνει συναφείς όρους αναζήτησης για πολλά ερωτήματα (συμπεριλαμβανομένης της καταχώρισης μιας αναζήτησης για θεραπεία της γρίπης μετά από κάποιον που έχει διαπράξει πολλούς όρους που σχετίζονται με τη γρίπη) και το 2012 άρχισε να παρέχει πιθανές διαγνώσεις (συμπεριλαμβανομένης της καταχώρισης τόσο της "γρίπης" όσο και της "κρύας" μετά από μια αναζήτηση που περιελάμβανε τη φράση "πονόλαιμος", για παράδειγμα, ίσως να ζητάει από τον χρήστη να αναζητήσει πώς να κάνει διάκριση μεταξύ των δύο). Αυτά τα τσιμπήματα, λένε οι ερευνητές, πιθανώς οδήγησαν τεχνητά τα ποσοστά των αναζητήσεων που διαπίστωσαν ως υπεύθυνες για τις υπερεκτιμήσεις της Google.

Φυσικά, αν αυτή η υπόθεση ήταν αληθινή, δεν σημαίνει ότι η Google Flu Trends είναι αναπόφευκτα καταδικασμένη σε ανακρίβεια, αλλά πρέπει να ενημερωθεί για να λάβει υπόψη τις συνεχείς αλλαγές της μηχανής αναζήτησης. Αλλά ο Lazer και οι άλλοι ερευνητές υποστηρίζουν ότι η παρακολούθηση της γρίπης από μεγάλα δεδομένα είναι ένα ιδιαίτερα δύσκολο πρόβλημα.

Ένα τεράστιο ποσοστό των όρων αναζήτησης που συσχετίζονται με τα δεδομένα του CDC για τα ποσοστά γρίπης, αποδεικνύεται ότι δεν προκαλούνται από τους ανθρώπους που λαμβάνουν τη γρίπη, αλλά από έναν τρίτο παράγοντα που επηρεάζει τόσο τα μοτίβα αναζήτησης όσο και τη μετάδοση της γρίπης: το χειμώνα. Στην πραγματικότητα, οι προγραμματιστές της Google Flu Trends ανέφεραν ότι έρχονται σε συγκεκριμένους όρους - εκείνους που σχετίζονται με το γυμναστήριο μπάσκετ, για παράδειγμα - που συσχετίζονταν με τα ποσοστά γρίπης με την πάροδο του χρόνου, αλλά σαφώς δεν είχαν καμία σχέση με τον ιό.

Με την πάροδο του χρόνου, οι μηχανικοί της Google απέσυραν με μη αυτόματο τρόπο πολλούς όρους που σχετίζονται με τις αναζητήσεις γρίπης, αλλά δεν έχουν καμία σχέση με τη γρίπη, αλλά το πρότυπο τους ήταν σαφώς ακόμα εξαρτώμενο από τις τάσεις της εποχικής αναζήτησης χωρίς γρίπη. 2009 επιδημία του H1N1, η οποία συνέβη κατά τη διάρκεια του καλοκαιριού. Ειδικά στις προηγούμενες εκδόσεις της, το Google Flu Trends ήταν "ανιχνευτής μερών γρίπης, μέρος ανιχνευτής χειμώνα", γράφουν οι συντάκτες της επιστήμης .

Ωστόσο, όλα αυτά μπορούν να αποτελέσουν ένα μάθημα για τη χρήση μεγάλων δεδομένων σε έργα όπως το Google Flu Trends, αντί για ένα κατηγορηματικό ένδικο μέσο, ​​λένε οι ερευνητές. Αν ενημερωθεί σωστά για να λάβει υπόψη τις τροποποιήσεις του αλγορίθμου της Google και να αναλυθεί αυστηρά για να αφαιρέσει καθαρά εποχιακούς παράγοντες, θα μπορούσε να είναι χρήσιμο στην τεκμηρίωση των εθνικών ποσοστών γρίπης - ειδικά όταν συνδυάζονται με συμβατικά δεδομένα.

Ως δοκιμή, οι ερευνητές δημιούργησαν ένα μοντέλο που συνδυάζει τα δεδομένα της Google Flu Trends (τα οποία είναι ουσιαστικά σε πραγματικό χρόνο, αλλά ενδεχομένως ανακριβή) με τα δεδομένα CDC δύο εβδομάδων (τα οποία είναι χρονολογημένα, επειδή χρειάζονται χρόνο για συλλογή, κάπως ενδεικτικό των τρεχόντων ρυθμών γρίπης). Το υβρίδιο τους συμπλήρωσε τα πραγματικά και τα τρέχοντα δεδομένα της γρίπης πολύ πιο πολύ από τα Google Flu Trends και παρουσίασε έναν τρόπο να πάρει αυτές τις πληροφορίες πολύ πιο γρήγορα από το να περιμένουν δύο εβδομάδες για τα συμβατικά δεδομένα.

"Η ανάλυσή μας στο Google Flu αποδεικνύει ότι τα καλύτερα αποτελέσματα προέρχονται από το συνδυασμό πληροφοριών και τεχνικών και από τις δύο πηγές", δήλωσε ο Ryan Kennedy, καθηγητής πολιτικών επιστημών του Πανεπιστημίου του Χιούστον και συν-συγγραφέας. "Αντί να μιλάμε για μια« μεγάλη επανάσταση δεδομένων », θα πρέπει να συζητούμε μια« επανάσταση όλων των δεδομένων »."

Γιατί η Google Flu Trends δεν μπορεί να παρακολουθήσει τη γρίπη (ακόμα)