https://frosthead.com

Τα μεγάλα δεδομένα μόλις πήραν μεγαλύτερο, καθώς ο Watson της IBM συναντά την εγκυκλοπαίδεια της ζωής

Μετά από 2.000 χρόνια, η τελική εγκυκλοπαίδεια της ζωής βρίσκεται στην κορυφή μιας νέας εποχής που βασίζεται σε δεδομένα. Μια επιχορήγηση από το Εθνικό Ίδρυμα Επιστημών απονεμήθηκε στην Εγκυκλοπαίδεια της Ζωής (EOL), στην ΙΒΜ και στο Ινστιτούτο Τεχνολογίας της Γεωργίας. Η επιχορήγηση θα επιτρέψει τη διεκπεραίωση τεράστιων ποσοτήτων δεδομένων και τη διασταυρούμενη ευρετηρίαση με τρόπους που θα επιτρέψουν την πραγματοποίηση πρωτοποριακής επιστήμης.

σχετικό περιεχόμενο

  • Το προτεινόμενο νέο σύστημα θαλάσσιων αποθεμάτων προσφέρει περιθωριακές προοπτικές τόσο για τον αστακό όσο και για τον ψαρά αστακό

Το έτος 77 μ.Χ. ο Πλίνιος ο Πρεσβύτερος άρχισε να γράφει την πρώτη εγκυκλοπαίδεια στον κόσμο, τη Φυσική Ιστορία. Περιλάμβανε τα πάντα από την αστρονομία στη βοτανική, τη ζωολογία στην ανθρωπολογία και άλλα. Ο Πλίνιος προσπάθησε να βάλει όλα όσα μπορούσε να συγκεντρώσει προσωπικά για τον φυσικό κόσμο σε ένα μόνο γραπτό έργο. Για τα τελευταία 2.000 χρόνια, μια μακρά σειρά από επιστήμονες εμπνευσμένες από τον Πλίνιο έχουν επιδιώξει το ίδιο όραμα.

Ο Πλίνιος περιελάμβανε 20.000 θέματα σε 36 τόμους αλλά αντιμετώπισε τους περιορισμούς για το τι μπορεί να ανακαλύψει, να καταγράψει και να επεξεργαστεί ένα άτομο σε μια ανθρώπινη ζωή. Πέθανε κατά τη διάρκεια της έκρηξης του Βεζούβιου, προτού να μπορέσει να τελειώσει μια τελική επεξεργασία του magnum opus. Ακόμη και στη δική του εποχή, δεν ήταν δυνατό για ένα άτομο να διαβάσει όλα τα βιβλία, να μάθει όλα τα πράγματα και να τα εξηγήσει όλα στον κόσμο.

Καθώς οι επιστήμονες, οι συντάκτες και οι βιβλιοθηκονόμοι ανακαλύφθηκαν σε έναν κόσμο που προσθέτει περισσότερες γραπτές γνώσεις με κάθε παρελθόν έτος, ακόμη και αν μπορούσατε να αποθηκεύσετε όλα τα βιβλία και την έρευνα του κόσμου σε ένα κτίριο, είναι μια πρόκληση να διαθέσετε όλες τις σχετικές πληροφορίες ερευνητές κατά τους περιορισμούς της σύντομης ανθρώπινης ζωής τους.

Το EOL θα μπορούσε να αλλάξει αυτό χρησιμοποιώντας την υπερσύγχρονη υπολογιστική ισχύ για να διαχωρίσει τις συλλογές των βιολογικών δεδομένων. Το έργο είναι μια ελεύθερη και ανοιχτή ψηφιακή συλλογή στοιχείων βιοποικιλότητας, άρθρα και πολυμέσα, ένα από τα μεγαλύτερα στον κόσμο. Με έδρα το Smithsonian Institution και με 357 συνεργάτες και παρόχους περιεχομένου, συμπεριλαμβανομένου του Πανεπιστημίου του Χάρβαρντ και της νέας βιβλιοθήκης της Αλεξάνδρειας στην Αίγυπτο, η EOL αυξήθηκε από 30.000 σελίδες όταν ξεκίνησε το 2008 σε περισσότερα από 2 εκατομμύρια, με 1.3 εκατομμύρια σελίδες κειμένου, , βίντεο, ήχου και φωτογραφιών και υποστηρίζει 20 γλώσσες.

"Ήρθα στο Smithsonian το 2010 από τη βιομηχανία λογισμικού", λέει ο διευθυντής της EOL Bob Corrigan. "Ένα από τα ευρήματα που έκανα εδώ είναι ότι ενώ η τεχνολογία είναι παντού, δεν έχει διεισδύσει στον κόσμο των μουσείων με τον ίδιο τρόπο που έχει εισχωρήσει στον εμπορικό κόσμο. Ειδικά στη βιολογία, τα πιο σημαντικά δεδομένα έχουν ταφεί σε εγχειρίδια και υπολογιστικά φύλλα. "

Πώς μπορούν να συνδυάζονται και να εξορύσσονται βιολογικά δεδομένα σε διάφορες μορφές για νέες γνώσεις σχετικά με τη ζωή στη Γη; Τι θα συμβεί εάν τα στοιχεία σχετικά με τη βιοποικιλότητα των πεταλούδων στην Αφρική εδώ και μια δεκαετία συνδυάστηκαν με δεδομένα σχετικά με τις γεωργικές πρακτικές και τις βροχοπτώσεις; Θα μπορούσε να μάθει κάτι νέο; Χρειάζεται κάτι μεγαλύτερο από τον ανθρώπινο εγκέφαλο για να γίνει αυτό. Κάτι σαν το υπερυπολογιστή της Watson της IBM.

"Η IBM συμβάλλει προσπάθεια και πρόσβαση σε μια έκδοση [της Watson] που δεν είναι διαθέσιμη στο κοινό", λέει η Jennifer Hammock, διευθυντής προγράμματος στο EOL. "Θα έχουν επίσης ανθρώπους που εργάζονται σε αυτό. Η IBM το κάνει αυτό ως συνεισφορά σε είδος. "

Ο Watson είναι ένας υπερυπολογιστής που δεν χτυπά μόνο αριθμούς σε μεγάλους όγκους. Χρησιμοποιεί τεχνητή νοημοσύνη για να επιτρέπει στους χρήστες να κάνουν ερωτήσεις σε απλή γλώσσα.

"Θα έλεγα από την άποψη του χρήστη, αυτό σημαίνει ότι η βάση δεδομένων είναι κάτι που μπορείτε να περπατήσετε και να θέσετε μια ερώτηση σαν να κάνατε έναν άνθρωπο", λέει η Hammock. "Όπως, μπορείς να μου πεις αν αυτή η μοβ πεταλούδα εμφανίζεται στην Αφρική;"

"Η απάντηση σε μια απλή ερώτηση σε οποιαδήποτε γλώσσα προϋποθέτει την ύπαρξη πολλών γνώσεων πίσω από τις σκηνές", λέει ο Corrigan. "Ακόμη και [η λέξη] μοβ, προϋποθέτει ότι γνωρίζουμε ποιο είναι μοβ. Ή μια πεταλούδα, ο υπολογιστής πρέπει να καταλάβει τη διαφορά ανάμεσα σε μια πεταλούδα και ένα σκώρο. Επιπλέον, τα σύνολα δεδομένων έχουν διαφορετικούς τρόπους σκέψης σχετικά με αυτούς τους διαφορετικούς όρους. Όλα αυτά τα δεδομένα ήταν δύσκολο να πετύχουν χωρίς μια Rosetta πέτρα των όρων. Και αυτό είναι μέρος της μαγείας του τι κάνει το EOL. "

Ένα επιστημονικό ερώτημα που η εταιρική σχέση μεταξύ της EOL, της IBM και της Georgia Tech ελπίζει να λύσει είναι το παράδοξο του πλαγκτόν.

Σύμφωνα με την Hammock, οι επιστήμονες που εργάζονται με προσομοιώσεις υπολογιστών «προσπαθούν να μοντελοποιήσουν τι συμβαίνει στον ωκεανό λέγοντας ότι ο ήλιος λάμπει και τα φύκια μεγαλώνουν. . . έχει ένα είδος πρόχειρης προσέγγισης αλλά δεν μπορεί να πάρει [το μοντέλο υπολογιστών του οικοσυστήματος] να είναι σταθερό. Πηγαίνουν για λίγο και στη συνέχεια συντρίβονται. Επειδή είναι πολύ απλά. Ελπίζουν ότι εάν μπορούν να δείξουν λίγο περισσότερη ποικιλία στη διαμορφωμένη βιόσφαιρα, θα γίνουν πιο σταθερές. . . Το παράδοξο είναι: πώς υπάρχει η βιόσφαιρα των ωκεανών; Γιατί δεν συντρίβει; "

"Οι άνθρωποι κάθεται σε δεδομένα, " λέει ο Corrigan. "Υπάρχουν απίστευτες δεξαμενές μετρήσεων βιοποικιλότητας σε όλο τον πλανήτη. Παίρνω πολλά τηλεφωνήματα από άτομα που κάθεται σε αυτά τα δεδομένα και θέλουν να τα βάλουν σε ένα ευρύτερο πλαίσιο. Είναι σημαντικό επειδή βρισκόμαστε σε αγώνα για να μελετήσουμε αυτόν τον πλανήτη και να μάθουμε πώς η εξέλιξή μας τονίζει τους πολύ πεπερασμένους πόρους μας. . . Ο Smithsonian μπορεί να διαδραματίσει ρόλο στην αύξηση της γνώσης από όλες αυτές τις πηγές και να είναι μια πραγματική δύναμη να το διαχέει ».

Το ένα τέταρτο της επιχορήγησης ύψους 1 εκατομμυρίου δολαρίων θα δοθεί στη Smithsonian για το μερίδιό της στο έργο, αλλά η EOL περιλαμβάνει πολλούς άλλους παίκτες. Μερικοί προγραμματιστές είναι στην Αίγυπτο. μια εκπαιδευτική ομάδα βασίζεται έξω από το Χάρβαρντ. και η μονάδα ισπανικής γλώσσας βρίσκεται στην πόλη του Μεξικού.

Όλα τα δεδομένα του EOL θα εξακολουθήσουν να είναι είτε στο δημόσιο τομέα είτε υπό την άδεια χρήσης του Creative Commons. Η έρευνα και τα δεδομένα προορίζονται να είναι προσιτά στο κοινό και να μην κρύβονται πίσω από ένα paywall.

"Είναι ένα πολύ παλιό όνειρο, " λέει η Hammock. "Ένας άνθρωπος μάλλον δεν μπορεί να μάθει όλα. Είναι δύσκολο να βάλουμε τα πάντα σε ένα μέρος όπου μπορεί να ελεγχθεί συνειδητά εναντίον του. Αλλά τώρα έχουμε υπολογιστές. "

Ο Πλίνιος θα ήταν πολύ ευχαριστημένος ή πολύ ζηλότυπος.

Τα μεγάλα δεδομένα μόλις πήραν μεγαλύτερο, καθώς ο Watson της IBM συναντά την εγκυκλοπαίδεια της ζωής