Επειδή εδώ και αρκετά χρόνια ο όρος Big Data έχει μπει για τα καλά στην ζωή μας και όλο και περισσότεροι τον χρησιμοποιούν λανθασμένα έκρινα σκόπιμο να γράψω μερικές λέξεις.
Αρχικά ο όρος αυτός εμφανίστηκε στις αρχές του 1990 και δεν έχει να κάνει με τεχνολογία ούτε με συγκεκριμένο προϊόν. Αντιθέτως έχει να κάνει με τα χαρακτηριστικά που τα δεδομένα έχουν και πως αυτά αποτελούν σημείο στρατηγικής σε ένα οργανισμό ή εταιρεία.
Αυτό σημαίνει ότι όποιος οργανισμός ή εταιρεία έχει δεδομένα τα οποία καλύπτουν τα παρακάτω χαρακτηριστικά έχει big data ανεξάρτητα το που αυτά είναι τοποθετημένα ή ποια τεχνολογία χρησιμοποιούν.
1. Volume (Όγκος)
Ο όγκος τον δεδομένων είναι το νούμερο ένα χαρακτηριστικό καθώς πάνω από το 90% αυτών έχει δημιουργηθεί στο παρελθόν και χρειάζονται μέχρι και σήμερα.
2. Velocity (Ταχύτητα)
Με τον όρο αυτό αναφερόμαστε στην ταχύτητα με την οποία τα δεδομένα παράγονται ή ανανεώνονται. Το γεγονός ότι κάποιος μπορεί να έχει μεγάλο όγκο δεδομένων αλλά καθημερινά παράγει κάτω από το 1% του όγκου που έχει δεν σημαίνει ότι έχει big data.
3. Variety (Ποικιλία)
Με το όρο αυτό αναφερόμαστε στην ποικιλία των δεδομένων που κρατιούνται καθώς αυτά μπορεί να είναι σε διάφορες μορφές όπως structured, semi-structured, un-structured.
4. Variability (Αστάθεια)
Με τον όρο αυτό αναφερόμαστε σε δύο βασικά στοιχεία που έχουν τα big data και αφορούν την αστάθεια των δεδομένων.
Αρχικά θα πρέπει να βρούμε τα δεδομένα που δεν είναι σωστά και για αυτό θα πρέπει να έχουμε αναπτύξει τους ελεγκτικούς μηχανισμούς που θα καθαρίζουν αυτά ώστε οι αναλύσεις που θα κάνουμε να έχουν νόημα αλλιώς θα έχουμε λάθος αποτελέσματα.
Το δεύτερο είναι να γνωρίζουμε την ταχύτητα/ρυθμό με την οποία δημιουργείτε η αστάθεια αυτή και πως τα ασταθή δεδομένα αποθηκεύονται στην βάση δεδομένων μας καθώς αυτό πάλι επηρεάζει την ανάλυση που θα κάνουμε σε αυτά τα δεδομένα.
5. Veracity (Αξιοπιστία)
Ένα από τα στοιχεία που τα big data έχουν και μάλιστα δεν μπορεί να προϋπολογιστεί είναι η αξιοπιστία τους και πόσο μπορούμε να εμπιστευτούμε αυτά καθώς όσο μεγαλώνουν τα παραπάνω αναφερόμενα χαρακτηριστικά τόσο η αξιοπιστία τους μικραίνει.
6. Validity (Εγκυρότητα)
Αν και φαίνεται να είναι το ίδιο ακριβώς με την αξιοπιστία (Veracity) με τον όρο αυτό αναφερόμαστε στο πόσο έγκυρα είναι τα δεδομένα που έχουμε σκοπό να επεξεργαστούμε.
7. Vulnerability (Ευαισθησία)
Με τον όρο αυτό αναφερόμαστε στην ευαισθησία των δεδομένων από εξωτερικούς παράγοντες και πόσο αυτοί μπορούν να αλλοιώσουν αυτά.
8. Volatility (Ιστορικότητα)
Με τον όρο αυτό αναφερόμαστε στην ιστορικότητα των δεδομένων που πρέπει να έχουμε ώστε αυτά να θεωρούνται έγκυρα για την ανάλυση τους.
9. Visualization (Απεικόνιση)
Με τον όρο αυτό αναφερόμαστε στην δυνατότητα που έχουμε να απεικονίσουμε τα δεδομένα αυτά καθώς υπάρχουν περιορισμοί που αφορούν διαθέσιμη μνήμη, τεχνολογία, και το χρόνο που απαιτείται για την απεικόνιση αυτή.
10. Value (Αξία)
Το τελευταίο αλλά το σημαντικότερο χαρακτηριστικό των big data είναι η αξία τους. Το γεγονός ότι μπορεί να έχουμε όλα τα παραπάνω δεν σημαίνει ότι έχω χρήσιμα δεδομένα τα οποία θα είναι σε θέση να με οδηγήσουν σε αποφάσεις.
Όλα τα παραπάνω είναι αυτά που χαρακτηρίζουν τα big data και οποιαδήποτε άλλη χρήση του όρου δεν είναι αποδεκτή από την επιστημονική κοινότητα που ασχολείται με αυτά.
//antonch