sqlschool.gr logo

articles

Articles of SQLschool.gr Team

Some words about Big Data

Antonios Chatzipavlis
Saturday 28 July 2018

Επειδή εδώ και αρκετά χρόνια ο όρος Big Data έχει μπει για τα καλά στην ζωή μας και όλο και περισσότεροι τον χρησιμοποιούν λανθασμένα έκρινα σκόπιμο να γράψω μερικές λέξεις.

Αρχικά ο όρος αυτός εμφανίστηκε στις αρχές του 1990 και δεν έχει να κάνει με τεχνολογία ούτε με συγκεκριμένο προϊόν. Αντιθέτως έχει να κάνει με τα χαρακτηριστικά που τα δεδομένα έχουν και πως αυτά αποτελούν σημείο στρατηγικής σε ένα οργανισμό ή εταιρεία.

Αυτό σημαίνει ότι όποιος οργανισμός ή εταιρεία έχει δεδομένα τα οποία καλύπτουν τα παρακάτω χαρακτηριστικά έχει big data ανεξάρτητα το που αυτά είναι τοποθετημένα ή ποια τεχνολογία χρησιμοποιούν.


1. Volume (Όγκος)

Ο όγκος τον δεδομένων είναι το νούμερο ένα χαρακτηριστικό καθώς πάνω από το 90% αυτών έχει δημιουργηθεί στο παρελθόν και χρειάζονται μέχρι και σήμερα.


2. Velocity (Ταχύτητα)

Με τον όρο αυτό αναφερόμαστε στην ταχύτητα με την οποία τα δεδομένα παράγονται ή ανανεώνονται. Το γεγονός ότι κάποιος μπορεί να έχει μεγάλο όγκο δεδομένων αλλά καθημερινά παράγει κάτω από το 1% του όγκου που έχει δεν σημαίνει ότι έχει big data.


3. Variety (Ποικιλία)

Με το όρο αυτό αναφερόμαστε στην ποικιλία των δεδομένων που κρατιούνται καθώς αυτά μπορεί να είναι σε διάφορες μορφές όπως structured, semi-structured, un-structured.


4. Variability (Αστάθεια)

Με τον όρο αυτό αναφερόμαστε σε δύο βασικά στοιχεία που έχουν τα big data και αφορούν την αστάθεια των δεδομένων. Αρχικά θα πρέπει να βρούμε τα δεδομένα που δεν είναι σωστά και για αυτό θα πρέπει να έχουμε αναπτύξει τους ελεγκτικούς μηχανισμούς που θα καθαρίζουν αυτά ώστε οι αναλύσεις που θα κάνουμε να έχουν νόημα αλλιώς θα έχουμε λάθος αποτελέσματα. Το δεύτερο είναι να γνωρίζουμε την ταχύτητα/ρυθμό με την οποία δημιουργείτε η αστάθεια αυτή και πως τα ασταθή δεδομένα αποθηκεύονται στην βάση δεδομένων μας καθώς αυτό πάλι επηρεάζει την ανάλυση που θα κάνουμε σε αυτά τα δεδομένα.


5. Veracity (Αξιοπιστία)

Ένα από τα στοιχεία που τα big data έχουν και μάλιστα δεν μπορεί να προϋπολογιστεί είναι η αξιοπιστία τους και πόσο μπορούμε να εμπιστευτούμε αυτά καθώς όσο μεγαλώνουν τα παραπάνω αναφερόμενα χαρακτηριστικά τόσο η αξιοπιστία τους μικραίνει.


6. Validity (Εγκυρότητα)

Αν και φαίνεται να είναι το ίδιο ακριβώς με την αξιοπιστία (Veracity) με τον όρο αυτό αναφερόμαστε στο πόσο έγκυρα είναι τα δεδομένα που έχουμε σκοπό να επεξεργαστούμε.


7. Vulnerability (Ευαισθησία)

Με τον όρο αυτό αναφερόμαστε στην ευαισθησία των δεδομένων από εξωτερικούς παράγοντες και πόσο αυτοί μπορούν να αλλοιώσουν αυτά.


8. Volatility (Ιστορικότητα)

Με τον όρο αυτό αναφερόμαστε στην ιστορικότητα των δεδομένων που πρέπει να έχουμε ώστε αυτά να θεωρούνται έγκυρα για την ανάλυση τους.


9. Visualization (Απεικόνιση)

Με τον όρο αυτό αναφερόμαστε στην δυνατότητα που έχουμε να απεικονίσουμε τα δεδομένα αυτά καθώς υπάρχουν περιορισμοί που αφορούν διαθέσιμη μνήμη, τεχνολογία, και το χρόνο που απαιτείται για την απεικόνιση αυτή.


10. Value (Αξία)

Το τελευταίο αλλά το σημαντικότερο χαρακτηριστικό των big data είναι η αξία τους. Το γεγονός ότι μπορεί να έχουμε όλα τα παραπάνω δεν σημαίνει ότι έχω χρήσιμα δεδομένα τα οποία θα είναι σε θέση να με οδηγήσουν σε αποφάσεις.





Όλα τα παραπάνω είναι αυτά που χαρακτηρίζουν τα big data και οποιαδήποτε άλλη χρήση του όρου δεν είναι αποδεκτή από την επιστημονική κοινότητα που ασχολείται με αυτά.



//antonch


Antonios Chatzipavlis

Antonios Chatzipavlis

Antonios Chatzipavlis is a highly experienced Data Solutions Consultant and Trainer. He has been working in the IT industry since 1988, holding various roles such as senior developer, IT Manager, Data & AI Solutions Architect and Consultant.

Since 1995, Antonios has focused on modern technologies and software development tools, primarily by Microsoft. He has specialized in Data & AI since 2000, with expertise in Microsoft Data Platform (SQL Server, Azure SQL Databases, Azure Synapse Analytics, Microsoft Fabric, Power BI, AI) and Databricks.

Antonios is also a Microsoft Certified Trainer (MCT) for over 25 years, has been recognized as a Microsoft Most Valuable Professional (MVP) in Data Platform since 2010 and he is in the Data Expert 40 Powerlist 2024 by Boussias. He is the co-founder and visionary behind XLYTiCA, a company dedicated to Data & AI solutions.

Episode

Task Flows in Microsoft Fabric

image

More Episodes...

Tip

Get Certified: Become a Fabric Data Engineer

More Tips...

Become a member

If you want to receive updates from us become a member to our community.

Connect

Explore

Learn


sqlschool.gr © 2010-2025 All rights reserved

This site uses cookies for operational and analytics purposes only. By continuing to browse this site, you agree to their use.