go backarticles

Articles of SQLschool.gr Team

Considerations on Data Staging when used during ETL process

Antonios Chatzipavlis

Σε αρκετές περιπτώσεις κατά την εκτέλεση ενός ETL process με το οποίο μεταφέρουμε τα δεδομένα μια πηγής στο DW και ειδικότερα κατά την στιγμή που κάνουμε extract data from data sources και πριν την επόμενη φάση του data transformation χρειάζεται να αποθηκεύσουμε αυτά τα δεδομένα σε μια staging area είτε προσωρινά είτε μόνιμα. Ποιές όμως είναι οι προϋποθέσεις και οι συνθήκες που θα μας οδηγήσουν στο να υλοποιήσουμε κάτι τέτοιο;
  • Μεγάλος όγκος δεδομένων.
  • Η επιλογή του τρόπου με το οποίο εντοπίζω τις αλλαγές που έχουν γίνει στην πηγή (see more)
  • Έχω πολλά και περίπλοκα transformations που απαιτούν χρόνο και πόρους για να γίνουν on the fly.
  • Ο χρόνος σύνδεσης με την πηγή θέλω να όσο τον δυνατό μικρότερος
  • Η ποιότητα της σύνδεσης με την πηγή δεν είναι ιδανική και έχω πολλά disconnections οπότε θέλω να προχωρήσω στην επόμενη φάση εφόσον έχω διαβάσει όλα μου τα δεδομένα
  • Δεν θέλω στις περιπτώσεις που κάποια από τις διαδικασίες transform ή load αποτύχει να φάω πάλι στο κεφάλι την διαδικασία extract (κόστος σε χρόνο και πόρους). (Ιδανική περίπτωση για χρήση των SSIS Checkpoints )
  • Αν αρκετά από τα transformations που έχω να κάνω γίνονται ευκολότερα και γρηγορότερα στο database engine.
  • Αν έχω περιπτώσεις που πρέπει να συνδυάσω πολλές πηγές για να συνθέσω την πληροφορία που θα εισάγω στο DW μου.
  • Αν θέλω να κάνω auditing και troubleshooting με τα δεδομένα αυτά στις περιπτώσεις που έχω κάποιο πρόβλημα στo ΕTL process.
Τι πρόκειται να κερδίζω ή να χάσω; Η απάντηση σε αυτό το ερώτημα για να είναι σαφής θα πρέπει να μετρήσω χρόνους και πόρους. Σίγουρα θα έχω πλεονεκτήματα αν είμαι στις παραπάνω περιπτώσεις. Όμως θα πρέπει να μετρήσω και τα μειονεκτήματα με κυριότερο το performance overhead που θα έχω σε I/O και το οποίο είναι σε συνάρτηση με το πόσους δίσκους έχω, σε τι RAID είναι αυτοί, τι ταχύτητα έχουν. Τι format πρέπει να επιλέξω για την staging area ώστε να είναι εύχρηστη και γρήγορη; Ένα ακόμα ερώτημα που ζητάει απάντηση. Εάν επιλέξω η περιοχή αυτή να είναι filesystem και να αποθηκεύω τα δεδομένα σε αρχεία (txt, csv, xml) είναι σίγουρο ότι θα έχω καλύτερο performance σε I/O από το να είμαι σε database. Όμως αν είμαι σε database έχω περισσότερες δυνατότητες να επεξεργαστώ τα δεδομένα καθώς έχω στα χέρια μου την δύναμη της T-SQL. Επίσης αρκετά χρήσιμο είναι να απαντήσω στα εξής ερωτήματα
  • Αν είναι database θα είναι στην ίδια βάση του DW ή θα είναι σε ξεχωριστή database;
  • Αν είναι στην ίδια βάση σε ποιό filegroup θα είναι;
  • Θα έχω ξεχωριστό staging server, ποιές είναι ο απαιτήσεις για αυτό (hardware);
  • Ποιό θα είναι το collation της βάσης, των δεδομένων;
Επίσης θα πρέπει να επιλέξω τον τρόπο με τον οποίο θα κάνω την μεταφορά αυτή. Θα πρέπει να βρω τον τρόπο (SSIS , T-SQL (BULK INSERT) ή Command line tools ( bcp) με κριτήριο την ταχύτητα και την ευχρηστία. Επίλογος Αν και ξέρω ότι αρκετοί θα αναρωτηθούν ποιο είναι το best practice σε όλα αυτά, δυστυχώς η απάντηση είναι ότι δεν υπάρχει best practice. Λυπάμαι που θα το γράψω αυτό αλλά It Depends. Πρέπει να τα μετρήσω όλα για να αποφασίσω.

Antonios Chatzipavlis

Antonios Chatzipavlis

Antonios is a Data Solutions Consultant and Trainer. He has been working in IT since 1988. In his career, he has worked as senior developer, IT Manager, Solutions Architect and IT Consultant. Since 1995 he has been devoted on new technologies and software development tools, mainly by Microsoft, either by training company staff and colleagues or assisting them in design, development and implementation as a consultant or chief developer. He has focused in Databases and Data Science since 1995. He specialized in Microsoft SQL Server since version 6.0 in areas like SQL Server Internals, Database Design and Development, Business Intelligence and in 2010 he has started working with Azure Data Platform, NoSQL databases, Big Data Technologies and Machine Learning. He is an active member of many IT communities in Greece, answering colleagues' questions and writing articles in his web site. He is the owner of SQLschool.gr which is a community portal with a lot of information about Microsoft SQL Server. He has been a Microsoft Certified Trainer (MCT) since 2000. Microsoft honored him as MVP on Data Platform due to his activities in SQL Server since 2010. He holds a large number of Microsoft Certifications and Microsoft SQL Server Certifications since version 6.5.

Leave your comment




We use Gravatar




Become a member

If you want to receive updates from us become a member to our community.
Follow us in

Newsletters   About us   Contact us   Terms of Use   Privacy   Register
sql school greece logo
© 2010-2022 All rights reserved

This site uses cookies for operational and analytics purposes only.
By continuing to browse this site, you agree to their use.