Κατασκευή αποθήκης δεδομένων και λίμνης δεδομένων στο AWS

Αποθήκη δεδομένων. Λίμνη δεδομένων. Σπίτι στη λίμνη. Εάν καμία από αυτές τις λέξεις δεν έχει έστω και λίγο απήχηση, τότε η δουλειά σας σαφώς δεν σχετίζεται με δεδομένα.

Ωστόσο, αυτό θα ήταν μια αρκετά μη ρεαλιστική υπόθεση, καθώς σήμερα, όλα σχετίζονται με δεδομένα, όπως φαίνεται. Ή πώς θέλουν να το περιγράψουν οι ηγέτες της εταιρείας:

  • Επιχείρηση με επίκεντρο τα δεδομένα και τα δεδομένα.
  • Δεδομένα οπουδήποτε, οποτεδήποτε, ούτως ή άλλως.

Το σημαντικότερο περιουσιακό στοιχείο

Φαίνεται ότι τα δεδομένα έχουν γίνει το πιο πολύτιμο περιουσιακό στοιχείο ολοένα και περισσότερων εταιρειών. Θυμάμαι ότι οι μεγάλες εταιρείες παρήγαγαν πάντα πολλά δεδομένα, σκεφτείτε terabyte νέων δεδομένων κάθε μήνα. Αυτό ήταν ακόμα πριν από 10-15 χρόνια. Αλλά τώρα, μπορείτε εύκολα να δημιουργήσετε αυτόν τον όγκο δεδομένων μέσα σε λίγες ημέρες. Θα ρωτούσε κανείς αν είναι πραγματικά απαραίτητο, ακόμα κι αν είναι κάποιο περιεχόμενο που θα χρησιμοποιήσει κάποιος. Και ναι, σίγουρα δεν είναι 😃.

Δεν θα είναι χρήσιμο όλο το περιεχόμενο, και ορισμένα μέρη ούτε μια φορά. Συχνά έβλεπα στην πρώτη γραμμή πώς οι εταιρείες παρήγαγαν έναν τεράστιο όγκο δεδομένων μόνο για να γίνουν άχρηστες μετά από μια επιτυχημένη φόρτωση.

Αλλά αυτό δεν είναι πλέον σχετικό. Η αποθήκευση δεδομένων – τώρα στο cloud – είναι φθηνή, οι πηγές δεδομένων αυξάνονται εκθετικά και σήμερα κανείς δεν μπορεί να προβλέψει τι θα χρειαστούν ένα χρόνο αργότερα, μόλις ενσωματωθούν νέες υπηρεσίες στο σύστημα. Σε εκείνο το σημείο, ακόμη και τα παλιά δεδομένα μπορούν να γίνουν πολύτιμα.

Επομένως, η στρατηγική είναι να αποθηκεύονται όσο το δυνατόν περισσότερα δεδομένα. Αλλά και σε όσο το δυνατόν πιο αποτελεσματική μορφή. Έτσι ώστε τα δεδομένα να μπορούν όχι μόνο να αποθηκευτούν αποτελεσματικά, αλλά και να διερευνηθούν, να επαναχρησιμοποιηθούν ή να μετασχηματιστούν και να διανεμηθούν περαιτέρω.

Ας ρίξουμε μια ματιά σε τρεις εγγενείς τρόπους για να το πετύχετε αυτό μέσα στο AWS:

  • Βάση δεδομένων Athena – φθηνός και αποτελεσματικός, αν και απλός τρόπος για να δημιουργήσετε μια λίμνη δεδομένων στο cloud.
  • Redshift Database – μια σοβαρή έκδοση cloud μιας αποθήκης δεδομένων που έχει τη δυνατότητα να αντικαταστήσει την πλειονότητα των τρεχουσών on-premise λύσεων, ανίκανη να καλύψει τη διαφορά με την εκθετική αύξηση των δεδομένων.
  • Databricks – ένας συνδυασμός λίμνης δεδομένων και αποθήκης δεδομένων σε μια ενιαία λύση, με κάποιο μπόνους πάνω από όλα.

Data Lake από την AWS Athena

Πηγή: aws.amazon.com

Η λίμνη δεδομένων είναι ένα μέρος όπου μπορείτε να αποθηκεύσετε τα εισερχόμενα δεδομένα σε μη δομημένη, ημιδομημένη ή δομημένη μορφή με γρήγορο τρόπο. Ταυτόχρονα, δεν περιμένετε να τροποποιηθούν αυτά τα δεδομένα μόλις αποθηκευτούν. Αντίθετα, θέλετε να είναι όσο το δυνατόν πιο ατομικά και αμετάβλητα. Μόνο αυτό θα εξασφαλίσει τη μεγαλύτερη δυνατότητα επαναχρησιμοποίησης σε μεταγενέστερα στάδια. Εάν χάνατε αυτήν την ατομική ιδιότητα των δεδομένων αμέσως μετά την πρώτη φόρτωση σε μια λίμνη δεδομένων, δεν υπάρχει τρόπος να λάβετε ξανά αυτές τις χαμένες πληροφορίες.

Το AWS Athena είναι μια βάση δεδομένων με χώρο αποθήκευσης απευθείας σε κάδους S3 και χωρίς συμπλέγματα διακομιστών που εκτελούνται στο παρασκήνιο. Αυτό σημαίνει ότι είναι μια πραγματικά φθηνή υπηρεσία δεδομένων λίμνης. Οι δομημένες μορφές αρχείων, όπως παρκέ ή αρχεία τιμών διαχωρισμένων με κόμμα (CSV) διατηρούν την οργάνωση δεδομένων. Ο κάδος S3 κρατά τα αρχεία και η Athena αναφέρεται σε αυτά κάθε φορά που οι διαδικασίες επιλέγουν τα δεδομένα από τη βάση δεδομένων.

Το Athena δεν υποστηρίζει διάφορες λειτουργίες που διαφορετικά θεωρούνται τυπικές, όπως δηλώσεις ενημέρωσης. Αυτός είναι ο λόγος που πρέπει να δείτε την Αθηνά ως μια πολύ απλή επιλογή. Από την άλλη πλευρά, σας βοηθά να αποτρέψετε την τροποποίηση της λίμνης ατομικών δεδομένων σας απλώς και μόνο επειδή δεν μπορείτε 😐.

Υποστηρίζει την ευρετηρίαση και την κατάτμηση, γεγονός που το καθιστά χρησιμοποιήσιμο για αποτελεσματική εκτέλεση εντολών επιλογής και δημιουργία λογικά ξεχωριστών τμημάτων δεδομένων (για παράδειγμα, διαχωρισμένα κατά ημερομηνία ή στήλες κλειδιών). Μπορεί επίσης να κλιμακωθεί οριζόντια πολύ εύκολα, καθώς είναι τόσο περίπλοκο όσο η προσθήκη νέων κουβάδων στην υποδομή.

  11 Καλύτερο λογισμικό διαχείρισης προϊόντων για σύγχρονες εφαρμογές

Υπέρ και κατά

Τα οφέλη που πρέπει να λάβετε υπόψη:

  • Το γεγονός ότι το Athena είναι φθηνό (που αποτελείται μόνο από κουβάδες S3 και κόστος χρήσης SQL ανά χρήση) αποτελεί το πιο σημαντικό πλεονέκτημα. Αν θέλετε να φτιάξετε μια οικονομικά προσιτή λίμνη δεδομένων στο AWS, αυτό είναι.
  • Ως εγγενής υπηρεσία, η Athena μπορεί εύκολα να ενσωματωθεί με άλλες χρήσιμες υπηρεσίες AWS, όπως το Amazon QuickSight για οπτικοποίηση δεδομένων ή τον κατάλογο δεδομένων AWS Glue για τη δημιουργία μόνιμα δομημένων μεταδεδομένων.
  • Το καλύτερο για την εκτέλεση ad hoc ερωτημάτων σε μεγάλο όγκο δομημένων ή μη δομημένων δεδομένων χωρίς να διατηρείται μια ολόκληρη υποδομή γύρω από αυτό.

Τα μειονεκτήματα που πρέπει να ληφθούν υπόψη:

  • Το Athena δεν είναι ιδιαίτερα αποτελεσματικό στην γρήγορη επιστροφή σύνθετων επιλεγμένων ερωτημάτων, ειδικά εάν τα ερωτήματα δεν ακολουθούν τις υποθέσεις του μοντέλου δεδομένων σχετικά με τον τρόπο που σχεδιάσατε να ζητάτε τα δεδομένα από τη λίμνη δεδομένων.
  • Αυτό το καθιστά επίσης λιγότερο ευέλικτο όσον αφορά τις πιθανές μελλοντικές αλλαγές στο μοντέλο δεδομένων.
  • Το Athena δεν υποστηρίζει επιπλέον προηγμένες λειτουργίες εκτός συσκευασίας και αν θέλετε κάτι συγκεκριμένο να είναι μέρος της υπηρεσίας, πρέπει να το εφαρμόσετε από πάνω.
  • Εάν αναμένετε τη χρήση δεδομένων λίμνης δεδομένων σε κάποιο πιο προηγμένο επίπεδο παρουσίασης, συχνά η μόνη επιλογή είναι να το συνδυάσετε με μια άλλη υπηρεσία βάσης δεδομένων πιο κατάλληλη για αυτόν τον σκοπό, όπως το AWS Aurora ή το AWS Dynamo DB.

Σκοπός και περίπτωση χρήσης πραγματικού κόσμου

Επιλέξτε Athena εάν ο στόχος είναι η δημιουργία μιας απλής λίμνης δεδομένων χωρίς προηγμένες λειτουργίες που μοιάζουν με αποθήκη δεδομένων. Έτσι, για παράδειγμα, εάν δεν περιμένετε σοβαρά ερωτήματα αναλυτικών στοιχείων υψηλής απόδοσης να τρέχουν τακτικά πάνω από τη λίμνη δεδομένων. Αντίθετα, η ύπαρξη μιας δεξαμενής αμετάβλητων δεδομένων με εύκολη επέκταση αποθήκευσης δεδομένων είναι η προτεραιότητα.

Δεν χρειάζεται πλέον να ανησυχείτε πολύ για την έλλειψη χώρου. Ακόμη και το κόστος αποθήκευσης κάδου S3 μπορεί να μειωθεί περαιτέρω με την εφαρμογή μιας πολιτικής κύκλου ζωής δεδομένων. Αυτό ουσιαστικά σημαίνει μετακίνηση των δεδομένων σε διαφορετικούς τύπους κουβάδων S3, που στοχεύουν περισσότερο σε αρχειακούς σκοπούς με βραδύτερους χρόνους επιστροφής απορρόφησης αλλά χαμηλότερο κόστος.

Ένα εξαιρετικό χαρακτηριστικό του Athena είναι ότι δημιουργεί αυτόματα ένα αρχείο που αποτελείται από δεδομένα που αποτελούν μέρος ενός αποτελέσματος του ερωτήματός σας SQL. Στη συνέχεια, μπορείτε να πάρετε αυτό το αρχείο και να το χρησιμοποιήσετε για οποιονδήποτε σκοπό. Επομένως, είναι μια καλή επιλογή εάν έχετε πολλές υπηρεσίες λάμδα που επεξεργάζονται περαιτέρω τα δεδομένα σε πολλαπλά βήματα. Κάθε αποτέλεσμα λάμδα θα είναι αυτόματα το αποτέλεσμα σε μια δομημένη μορφή αρχείου ως είσοδο έτοιμη για την επόμενη επεξεργασία.

Το Athena είναι μια καλή επιλογή σε περιπτώσεις όπου μεγάλος όγκος ακατέργαστων δεδομένων έρχεται στην υποδομή σας στο cloud και δεν χρειάζεται να το επεξεργαστείτε τη στιγμή της φόρτωσης. Αυτό σημαίνει ότι το μόνο που χρειάζεστε είναι γρήγορη αποθήκευση στο cloud σε κατανοητή δομή.

Μια άλλη περίπτωση χρήσης θα ήταν η δημιουργία ενός αποκλειστικού χώρου για σκοπούς αρχειοθέτησης δεδομένων για μια άλλη υπηρεσία. Σε μια τέτοια περίπτωση, το Athena DB θα γινόταν ένα φθηνό εφεδρικό μέρος για όλα τα δεδομένα που δεν χρειάζεστε αυτήν τη στιγμή, αλλά μπορεί να αλλάξει στο μέλλον. Σε αυτό το σημείο, απλώς θα απορροφήσετε τα δεδομένα και θα τα στείλετε περαιτέρω.

Αποθήκη δεδομένων από το AWS Redshift

Πηγή: aws.amazon.com

Η αποθήκη δεδομένων είναι ένα μέρος όπου τα δεδομένα αποθηκεύονται με πολύ δομημένο τρόπο. Εύκολη φόρτωση και εξαγωγή. Η πρόθεση είναι να εκτελεστεί ένας μεγάλος αριθμός πολύ σύνθετων ερωτημάτων, ενώνοντας πολλούς πίνακες μέσω σύνθετων συνδέσεων. Υπάρχουν διάφορες αναλυτικές συναρτήσεις για τον υπολογισμό διαφόρων στατιστικών στοιχείων για τα υπάρχοντα δεδομένα. Ο απώτερος στόχος είναι η εξαγωγή μελλοντικών προβλέψεων και γεγονότων που θα αξιοποιηθούν στη μελλοντική επιχείρηση, χρησιμοποιώντας υπάρχοντα δεδομένα.

Το Redshift είναι ένα πλήρες σύστημα αποθήκης δεδομένων. Με διακομιστές συμπλέγματος για συντονισμό και κλίμακα – οριζόντια και κάθετα και ένα σύστημα αποθήκευσης βάσης δεδομένων βελτιστοποιημένο για γρήγορες επιστροφές σύνθετων ερωτημάτων. Αν και σήμερα μπορείτε να εκτελέσετε το Redshift και σε λειτουργία χωρίς διακομιστή. Δεν υπάρχουν αρχεία στο S3 ή κάτι παρόμοιο. Αυτός είναι ένας τυπικός διακομιστής συμπλέγματος βάσεων δεδομένων με τη δική του μορφή αποθήκευσης.

  Συντομεύσεις πληκτρολογίου για το Ημερολόγιο Google: Ένα φύλλο εξαπάτησης

Διαθέτει εργαλεία παρακολούθησης απόδοσης εκτός συσκευασίας, μαζί με προσαρμόσιμες μετρήσεις του ταμπλό που μπορείτε να χρησιμοποιήσετε και να παρακολουθήσετε για να ρυθμίσετε με ακρίβεια την απόδοση για την περίπτωση χρήσης σας. Η διαχείριση είναι επίσης προσβάσιμη μέσω ξεχωριστών πινάκων εργαλείων. Χρειάζεται κάποια προσπάθεια για να κατανοήσουμε όλες τις πιθανές δυνατότητες και ρυθμίσεις και πώς επηρεάζουν το σύμπλεγμα. Ωστόσο, δεν είναι πουθενά τόσο περίπλοκη όσο η διαχείριση των διακομιστών Oracle στην περίπτωση των λύσεων εσωτερικής εγκατάστασης.

Παρόλο που υπάρχουν διάφορα όρια AWS στο Redshift που θέτουν ορισμένα όρια για τον τρόπο χρήσης του σε καθημερινή βάση (για παράδειγμα, αυστηρά όρια στον αριθμό των ταυτόχρονων ενεργών χρηστών ή περιόδων σύνδεσης σε ένα σύμπλεγμα βάσης δεδομένων), το γεγονός ότι οι λειτουργίες είναι Η εκτέλεση πολύ γρήγορα βοηθά στην αντιμετώπιση αυτών των ορίων σε κάποιο βαθμό.

Υπέρ και κατά

Τα οφέλη που πρέπει να λάβετε υπόψη:

  • Εγγενής υπηρεσία αποθήκευσης δεδομένων cloud AWS που είναι εύκολο να ενσωματωθεί με άλλες υπηρεσίες.
  • Ένα κεντρικό μέρος για την αποθήκευση, την παρακολούθηση και την απορρόφηση διαφόρων τύπων πηγών δεδομένων από πολύ διαφορετικά συστήματα πηγών.
  • Αν θελήσατε ποτέ να έχετε μια αποθήκη δεδομένων χωρίς διακομιστή χωρίς την υποδομή για τη συντήρησή της, τώρα μπορείτε.
  • Βελτιστοποιημένο για ανάλυση και αναφορά υψηλής απόδοσης. Σε αντίθεση με μια λύση λίμνης δεδομένων, υπάρχει ένα ισχυρό μοντέλο σχεσιακών δεδομένων για την αποθήκευση όλων των εισερχόμενων δεδομένων.
  • Η μηχανή βάσης δεδομένων Redshift προέρχεται από την PostgreSQL, η οποία εξασφαλίζει υψηλή συμβατότητα με άλλα συστήματα βάσεων δεδομένων.
  • Πολύ χρήσιμες δηλώσεις COPY και UNLOAD για τη φόρτωση και την εκφόρτωση των δεδομένων από και προς τους κάδους S3.

Τα μειονεκτήματα που πρέπει να ληφθούν υπόψη:

  • Το Redshift δεν υποστηρίζει μεγάλο αριθμό ταυτόχρονων ενεργών περιόδων σύνδεσης. Οι συνεδρίες θα τεθούν σε αναμονή και θα διεκπεραιωθούν διαδοχικά. Αν και μπορεί να μην είναι πρόβλημα στις περισσότερες περιπτώσεις, καθώς οι λειτουργίες είναι πραγματικά γρήγορες, είναι περιοριστικός παράγοντας σε συστήματα με πολλούς ενεργούς χρήστες.
  • Παρόλο που το Redshift υποστηρίζει πολλές λειτουργίες που ήταν προηγουμένως γνωστές από ώριμα συστήματα Oracle, εξακολουθεί να μην βρίσκεται στο ίδιο επίπεδο. Μερικές από τις αναμενόμενες λειτουργίες μπορεί απλώς να μην υπάρχουν (όπως οι ενεργοποιητές DB). Ή το Redshift τα υποστηρίζει σε αρκετά περιορισμένη μορφή (όπως υλοποιημένες απόψεις).
  • Κάθε φορά που χρειάζεστε μια πιο προηγμένη εργασία προσαρμοσμένης επεξεργασίας δεδομένων, πρέπει να τη δημιουργήσετε από την αρχή. Τις περισσότερες φορές, χρησιμοποιήστε γλώσσα κώδικα Python ή Javascript. Δεν είναι τόσο φυσικό όσο το PL/SQL στην περίπτωση του συστήματος Oracle, όπου ακόμη και η συνάρτηση και οι διαδικασίες χρησιμοποιούν μια γλώσσα πολύ παρόμοια με τα ερωτήματα SQL.

Σκοπός και περίπτωση χρήσης πραγματικού κόσμου

Το Redshift μπορεί να είναι το κεντρικό σας κατάστημα για όλες τις διάφορες πηγές δεδομένων που προηγουμένως ζούσαν εκτός του cloud. Είναι μια έγκυρη αντικατάσταση για προηγούμενες λύσεις αποθήκης δεδομένων της Oracle. Δεδομένου ότι είναι επίσης μια σχεσιακή βάση δεδομένων, η μετεγκατάσταση από την Oracle είναι ακόμη μια αρκετά απλή λειτουργία.

Εάν έχετε υπάρχουσες λύσεις αποθήκης δεδομένων σε πολλά μέρη που δεν είναι πραγματικά ενοποιημένες ως προς την προσέγγιση, τη δομή ή ένα προκαθορισμένο σύνολο κοινών διεργασιών που εκτελούνται πάνω από τα δεδομένα, το Redshift είναι μια εξαιρετική επιλογή.

Θα σας δώσει απλώς την ευκαιρία να συγχωνεύσετε όλα τα διάφορα συστήματα αποθήκης δεδομένων από διαφορετικά μέρη και χώρες κάτω από μια στέγη. Μπορείτε ακόμα να τα διαχωρίσετε ανά χώρα, ώστε τα δεδομένα να παραμένουν ασφαλή και προσβάσιμα μόνο σε όσους τα χρειάζονται. Αλλά ταυτόχρονα, θα σας επιτρέψει να δημιουργήσετε μια ενοποιημένη λύση αποθήκης που θα καλύπτει όλα τα εταιρικά δεδομένα.

Μια άλλη περίπτωση μπορεί να είναι εάν ο στόχος είναι η δημιουργία μιας πλατφόρμας αποθήκης δεδομένων με την εκτεταμένη υποστήριξη αυτοεξυπηρέτησης. Μπορείτε να το κατανοήσετε ως ένα σύνολο επεξεργασίας που μπορούν να δημιουργήσουν μεμονωμένοι χρήστες του συστήματος. Αλλά ταυτόχρονα, δεν αποτελούν ποτέ μέρος της λύσης κοινής πλατφόρμας. Αυτό σημαίνει ότι τέτοιες υπηρεσίες θα παραμείνουν προσβάσιμες μόνο στον δημιουργό ή την ομάδα ατόμων που ορίζονται από το δημιουργημένο. Δεν θα επηρεάσουν τους υπόλοιπους χρήστες με κανέναν τρόπο.

Ελέγξτε τη σύγκρισή μας μεταξύ Datalake και Datawarehouse.

Lakehouse από την Databricks στο AWS

Πηγή: databricks.com

  Διορθώστε τη διεύθυνση ηλεκτρονικού ταχυδρομείου που δεν βρέθηκε στο Gmail

Το Lakehouse είναι ένας όρος που συνδέεται πραγματικά με την υπηρεσία Databricks. Ακόμα κι αν δεν είναι μια εγγενής υπηρεσία AWS, ζει και λειτουργεί μέσα στο οικοσύστημα AWS πολύ όμορφα και παρέχει διάφορες επιλογές για τον τρόπο σύνδεσης και ενοποίησης με άλλες υπηρεσίες AWS.

Τα τούβλα δεδομένων στοχεύουν στη σύνδεση μεταξύ τους (προηγουμένως) πολύ διακριτών περιοχών:

  • Μια λύση για αποθήκευση δεδομένων σε λίμνη αδόμητων, ημιδομημένων και δομημένων δεδομένων.
  • Μια λύση για δομημένα και ταχέως προσβάσιμα δεδομένα ερωτημάτων αποθήκης δεδομένων (ονομάζεται επίσης Delta Lake).
  • Μια λύση που υποστηρίζει την ανάλυση και τη μηχανική μάθηση υπολογιστών πάνω από τη λίμνη δεδομένων.
  • Διακυβέρνηση δεδομένων για όλους τους παραπάνω τομείς με κεντρική διαχείριση και out-of-the-box εργαλεία για την υποστήριξη της παραγωγικότητας για διαφορετικούς τύπους προγραμματιστών και χρηστών.

Είναι μια κοινή πλατφόρμα που μπορούν να χρησιμοποιούν ταυτόχρονα οι μηχανικοί δεδομένων, οι προγραμματιστές SQL και οι επιστήμονες δεδομένων μηχανικής μάθησης. Κάθε μία από τις ομάδες έχει επίσης ένα σύνολο εργαλείων που μπορούν να χρησιμοποιήσουν για να ολοκληρώσουν τις εργασίες τους.

Έτσι, τα Databricks στοχεύουν σε μια λύση jack-of-all-trades, προσπαθώντας να συνδυάσουν τα οφέλη της λίμνης δεδομένων και της αποθήκης δεδομένων σε μια ενιαία λύση. Επιπλέον, παρέχει τα εργαλεία για τη δοκιμή και την εκτέλεση μοντέλων μηχανικής εκμάθησης απευθείας σε ήδη κατασκευασμένες αποθήκες δεδομένων.

Υπέρ και κατά

Τα οφέλη που πρέπει να λάβετε υπόψη:

  • Το Databricks είναι μια εξαιρετικά επεκτάσιμη πλατφόρμα δεδομένων. Κλιμακώνεται ανάλογα με το μέγεθος του φόρτου εργασίας και το κάνει ακόμη και αυτόματα.
  • Είναι ένα περιβάλλον συνεργασίας για επιστήμονες δεδομένων, μηχανικούς δεδομένων και επιχειρηματικούς αναλυτές. Το να έχετε τη δυνατότητα να τα κάνετε όλα αυτά στον ίδιο χώρο και μαζί είναι μεγάλο όφελος. Όχι μόνο από οργανωτική άποψη, αλλά συμβάλλει επίσης στην εξοικονόμηση άλλου κόστους που διαφορετικά απαιτείται για ξεχωριστά περιβάλλοντα.
  • Το AWS Databricks ενσωματώνεται απρόσκοπτα με άλλες υπηρεσίες AWS, όπως το Amazon S3, το Amazon Redshift και το Amazon EMR. Αυτό επιτρέπει στους χρήστες να μεταφέρουν εύκολα δεδομένα μεταξύ των υπηρεσιών και να επωφεληθούν από το πλήρες φάσμα των υπηρεσιών cloud AWS.

Τα μειονεκτήματα που πρέπει να ληφθούν υπόψη:

  • Τα τούβλα δεδομένων μπορεί να είναι πολύπλοκα στη ρύθμιση και τη διαχείριση, ειδικά για χρήστες που είναι νέοι στην επεξεργασία μεγάλων δεδομένων. Απαιτείται σημαντικό επίπεδο τεχνικής τεχνογνωσίας για να αξιοποιήσετε στο έπακρο την πλατφόρμα.
  • Ενώ το Databricks είναι οικονομικά αποδοτικό από την άποψη του μοντέλου τιμολόγησης του pay-as-you-go, μπορεί να είναι ακόμα ακριβό για μεγάλα έργα επεξεργασίας δεδομένων. Το κόστος χρήσης της πλατφόρμας μπορεί να αυξηθεί γρήγορα, ειδικά εάν οι χρήστες πρέπει να αυξήσουν τους πόρους τους.
  • Το Databricks παρέχει μια σειρά από προκατασκευασμένα εργαλεία και πρότυπα, αλλά αυτό μπορεί επίσης να αποτελεί περιορισμό για τους χρήστες που χρειάζονται περισσότερες επιλογές προσαρμογής. Η πλατφόρμα ενδέχεται να μην είναι κατάλληλη για χρήστες που απαιτούν μεγαλύτερη ευελιξία και έλεγχο στις ροές εργασίας επεξεργασίας μεγάλων δεδομένων.

Σκοπός και περίπτωση χρήσης πραγματικού κόσμου

Το AWS Databricks είναι το πλέον κατάλληλο για μεγάλες εταιρείες με πολύ μεγάλο όγκο δεδομένων. Εδώ μπορεί να καλύψει την απαίτηση φόρτωσης και δημιουργίας συμφραζομένων διαφόρων πηγών δεδομένων από διαφορετικά εξωτερικά συστήματα.

Συχνά η απαίτηση είναι η παροχή δεδομένων σε πραγματικό χρόνο. Αυτό σημαίνει ότι από τη στιγμή που τα δεδομένα εμφανίζονται στο σύστημα προέλευσης, οι διεργασίες θα παραλαμβάνουν αμέσως και θα επεξεργάζονται και θα αποθηκεύουν τα δεδομένα σε Databricks αμέσως ή με ελάχιστη καθυστέρηση. Εάν η καθυστέρηση είναι κάτι παραπάνω από ένα λεπτό, θεωρείται επεξεργασία σχεδόν σε πραγματικό χρόνο. Σε κάθε περίπτωση, και τα δύο σενάρια είναι συχνά εφικτά με την πλατφόρμα Databricks. Αυτό οφείλεται κυρίως στον εκτεταμένο αριθμό προσαρμογέων και διεπαφών σε πραγματικό χρόνο που συνδέονται με διάφορες άλλες εγγενείς υπηρεσίες AWS.

Το Databricks επίσης ενσωματώνεται εύκολα με τα συστήματα Informatica ETL. Όποτε το σύστημα οργάνωσης χρησιμοποιεί ήδη εκτενώς το οικοσύστημα Informatica, το Databricks μοιάζει με μια καλή συμβατή προσθήκη στην πλατφόρμα.

Τελικές Λέξεις

Καθώς ο όγκος των δεδομένων συνεχίζει να αυξάνεται εκθετικά, είναι καλό να γνωρίζετε ότι υπάρχουν λύσεις που μπορούν να το αντιμετωπίσουν αποτελεσματικά. Αυτό που κάποτε ήταν εφιάλτης για διαχείριση και διατήρηση τώρα απαιτεί πολύ λίγη διοικητική δουλειά. Η ομάδα μπορεί να επικεντρωθεί στη δημιουργία αξίας από τα δεδομένα.

Ανάλογα με τις ανάγκες σας, απλώς επιλέξτε την υπηρεσία που μπορεί να το χειριστεί. Ενώ τα AWS Databricks είναι κάτι στο οποίο πιθανότατα θα πρέπει να τηρήσετε μετά τη λήψη της απόφασης, οι άλλες εναλλακτικές λύσεις είναι αρκετά πιο ευέλικτες, ακόμη και αν είναι λιγότερο ικανές, ειδικά οι λειτουργίες χωρίς διακομιστή. Είναι αρκετά εύκολο να μεταφερθείτε σε άλλη λύση αργότερα.