Τι δεν ξέρατε για την κόλλα AWS

Το Amazon Glue κερδίζει δημοτικότητα επειδή πολλές εταιρείες έχουν αρχίσει να χρησιμοποιούν υπηρεσίες ενοποίησης διαχειριζόμενων δεδομένων.

Το ETL είναι μια διαδικασία που μεταφέρει δεδομένα από μια βάση δεδομένων πηγής σε μια αποθήκη δεδομένων. Το ETL είναι πολύπλοκο και δύσκολο να εφαρμοστεί για όλα τα εταιρικά δεδομένα λόγω της πολυπλοκότητάς του. Η Amazon παρουσίασε το AWS Glue για να αντιμετωπίσει αυτό το πρόβλημα.

Οι προγραμματιστές και οι μηχανικοί δεδομένων ETL χρησιμοποιούν το Glue για τη δημιουργία, την παρακολούθηση και την εκτέλεση ροών εργασίας ETL.

Τι είναι η κόλλα AWS;

Το AWS Glue, μια υπηρεσία ενοποίησης δεδομένων χωρίς διακομιστή, διευκολύνει την εύρεση, προετοιμασία, μετακίνηση και ενσωμάτωση δεδομένων από πολλές πηγές. Αυτό είναι χρήσιμο για μηχανική εκμάθηση (ML) και αναλυτικά στοιχεία.

Μειώνει δραματικά τον χρόνο που απαιτείται για την προετοιμασία των δεδομένων για ανάλυση. Βρίσκει και παραθέτει αυτόματα τα δεδομένα, δημιουργεί κώδικα Scala ή Python για τη μετάδοση των δεδομένων από την πηγή και φορτώνει και μετασχηματίζει την εργασία σύμφωνα με τα χρονομετρημένα συμβάντα.

Αυτό επιτρέπει τον ευέλικτο προγραμματισμό και δημιουργεί ένα περιβάλλον Apache Spark που μπορεί να κλιμακωθεί για στοχευμένη φόρτωση δεδομένων. Επιπλέον, το AWS Glue παρέχει σύνθετη παρακολούθηση και αλλαγή ροής δεδομένων. Το AWS Glue είναι μια υπηρεσία χωρίς διακομιστή που απλοποιεί τις πολύπλοκες λειτουργίες της ανάπτυξης εφαρμογών.

Επιτρέπει τη γρήγορη ενσωμάτωση πολλαπλών έγκυρων δεδομένων. Επίσης, αναλύει και εξουσιοδοτεί τα δεδομένα γρήγορα.

Σε τι χρησιμοποιείται η κόλλα AWS;

Είναι σημαντικό να γνωρίζετε τα καλύτερα μέρη για να χρησιμοποιήσετε το Amazon Glue. Αυτά είναι μερικά μόνο παραδείγματα χρήσεων της κόλλας AWS που πρέπει να λάβετε υπόψη.

  • Το Glue είναι ένα εργαλείο που σας επιτρέπει να εκτελείτε ερωτήματα χωρίς διακομιστή στις λίμνες δεδομένων Amazon S3. Το Amazon Glue είναι ένα εξαιρετικό εργαλείο για να ξεκινήσετε. Κάνει όλα τα δεδομένα σας προσβάσιμα σε μία διεπαφή, επιτρέποντάς σας να τα αναλύσετε χωρίς να χρειάζεται να τα μετακινήσετε.
  • Το Amazon Glue μπορεί να χρησιμοποιηθεί για την κατανόηση των στοιχείων σας. Το Amazon Glue σας διευκολύνει να αναζητήσετε διαφορετικά σύνολα δεδομένων AWS χρησιμοποιώντας τον Κατάλογο Δεδομένων. Μπορείτε επίσης να αποθηκεύσετε δεδομένα σε πολλές υπηρεσίες AWS χρησιμοποιώντας τον Κατάλογο Δεδομένων, ενώ εξακολουθείτε να έχετε μια συνεπή προβολή.
  • Η κόλλα μπορεί να είναι χρήσιμη κατά τη δημιουργία ροών εργασίας ETL που βασίζονται σε συμβάντα. Μπορείτε να εκτελέσετε τις λειτουργίες ETL από το Amazon S3 καλώντας τις εργασίες σας Glue ETL μέσω μιας υπηρεσίας AWS Lambda.
  • Το AWS Glue μπορεί επίσης να χρησιμοποιηθεί για τον καθαρισμό, την επαλήθευση, τη μορφοποίηση και την οργάνωση δεδομένων για αποθήκευση σε λίμνη δεδομένων ή αποθήκη.

Ποια είναι τα συστατικά της κόλλας AWS;

Παρακάτω είναι τα κύρια συστατικά της κόλλας AWS:

  • Κατάλογος δεδομένων: Αυτός ο κατάλογος δεδομένων περιέχει μεταδεδομένα και τη δομή δεδομένων.
  • Βάση δεδομένων: Αυτό είναι το κλειδί για την πρόσβαση και τη δημιουργία της βάσης δεδομένων για πηγές και στόχους.
  • Πίνακας: Δημιουργήστε έναν ή περισσότερους πίνακες στη βάση δεδομένων που μπορούν να χρησιμοποιηθούν τόσο από τον στόχο όσο και από την πηγή.
  • Ανιχνευτής και ταξινομητής: Ο ανιχνευτής ανακτά δεδομένα από την πηγή χρησιμοποιώντας είτε ενσωματωμένες είτε προσαρμοσμένες ταξινομήσεις. Δημιουργεί/χρησιμοποιεί προκαθορισμένους πίνακες μεταδεδομένων στον κατάλογο δεδομένων.
  • Εργασία: Αυτή είναι η δουλειά της επιχειρηματικής λογικής για την εκτέλεση μιας εργασίας ETL. Αυτή η επιχειρηματική λογική γράφεται εσωτερικά από τον Apache Spark χρησιμοποιώντας γλώσσες python και scala.
  • Έναυσμα: Μια ενεργοποίηση ETL είναι μια συσκευή που εκκινεί την εκτέλεση μιας εργασίας ETL κατ’ απαίτηση ή σε μια συγκεκριμένη χρονική στιγμή.
  • Τέλος για ανάπτυξη: Αυτό δημιουργεί ένα περιβάλλον στο οποίο το σενάριο εργασίας ETL δοκιμάζεται, αναπτύσσεται και διορθώνεται.
  Πώς να προσαρμόσετε την Αναζήτηση Spotlight σε iPhone και iPad

Πλεονεκτήματα της κόλλας AWS

Αυτά είναι τα οφέλη από τη χρήση του στο χώρο εργασίας σας ή σε έναν οργανισμό.

  • Το AWS Glue σαρώνει όλα τα διαθέσιμα δεδομένα με έναν ανιχνευτή.
  • Τα τελικά επεξεργασμένα δεδομένα μπορούν να αποθηκευτούν σε πολλά μέρη (Amazon RDS και Amazon Redshift, Amazon S3 κ.λπ.
  • Είναι μια υπηρεσία που βασίζεται σε σύννεφο. Δεν χρειάζεται να ξοδέψετε χρήματα σε υποδομές εντός των εγκαταστάσεων.
  • Επειδή είναι ένα ETL χωρίς διακομιστή, είναι μια οικονομικά αποδοτική επιλογή.
  • Είναι γρήγορο. Σας δίνει αμέσως τον κώδικα Python/Scala ETL.

Κορυφαία χαρακτηριστικά της κόλλας AWS;

Το Amazon Glue διαθέτει όλες τις λειτουργίες που χρειάζεστε για να ενσωματώσετε δεδομένα, ώστε να μπορείτε να λαμβάνετε καλύτερες πληροφορίες και να χρησιμοποιείτε τις γνώσεις σας για να κάνετε νέες προόδους σε λίγα λεπτά αντί για μήνες. Εδώ είναι μερικά από τα χαρακτηριστικά που πρέπει να γνωρίζετε.

  • Διασύνδεση μεταφοράς και απόθεσης: Ένα πρόγραμμα επεξεργασίας εργασιών μεταφοράς και απόθεσης σάς επιτρέπει να δημιουργήσετε μια διαδικασία ETL. Το AWS Glue θα δημιουργήσει αμέσως τον κώδικα που απαιτείται για την εξαγωγή, τη μετατροπή και τη μεταφόρτωση των δεδομένων.
  • Automatic Schema Discovery: Για να δημιουργήσετε προγράμματα ανίχνευσης που συνδέονται με διαφορετικές πηγές δεδομένων, μπορείτε να χρησιμοποιήσετε την υπηρεσία Glue. Οργανώνει δεδομένα και εξάγει σχετικές πληροφορίες. Αυτά τα δεδομένα μπορούν στη συνέχεια να χρησιμοποιηθούν για την παρακολούθηση διεργασιών ETL από εργασίες ETL.
  • Προγραμματισμός εργασιών: Η κόλλα μπορεί να χρησιμοποιηθεί είτε κατά παραγγελία είτε σύμφωνα με ένα προγραμματισμένο πρόγραμμα. Ο χρονοπρογραμματιστής μπορεί να χρησιμοποιηθεί για την κατασκευή πολύπλοκων αγωγών ETL, δημιουργώντας εξαρτήσεις μεταξύ των εργασιών.
  • Δημιουργία κώδικα: Το Glue Elastic Views σάς επιτρέπει να δημιουργείτε εύκολα υλοποιημένες προβολές που συνδυάζουν και αναπαράγουν δεδομένα από διαφορετικές πηγές δεδομένων χωρίς να χρειάζεται να γράψετε ιδιόκτητο κώδικα.
  • Ενσωματωμένη μηχανική εκμάθηση: Το Glue συνοδεύεται από μια ενσωματωμένη λειτουργία μηχανικής εκμάθησης που ονομάζεται «FindMatches». Αφαιρεί τους δίσκους που δεν είναι τέλεια αντίγραφα ο ένας του άλλου.
  • Τελικά σημεία προγραμματιστή: Εάν θέλετε να αναπτύξετε ενεργά τον κώδικα ETL σας, το Glue παρέχει τελικά σημεία προγραμματιστή που σας επιτρέπουν να τροποποιήσετε, να διορθώσετε σφάλματα και να δοκιμάσετε τον κώδικα που δημιουργεί.
  • Glue DataBrew: Είναι ένα εργαλείο προετοιμασίας δεδομένων που μπορεί να χρησιμοποιηθεί από αναλυτές δεδομένων και επιστήμονες δεδομένων για να τους βοηθήσει να καθαρίσουν και να ομαλοποιήσουν τα δεδομένα. Χρησιμοποιεί την ενεργή και οπτική διεπαφή του Glue DataBrew.

Πώς λειτουργεί το AWS Glue Pricing;

Το AWS Glue χρεώνει μια ωριαία χρέωση, η οποία χρεώνεται ανά δευτερόλεπτο για προγράμματα ανίχνευσης (ανακάλυψη των δεδομένων) και εργασίες ETL (επεξεργασία και φόρτωση των δεδομένων). Χρεώνεται μια απλή μηνιαία χρέωση για την πρόσβαση και την αποθήκευση μεταδεδομένων στον Κατάλογο δεδομένων κόλλας AWS.

  Πώς να μετρήσετε την παραγωγικότητα εργασίας από το σπίτι των απομακρυσμένων εργαζομένων

Το Amazon Glue ξεκινά από 0,44 $. Μπορείτε να επιλέξετε από τέσσερα σχέδια:

  • Οι εργασίες ETL, τα τελικά σημεία ανάπτυξης και άλλες εργασίες ETL είναι διαθέσιμα στα 0,44 $
  • Οι διαδραστικές συνεδρίες Crawlers είναι διαθέσιμες στα 0,44 $
  • Οι εργασίες DataBrew ξεκινούν από 0,48 $
  • Η μηνιαία αποθήκευση και τα αιτήματα στον Κατάλογο Δεδομένων κοστίζουν 1,00 $

Η AWS δεν προσφέρει δωρεάν σχέδιο κόλλας. Κάθε ώρα θα κοστίζει 0,44 $ ανά DPU. Κατά μέσο όρο, θα σας κόστιζε 21 $ την ημέρα. Οι τιμές μπορεί να διαφέρουν ανάλογα με τον τόπο διαμονής σας.

Βήματα για τη ρύθμιση της κόλλας AWS

Ο Κατάλογος Δεδομένων μπορεί να χρησιμοποιηθεί για γρήγορη εύρεση και αναζήτηση πολλαπλών συνόλων δεδομένων AWS χωρίς να χρειάζεται να μετακινήσετε τα δεδομένα. Αφού καταγραφούν τα δεδομένα, είναι άμεσα διαθέσιμα για αναζήτηση και αναζήτηση χρησιμοποιώντας το Amazon Athena και το Amazon EMR.

Αναφορά: https://aws.amazon.com/glue/

  • Amazon Redshift, Amazon S3, Amazon RDS και βάσεις δεδομένων στο Amazon EC2 – Ανακαλύψτε τα δεδομένα σας, αποθηκεύστε τα μεταδεδομένα και χρησιμοποιήστε τον Κατάλογο δεδομένων κόλλας AWS για να τα ανακαλύψετε
  • Κατάλογος δεδομένων AWS Glue – Διαχειριστείτε δεδομένα με τον κατάλογο δεδομένων να λειτουργεί ως κεντρικός χώρος αποθήκευσης για μεταδεδομένα
  • AWS Glue ETL – Διαβάστε και γράψτε μεταδεδομένα στον κατάλογο δεδομένων σας
  • Amazon Athena και Amazon Redshift, Amazon EMR, Amazon ETL – Λάβετε τον κατάλογο δεδομένων για ETL, αναλυτικά στοιχεία και άλλα.

Πώς να ρυθμίσετε την κόλλα AWS;

Αρχικά, συνδεθείτε στην Κονσόλα διαχείρισης AWS και ανοίξτε την κονσόλα IAM. Κάντε κλικ στο Δημιουργία ρόλου. Στη συνέχεια, για τον τύπο ρόλου, βρείτε το Glue και επιλέξτε Permissions.

Επιλέγω το AWSGlueServiceRole για γενικές άδειες AWS Glue Studio και AWS Glue και την πολιτική AmazonS3FullAccess που διαχειρίζεται το AWS για πρόσβαση στους πόρους του Amazon S3.

Εισαγάγετε ένα όνομα ρόλου.

Κάντε κλικ στο Δημιουργία ρόλου.

Δημιουργήστε έναν κάδο Amazon S3.

Δημιουργήστε έναν φάκελο μέσα στον κάδο S3.

Επιλέξτε το αρχείο που θέλετε να ανεβάσετε.

Τέλος, ανεβάστε το αρχείο στον κάδο.

Στη συνέχεια, ανοίξτε το AWS Glue από την κονσόλα διαχείρισης AWS και δημιουργήστε μια βάση δεδομένων.

Τώρα που έχετε μια βάση δεδομένων στο AWS Glue, δημιουργήστε ένα πρόγραμμα ανίχνευσης.

Στην προέλευση δεδομένων, επιλέξτε τον κάδο S3 που δημιουργήσατε.

Στη συνέχεια, επιλέξτε τον ρόλο IaM για το AWS Glue που δημιουργήσατε στην αρχή.

Τέλος, στην έξοδο επιλέξτε gluedb που δημιουργήσατε.

Ελέγξτε όλες τις ρυθμίσεις και δημιουργήστε το πρόγραμμα ανίχνευσης.

Μόλις δημιουργηθεί ο ανιχνευτής, επιλέξτε τον και κάντε κλικ στο Εκτέλεση. Μετά από κάποιο χρονικό διάστημα, θα ετοιμάσετε την κατάσταση.

Με την εκτέλεση του προγράμματος ανίχνευσης, η βάση δεδομένων θα λάβει έναν πίνακα με όλα τα δεδομένα από το αρχείο CSV.

Όταν κάνετε κλικ στην προβολή δεδομένων, θα μεταφερθείτε στο Amazon Athena (επεξεργαστής ερωτημάτων). Όταν εκτελείτε το ερώτημα, μπορείτε να δείτε τα δεδομένα του πίνακα.

Τώρα μπορείτε να χρησιμοποιήσετε με επιτυχία αυτό το πρόγραμμα ανίχνευσης κόλλας AWS σε οποιαδήποτε εργασία ETL.

Τι είναι το AWS Glue Databrew;

Το AWS Glue DataBrew επιτρέπει στους χρήστες να ομαλοποιούν και να καθαρίζουν τα δεδομένα χωρίς να γράφουν κώδικα. Το DataBrew μπορεί να μειώσει τον χρόνο που απαιτείται για την προετοιμασία δεδομένων για μηχανική εκμάθηση και ανάλυση έως και 80 τοις εκατό σε σύγκριση με την προσαρμοσμένη προετοιμασία δεδομένων.

Υπάρχουν πάνω από 250 προκατασκευασμένοι μετασχηματισμοί δεδομένων που μπορούν να χρησιμοποιηθούν για την αυτοματοποίηση εργασιών προετοιμασίας δεδομένων, όπως φιλτράρισμα ανωμαλιών, διόρθωση μη έγκυρων τιμών και μετατροπή δεδομένων σε τυπικές μορφές.

  Πώς να αντιμετωπίσετε προβλήματα με τον αισθητήρα καρδιακού παλμού του Apple Watch σας

Το DataBrew διευκολύνει τους επιστήμονες δεδομένων, τους επιχειρησιακούς αναλυτές και τους μηχανικούς να συνεργάζονται για την εξαγωγή πληροφοριών από ακατέργαστα δεδομένα. Το DataBrew είναι χωρίς διακομιστή, επομένως δεν χρειάζεται να διαχειρίζεστε υποδομές ή να δημιουργείτε συμπλέγματα για να εξερευνήσετε και να μετατρέψετε ακατέργαστα δεδομένα αξίας terabyte.

Λειτουργίες DataBrew για επιχειρήσεις

Προετοιμασία οπτικοποιημένων δεδομένων

Το DataBrew είναι ένας διαφορετικός τρόπος προβολής δεδομένων που συνήθως προβάλλονται σε στηλώδεις βάσεις δεδομένων ως αλφαριθμητικοί αριθμοί. Το DataBrew οπτικοποιεί όλες τις φορτωμένες πηγές δεδομένων για να σας βοηθήσει να κατανοήσετε τις σχέσεις και την ιεραρχία δεδομένων.

250+ Αυτοματισμοί προετοιμασίας δεδομένων

Οι επιστήμονες δεδομένων αναμένεται να ακολουθούν μια ποικιλία επαναλαμβανόμενων, μεμονωμένων ροών εργασίας ως μέρος της δουλειάς τους. Αυτές οι ροές εργασίας και οι διεργασίες έχουν μοντελοποιηθεί από το AWS ως δομοστοιχεία γλωσσών και αγνωστικών δεδομένων. Αυτή η βιβλιοθήκη περιλαμβάνει ενέργειες που μπορούν να χρησιμοποιηθούν από τους τελικούς χρήστες.

Γενεαλογία Δεδομένων

Παρόμοια με τα αρχεία καταγραφής ελέγχου που χρησιμοποιούνται για την παρακολούθηση της δραστηριότητας πελατών σε ένα δίκτυο IT δικτύου, η σειρά δεδομένων σάς επιτρέπει να παρακολουθείτε τις δραστηριότητες μετασχηματισμού δεδομένων εντός του AWS DataBrew. Αυτές οι πληροφορίες περιλαμβάνουν την πηγή δεδομένων, τους μετασχηματισμούς που εφαρμόστηκαν και την έξοδο δεδομένων, συμπεριλαμβανομένης της θέσης στόχου.

Χαρτογράφηση δεδομένων

Το Databrew σάς επιτρέπει να βρείτε τα αντίστοιχα πεδία σε δύο πηγές δεδομένων. Μόλις εντοπιστούν τα αντίστοιχα πεδία, μπορούν να φορτωθούν σε ένα σχήμα.

AWS Glue DataBrew: Οφέλη

Παρακάτω είναι τα χαρακτηριστικά του AWS Glue DataBrew:

  • Χαμηλότερο εμπόδιο στην είσοδο για την προετοιμασία δεδομένων
  • Αυτοματοποιημένη δημιουργία προφίλ δεδομένων
  • Αυτοματοποιήστε 250+ διαδικασίες προετοιμασίας δεδομένων
  • Έξυπνες Συνταγογραφικές Προτάσεις

Εναλλακτικές λύσεις για την κόλλα AWS

Ροή αέρα

Η ροή αέρα ανήκει στην ενότητα Workflow Manager μιας στοίβας τεχνολογίας. Είναι ένα εργαλείο ανοιχτού κώδικα που υποστηρίζει αστέρια GitHub, πιρούνια GitHub και άλλες δυνατότητες. Η ροή αέρα σάς επιτρέπει να δημιουργείτε ροές εργασίας χρησιμοποιώντας κατευθυνόμενα ακυκλικά διαγράμματα (DAG). Ο προγραμματιστής ροής αέρα εκτελεί τις εργασίες σας χρησιμοποιώντας μια σειρά εργαζομένων και ακολουθώντας τις καθορισμένες εξαρτήσεις.

Matillion

Το Matillion ETL, ένα εργαλείο ETL/ELT, σχεδιάστηκε ρητά για πλατφόρμες βάσεων δεδομένων cloud όπως το Amazon Redshift και το Google BigQuery. Είναι μια σύγχρονη διεπαφή χρήστη που βασίζεται σε πρόγραμμα περιήγησης με ισχυρές δυνατότητες push-down ETL/ELT. Μπορείτε να ξεκινήσετε και να λειτουργήσετε μέσα σε λίγα λεπτά με μια γρήγορη ρύθμιση.

Βελονιά

Το Stitch είναι μια υπηρεσία ETL ανοιχτού κώδικα που συνδέει πολλαπλές πηγές δεδομένων και αναπαράγει δεδομένα σε προτιμώμενους προορισμούς. Είναι πολύ εύκολο στη χρήση, καθώς δεν χρειάζεστε γνώσεις κωδικοποίησης για να μετακινήσετε δεδομένα μεταξύ πηγών και προορισμών στο Stitch. Είναι εύκολο στη χρήση, έχει φιλικό γραφικό περιβάλλον και είναι γρήγορο.

Το Stitch δεν σας επιτρέπει να επιλέξετε έναν προκατασκευασμένο ταμπλό, σε αντίθεση με άλλα εργαλεία ETL. Αντίθετα, πρέπει να ενσωματώσετε τα δεδομένα σας στις ανοιχτές αποθήκες δεδομένων που επιλέγετε ως προορισμό. Μπορεί να είναι δύσκολη η πλοήγηση στα αποθέματα.

Alteryx

Το Alteryx είναι μια πλατφόρμα αυτοματισμού αναλυτικών στοιχείων που βοηθά στην προετοιμασία και την ανάμειξη της συλλογής δεδομένων. Αυτά τα δεδομένα μπορούν να χρησιμοποιηθούν για την επιτάχυνση των διαδικασιών και την παροχή πληροφοριών για τις επιχειρήσεις. Επειδή είναι ένα εργαλείο μεταφοράς και απόθεσης, δεν χρειάζεστε γνώσεις προγραμματισμού. Το Alteryx είναι ένα εξαιρετικό μέρος για να πάτε για συμβουλές και απαντήσεις από επαγγελματίες του κλάδου.

συμπέρασμα

Έτσι, όλα αυτά αφορούσαν το AWS Glue, το οποίο είναι μια λύση που βασίζεται σε σύννεφο που σας επιτρέπει να εργάζεστε με αγωγούς ETL. Συνοψίζοντας, η διαδικασία αλληλεπίδρασης του χρήστη AWS Glue αποτελείται από τρεις φάσεις. Για να δημιουργήσετε έναν κατάλογο δεδομένων, χρησιμοποιείτε πρώτα προγράμματα ανίχνευσης δεδομένων. Στη συνέχεια, δημιουργείτε τον κωδικό ETL που απαιτείται από τη γραμμή δεδομένων AWS. Τέλος, δημιουργείται το πρόγραμμα ETL. Ελπίζω αυτό το ιστολόγιο να σας έδωσε μια καλή επισκόπηση του Amazon Glue.

Μπορείτε επίσης να εξερευνήσετε τις καλύτερες συμβουλές για την ασφάλεια του χώρου αποθήκευσης AWS S3.