Εισαγωγή στο Amazon EMR (Elastic MapReduce) για αρχάριους

Η πληροφορική βρίσκεται στο αποκορύφωμά της αυτές τις μέρες και συνεχίζει να αυξάνεται. Μέσα στις τελευταίες 3 δεκαετίες, οι μηχανές έχουν εξελιχθεί και βελτιωθεί μια ολόκληρη δέσμη, ειδικά όσον αφορά την ισχύ επεξεργασίας και το multitasking.
Μπορείτε να φανταστείτε πόσο τρελή θα μπορούσε να είναι η ώθηση της απόδοσης εάν οι εργασίες μοιράζονται μεταξύ πολλών μηχανημάτων και εκτελούνται παράλληλα; Αυτό ονομάζεται κατανεμημένος υπολογισμός. Είναι σαν ομαδική εργασία για υπολογιστές.
Ωστόσο, ίσως αναρωτιέστε γιατί συζητάμε αυτό το θέμα των κατανεμημένων υπολογιστών. Επειδή η κατανεμημένη πληροφορική και Amazon EMR (Elastic MapReduce) έχουν μεγάλη σχέση. Δηλαδή, το EMR by AWS χρησιμοποιεί κατανεμημένες υπολογιστικές αρχές για την επεξεργασία και ανάλυση μεγάλων ποσοτήτων δεδομένων στο cloud.
Με το Amazon EMR, μπορείτε πλέον να αναλύετε και να επεξεργάζεστε μεγάλα δεδομένα χρησιμοποιώντας ένα κατανεμημένο πλαίσιο επεξεργασίας της επιλογής σας σε περιπτώσεις S3.
Πίνακας περιεχομένων
Πώς λειτουργεί το Amazon EMR;
Πηγή: aws.amazon.com
Πρώτον, εισαγάγετε τα δεδομένα σε οποιοδήποτε χώρο αποθήκευσης δεδομένων όπως το Amazon S3, το DynamoDB ή άλλες πλατφόρμες αποθήκευσης AWS, καθώς όλα ενσωματώνονται καλά με το EMR.
Τώρα, θα χρειαστείτε ένα πλαίσιο μεγάλων δεδομένων για την επεξεργασία και ανάλυση αυτών των δεδομένων. Με διάφορα πλαίσια μεγάλων δεδομένων για να διαλέξετε, όπως Apache Spark, Hadoop, Hive και Presto, μπορείτε να επιλέξετε αυτό που ταιριάζει στις απαιτήσεις σας και να το ανεβάσετε στο επιλεγμένο κατάστημα δεδομένων.
Δημιουργείται ένα σύμπλεγμα EMR περιπτώσεων EC2 για την παράλληλη επεξεργασία και ανάλυση των δεδομένων. Μπορείτε να διαμορφώσετε τον αριθμό των κόμβων και άλλες λεπτομέρειες για τη δημιουργία του συμπλέγματος.
Ο κύριος αποθηκευτικός σας χώρος διανέμει τα δεδομένα και τα πλαίσια σε αυτούς τους κόμβους, όπου τα κομμάτια δεδομένων επεξεργάζονται μεμονωμένα και τα αποτελέσματα συνδυάζονται.
Μόλις βγουν τα αποτελέσματα, μπορείτε να τερματίσετε το σύμπλεγμα για να αποδεσμεύσετε όλους τους πόρους που έχουν εκχωρηθεί.
Οφέλη του Amazon EMR
Οι επιχειρήσεις, είτε μικρές είτε μεγάλες, σκέφτονται πάντα να υιοθετούν οικονομικά αποδοτικές λύσεις. Τότε γιατί όχι ένα προσιτό Amazon EMR; Όταν μπορεί να απλοποιήσει την εκτέλεση διαφόρων πλαισίων μεγάλων δεδομένων στο AWS, παρέχοντας έναν βολικό τρόπο επεξεργασίας και ανάλυσης των δεδομένων σας εξοικονομώντας παράλληλα χρήματα.
✅ Ελαστικότητα: Μπορείτε να μαντέψετε τη φύση του μέσω του όρου ‘Elastic MapReduce’. Ο όρος λέει – Με βάση τις απαιτήσεις, το Amazon EMR σάς επιτρέπει να αλλάζετε εύκολα το μέγεθος των συμπλεγμάτων χειροκίνητα ή αυτόματα. Για παράδειγμα, μπορεί να χρειαστείτε 200 περιπτώσεις για να επεξεργαστείτε τα αιτήματά σας τώρα και αυτό μπορεί να φτάσει σε 600 περιπτώσεις μετά από μία ή δύο ώρες. Έτσι, το Amazon EMR είναι το καλύτερο όταν χρειάζεστε μόνο επεκτασιμότητα για να προσαρμοστείτε στις γρήγορες αλλαγές στη ζήτηση.
✅ Αποθήκες δεδομένων: Είτε πρόκειται για το Amazon S3, το κατανεμημένο σύστημα αρχείων Hadoop, το Amazon DynamoDB ή άλλα καταστήματα δεδομένων AWS, το Amazon EMR ενσωματώνεται απρόσκοπτα με αυτό.
✅ Εργαλεία επεξεργασίας δεδομένων: Το Amazon EMR υποστηρίζει διάφορα πλαίσια μεγάλων δεδομένων, συμπεριλαμβανομένων των Apache Spark, Hive, Hadoop και Presto. Επιπλέον, μπορείτε να εκτελέσετε αλγόριθμους και εργαλεία βαθιάς μάθησης και μηχανικής μάθησης σε αυτό το πλαίσιο.
✅ Οικονομικά: Σε αντίθεση με άλλα εμπορικά προϊόντα, το Amazon EMR σάς επιτρέπει να πληρώνετε μόνο για τους πόρους που χρησιμοποιείτε σε ωριαία βάση. Επιπλέον, μπορείτε να επιλέξετε από διαφορετικά μοντέλα τιμολόγησης που ευθυγραμμίζονται με τον προϋπολογισμό σας.
✅ Προσαρμογή συμπλέγματος: Το πλαίσιο σάς επιτρέπει να προσαρμόσετε κάθε παρουσία του συμπλέγματός σας. Επίσης, μπορείτε να συνδυάσετε ένα πλαίσιο μεγάλων δεδομένων με έναν τέλειο τύπο συμπλέγματος. Για παράδειγμα, οι παρουσίες που βασίζονται στο Apache Spark και το Graviton2 είναι ένας θανατηφόρος συνδυασμός για βελτιστοποιημένη απόδοση στο EMR.
✅ Στοιχεία ελέγχου πρόσβασης: Μπορείτε να αξιοποιήσετε τα εργαλεία AWS Identity and Access Management (IAM) για να ελέγξετε τα δικαιώματα στο EMR. Για παράδειγμα, μπορείτε να επιτρέψετε σε συγκεκριμένους χρήστες να επεξεργάζονται το σύμπλεγμα ενώ άλλοι μπορούν να προβάλλουν μόνο το σύμπλεγμα.
✅ Ενσωμάτωση: Η ενσωμάτωση του EMR με όλες τις άλλες υπηρεσίες AWS είναι απρόσκοπτη. Με αυτό, μπορείτε να αποκτήσετε τη δύναμη των εικονικών διακομιστών, την ισχυρή ασφάλεια, την επεκτάσιμη χωρητικότητα και τις δυνατότητες ανάλυσης στο EMR.
Περιπτώσεις χρήσης Amazon EMR
#1. Μηχανική Μάθηση
Αναλύστε τα δεδομένα χρησιμοποιώντας μηχανική μάθηση και βαθιά μάθηση στο Amazon EMR. Για παράδειγμα, η εκτέλεση διαφόρων αλγορίθμων σε δεδομένα που σχετίζονται με την υγεία για την παρακολούθηση πολλαπλών μετρήσεων υγείας, όπως ο δείκτης μάζας σώματος, ο καρδιακός ρυθμός, η αρτηριακή πίεση, το ποσοστό λίπους κ.λπ., είναι ζωτικής σημασίας για την ανάπτυξη ενός ιχνηλάτη φυσικής κατάστασης. Όλα αυτά μπορούν να γίνουν σε περιπτώσεις EMR πιο γρήγορα και πιο αποτελεσματικά.
#2. Εκτελέστε Μεγάλους Μετασχηματισμούς
Οι έμποροι λιανικής συνήθως αντλούν μεγάλο όγκο ψηφιακών δεδομένων για να αναλύσουν τη συμπεριφορά των πελατών και να βελτιώσουν την επιχείρηση. Στην ίδια γραμμή, το Amazon EMR θα είναι αποτελεσματικό στην άντληση μεγάλων δεδομένων και στην εκτέλεση μεγάλων μετασχηματισμών χρησιμοποιώντας το Spark.
#3. Εξόρυξη δεδομένων
Θέλετε να απευθυνθείτε σε ένα σύνολο δεδομένων που χρειάζεται πολύ χρόνο για να επεξεργαστεί; Το Amazon EMR είναι αποκλειστικό για την εξόρυξη δεδομένων και την προγνωστική ανάλυση σύνθετων συνόλων δεδομένων, ειδικά σε περιπτώσεις μη δομημένων δεδομένων. Επιπλέον, η αρχιτεκτονική του συμπλέγματος είναι εξαιρετική για παράλληλη επεξεργασία.
#4. Ερευνητικοί Σκοποί
Ολοκληρώστε την έρευνά σας με αυτό το οικονομικά αποδοτικό και αποδοτικό πλαίσιο που ονομάζεται Amazon EMR. Λόγω της επεκτασιμότητας του, σπάνια βλέπετε προβλήματα απόδοσης κατά την εκτέλεση μεγάλων συνόλων δεδομένων σε EMR. Έτσι, αυτό το πλαίσιο είναι ιδιαίτερα προσαρμοσμένο σε εργαστήρια έρευνας και ανάλυσης μεγάλων δεδομένων.
#5. Ροή σε πραγματικό χρόνο
Ένα άλλο σημαντικό πλεονέκτημα του Amazon EMR είναι η υποστήριξή του για ροή σε πραγματικό χρόνο. Δημιουργήστε επεκτάσιμους αγωγούς ροής δεδομένων σε πραγματικό χρόνο για διαδικτυακά παιχνίδια, ροή βίντεο, παρακολούθηση κυκλοφορίας και συναλλαγές μετοχών χρησιμοποιώντας το Apache Kafka και το Apache Flink στο Amazon EMR.
Πώς διαφέρει το EMR από το Amazon Glue και το Redshift;
AWS EMR εναντίον κόλλας
Οι δύο ισχυρές υπηρεσίες AWS – Amazon EMR και Amazon Glue έχουν κερδίσει μια πιστή παρατήρηση στην αντιμετώπιση των δεδομένων σας.
Η εξαγωγή δεδομένων από διάφορες πηγές, η μετατροπή και η φόρτωσή τους στις αποθήκες δεδομένων είναι γρήγορη και αποτελεσματική με το Amazon Glue, ενώ το Amazon EMR σάς βοηθά να επεξεργάζεστε τις εφαρμογές μεγάλων δεδομένων χρησιμοποιώντας Hadoop, Spark, Hive κ.λπ.
Βασικά, το AWS Glue σάς επιτρέπει να συλλέγετε και να προετοιμάζετε δεδομένα για ανάλυση και το Amazon EMR σας επιτρέπει να τα επεξεργαστείτε.
EMR εναντίον Redshift
Φανταστείτε τον εαυτό σας να περιηγείστε με συνέπεια στα δεδομένα σας και να τα ερωτάτε με ευκολία. Η SQL είναι κάτι που χρησιμοποιείτε συχνά για να το κάνετε αυτό. Στην ίδια γραμμή, το Redshift προσφέρει βελτιστοποιημένες διαδικτυακές υπηρεσίες αναλυτικής επεξεργασίας για εύκολη αναζήτηση μεγάλου όγκου δεδομένων χρησιμοποιώντας SQL.
Κατά την αποθήκευση δεδομένων, θα έχετε πρόσβαση σε εξαιρετικά επεκτάσιμο, ασφαλές και διαθέσιμο Amazon EMR που χρησιμοποιεί τρίτους παρόχους αποθήκευσης όπως το S3 και το DynamoDB. Αντίθετα, το Redshift έχει το δικό του επίπεδο δεδομένων, επιτρέποντάς σας να αποθηκεύετε δεδομένα σε μορφή στήλης.
Προσεγγίσεις βελτιστοποίησης κόστους Amazon EMR
#1. Ελάτε με μορφοποιημένα δεδομένα
Όσο μεγαλύτερα είναι τα δεδομένα, τόσο περισσότερος χρόνος χρειάζεται για την επεξεργασία τους. Επιπλέον, η τροφοδοσία ακατέργαστων δεδομένων απευθείας στο σύμπλεγμα το καθιστά ακόμη πιο περίπλοκο, παίρνοντας περισσότερο χρόνο για να βρείτε το τμήμα που σκοπεύετε να επεξεργαστείτε.
Έτσι, τα μορφοποιημένα δεδομένα συνοδεύονται από μεταδεδομένα σχετικά με στήλες, τύπο δεδομένων, μέγεθος και άλλα, χρησιμοποιώντας τα οποία μπορείτε να εξοικονομήσετε χρόνο σε αναζητήσεις και συναθροίσεις.
Επίσης, μειώστε το μέγεθος των δεδομένων σας αξιοποιώντας τεχνικές συμπίεσης δεδομένων, καθώς είναι συγκριτικά πιο εύκολο να επεξεργαστείτε μικρότερα σύνολα δεδομένων.
#2. Χρησιμοποιήστε προσιτές υπηρεσίες αποθήκευσης
Η αξιοποίηση οικονομικά αποδοτικών υπηρεσιών κύριας αποθήκευσης μειώνει τις σημαντικές δαπάνες σας για EMR. Το Amazon s3 είναι μια απλή και προσιτή υπηρεσία αποθήκευσης για την αποθήκευση δεδομένων εισόδου και εξόδου. Το pay-as-you-go μοντέλο του χρεώνει μόνο τον πραγματικό χώρο αποθήκευσης που χρησιμοποιήσατε.
#3. Δεξί μέγεθος στιγμιότυπου
Η χρήση κατάλληλων περιπτώσεων με τα σωστά μεγέθη μπορεί να μειώσει σημαντικά τον προϋπολογισμό σας που δαπανάται για EMR. Οι περιπτώσεις EC2 χρεώνονται συνήθως ανά δευτερόλεπτο και η τιμή κλιμακώνεται με το μέγεθός τους, αλλά είτε χρησιμοποιείτε ένα μεγάλο σύμπλεγμα 0,7x είτε ένα μεγάλο σύμπλεγμα 0,36x, το κόστος διαχείρισής τους είναι το ίδιο. Έτσι, η αποτελεσματική χρήση μεγαλύτερων μηχανών είναι οικονομικά αποδοτική σε σύγκριση με τη χρήση πολλών μικρών μηχανών.
#4. Σημειακές περιπτώσεις
Τα σποτ στιγμιότυπα είναι μια εξαιρετική επιλογή για να αγοράσετε αχρησιμοποίητους πόρους EC2 με εκπτώσεις. Σε σύγκριση με τις περιπτώσεις κατ’ απαίτηση, αυτές είναι φθηνότερες, αλλά δεν είναι μόνιμες, καθώς μπορούν να ζητηθούν πίσω όταν η ζήτηση αυξάνεται. Έτσι, αυτά είναι ευέλικτα για ανοχή σφαλμάτων, αλλά δεν είναι κατάλληλα για μακροχρόνιες εργασίες.
#5. Αυτόματη κλιμάκωση
Η δυνατότητα αυτόματης κλιμάκωσης είναι το μόνο που χρειάζεστε για να αποφύγετε τα υπερμεγέθη ή μικρότερα συμπλέγματα. Αυτό σας επιτρέπει να επιλέξετε τον σωστό αριθμό και τύπο παρουσιών στο σύμπλεγμα σας με βάση τον φόρτο εργασίας, βελτιστοποιώντας το κόστος.
Τελικές Λέξεις
Δεν υπάρχει τέλος στο cloud και στην τεχνολογία μεγάλων δεδομένων, αφήνοντάς σας ατελείωτα εργαλεία και πλαίσια για να μάθετε και να εφαρμόσετε. Μια τέτοια ενιαία πλατφόρμα για την αξιοποίηση τόσο μεγάλων δεδομένων όσο και του cloud είναι το Amazon EMR, καθώς απλοποιεί τη λειτουργία πλαισίων μεγάλων δεδομένων για την επεξεργασία και ανάλυση μεγάλων δεδομένων.
Για να σας βοηθήσει να ξεκινήσετε με το EMR, αυτό το άρθρο σας δείχνει τι είναι, πώς ωφελεί, λειτουργεί, περιπτώσεις χρήσης και οικονομικά αποδοτικές προσεγγίσεις.
Στη συνέχεια, ελέγξτε όλα όσα πρέπει να γνωρίζετε για το AWS Athena.