Το Apache Hive εξηγείται σε 5 λεπτά ή λιγότερο [+5 Learning Resources]

Το Apache Hive είναι ένα κατανεμημένο, ανεκτικό σε σφάλματα σύστημα αποθήκης δεδομένων που επιτρέπει την ανάλυση σε τεράστια κλίμακα.

Η αποθήκη δεδομένων είναι ένα σύστημα διαχείρισης δεδομένων που αποθηκεύει μεγάλες ποσότητες ιστορικών δεδομένων που προέρχονται από διάφορες πηγές με σκοπό την ανάλυση δεδομένων και την αναφορά. Αυτό, με τη σειρά του, υποστηρίζει την επιχειρηματική ευφυΐα που οδηγεί σε πιο ενημερωμένη λήψη αποφάσεων.

Τα δεδομένα που χρησιμοποιούνται στο Apache Hive αποθηκεύονται στο Apache Hadoop, ένα πλαίσιο αποθήκευσης δεδομένων ανοιχτού κώδικα για κατανεμημένη αποθήκευση και επεξεργασία δεδομένων. Το Apache Hive είναι χτισμένο πάνω από το Apache Hadoop και έτσι αποθηκεύει και εξάγει δεδομένα από το Apache Hadoop. Ωστόσο, μπορούν να χρησιμοποιηθούν και άλλα συστήματα αποθήκευσης δεδομένων, όπως το Apache HBase.

Το καλύτερο πράγμα για το Apache Hive είναι ότι επιτρέπει στους χρήστες να διαβάζουν, να γράφουν και να διαχειρίζονται μεγάλα σύνολα δεδομένων και να αναζητούν και να αναλύουν τα δεδομένα χρησιμοποιώντας Hive Query Language (HQL), παρόμοια με την SQL.

Πώς λειτουργεί το Apache Hive

Το Apache Hive παρέχει μια διεπαφή υψηλού επιπέδου που μοιάζει με SQL για την αναζήτηση και τη διαχείριση μεγάλων ποσοτήτων δεδομένων που είναι αποθηκευμένα στο Hadoop Distributed File System (HDFS). Όταν ένας χρήστης εκτελεί ένα ερώτημα στο Apache Hive, το ερώτημα μεταφράζεται σε μια σειρά εργασιών MapReduce που εκτελούνται από το σύμπλεγμα Hadoop.

Το MapReduce είναι ένα μοντέλο για την επεξεργασία μεγάλων ποσοτήτων δεδομένων παράλληλα σε κατανεμημένα συμπλέγματα υπολογιστών. Μόλις ολοκληρωθούν οι εργασίες MapReduce, τα αποτελέσματά τους υποβάλλονται σε επεξεργασία και συνδυάζονται για να παραχθεί ένα μόνο τελικό αποτέλεσμα. Το τελικό αποτέλεσμα μπορεί να αποθηκευτεί σε έναν πίνακα Hive ή να εξαχθεί στο HDFS για περαιτέρω επεξεργασία ή ανάλυση.

Τα ερωτήματα στο Hive μπορούν να εκτελεστούν πιο γρήγορα χρησιμοποιώντας κατατμήσεις για τη διαίρεση των πινάκων Hive σε διαφορετικά μέρη με βάση τις πληροφορίες του πίνακα. Αυτά τα διαμερίσματα μπορούν να αναλυθούν ακόμη περισσότερο για να επιτρέψουν πολύ γρήγορη αναζήτηση μεγάλων συνόλων δεδομένων. Αυτή η διαδικασία είναι γνωστή ως bucketing.

Το Apache Hive είναι απαραίτητο για οργανισμούς που εργάζονται με μεγάλα δεδομένα. Αυτό οφείλεται στο γεγονός ότι τους επιτρέπει να διαχειρίζονται εύκολα μεγάλα σύνολα δεδομένων, να επεξεργάζονται τα δεδομένα με πολύ γρήγορο τρόπο και να εκτελούν εύκολα σύνθετη ανάλυση δεδομένων στα δεδομένα. Αυτό οδηγεί σε ολοκληρωμένες και λεπτομερείς αναφορές από τα διαθέσιμα δεδομένα που επιτρέπουν την καλύτερη λήψη αποφάσεων.

Οφέλη από τη χρήση του Apache Hive

Μερικά από τα οφέλη της χρήσης του Apache Hive περιλαμβάνουν τα ακόλουθα:

Εύχρηστος

Επιτρέποντας την αναζήτηση δεδομένων χρησιμοποιώντας HQL, παρόμοια με την SQL, η χρήση του Apache Hive γίνεται προσβάσιμη τόσο σε προγραμματιστές όσο και σε μη προγραμματιστές. Επομένως, η ανάλυση δεδομένων μπορεί να γίνει σε μεγάλα σύνολα δεδομένων χωρίς να μάθουμε νέα γλώσσα ή σύνταξη. Αυτό συνέβαλε καθοριστικά στην υιοθέτηση και χρήση του Apache Hive από οργανισμούς.

  Πώς να δημιουργήσετε με επιτυχία ένα API με το Firebase;

Γρήγορα

Το Apache Hive επιτρέπει την πολύ γρήγορη ανάλυση δεδομένων μεγάλων συνόλων δεδομένων μέσω επεξεργασίας κατά παρτίδες. Κατά την επεξεργασία κατά παρτίδες, μεγάλα σύνολα δεδομένων συλλέγονται και υποβάλλονται σε επεξεργασία σε ομάδες. Τα αποτελέσματα συνδυάζονται αργότερα για να παράγουν τα τελικά αποτελέσματα. Μέσω της μαζικής επεξεργασίας, το Apache Hive επιτρέπει γρήγορη επεξεργασία και ανάλυση δεδομένων.

Αξιόπιστος

Το Hive χρησιμοποιεί το Hadoop Distributed File System (HDFS) για αποθήκευση δεδομένων. Με τη συνεργασία, τα δεδομένα μπορούν να αναπαραχθούν όταν αναλύονται. Αυτό δημιουργεί ένα περιβάλλον ανεκτικό σε σφάλματα, όπου τα δεδομένα δεν μπορούν να χαθούν ακόμη και όταν τα συστήματα υπολογιστών δυσλειτουργούν.

Αυτό επιτρέπει στο Apache Hive να είναι πολύ αξιόπιστο και ανεκτικό σε σφάλματα, γεγονός που το κάνει να ξεχωρίζει μεταξύ άλλων συστημάτων αποθήκης δεδομένων.

Κλιμακούμενος

Το Apache Hive έχει σχεδιαστεί με τρόπο που του επιτρέπει να κλιμακώνει και να χειρίζεται εύκολα τα αυξανόμενα σύνολα δεδομένων. Αυτό παρέχει στους χρήστες μια λύση αποθήκης δεδομένων που κλιμακώνεται ανάλογα με τις ανάγκες τους.

Αποδοτική

Σε σύγκριση με άλλες λύσεις αποθήκευσης δεδομένων, το Apache Hive, το οποίο είναι ανοιχτού κώδικα, είναι σχετικά φθηνότερο στην εκτέλεση και, ως εκ τούτου, η καλύτερη επιλογή για οργανισμούς που επιθυμούν να ελαχιστοποιήσουν το κόστος των λειτουργιών που είναι κερδοφόροι.

Το Apache Hive είναι μια ισχυρή και αξιόπιστη λύση αποθήκευσης δεδομένων που όχι μόνο κλιμακώνεται σύμφωνα με τις ανάγκες του χρήστη, αλλά παρέχει επίσης μια γρήγορη, οικονομικά αποδοτική και εύχρηστη λύση αποθήκευσης δεδομένων.

Χαρακτηριστικά Apache Hive

Τα βασικά χαρακτηριστικά του Apache hive περιλαμβάνουν:

#1. Hive Server 2 (HS2)

Υποστηρίζει έλεγχο ταυτότητας και συγχρονισμό πολλών πελατών και έχει σχεδιαστεί για να προσφέρει καλύτερη υποστήριξη για ανοιχτούς πελάτες API όπως η Java Database Connectivity (JDBC) και η Open Database Connectivity (ODBC).

#2. Διακομιστής Hive Metastore (HMS)

Το HMS λειτουργεί ως κεντρικός χώρος αποθήκευσης για τα μεταδεδομένα του Hive Tables και τα διαμερίσματα για μια σχεσιακή βάση δεδομένων. Τα μεταδεδομένα που είναι αποθηκευμένα στο HMS διατίθενται σε πελάτες που χρησιμοποιούν το API υπηρεσίας metastore.

#3. ΟΞΥ Κυψέλης

Η Hive διασφαλίζει ότι όλες οι συναλλαγές που γίνονται είναι συμβατές με ACID. Το ACID αντιπροσωπεύει τα τέσσερα επιθυμητά χαρακτηριστικά των συναλλαγών βάσης δεδομένων. Αυτό περιλαμβάνει ατομικότητα, συνέπεια, απομόνωση και ανθεκτικότητα.

#4. Συμπίεση δεδομένων κυψέλης

Η συμπίεση δεδομένων είναι η διαδικασία μείωσης του μεγέθους των δεδομένων που αποθηκεύονται και μεταδίδονται χωρίς να διακυβεύεται η ποιότητα και η ακεραιότητα των δεδομένων. Αυτό γίνεται με την αφαίρεση πλεονασμάτων και άσχετων δεδομένων ή με χρήση ειδικής κωδικοποίησης χωρίς να διακυβεύεται η ποιότητα και η ακεραιότητα των δεδομένων που συμπυκνώνονται. Το Hive προσφέρει άμεση υποστήριξη για συμπίεση δεδομένων.

#5. Αντιγραφή κυψέλης

Το Hive διαθέτει ένα πλαίσιο που υποστηρίζει την αναπαραγωγή μεταδεδομένων Hive και τις αλλαγές δεδομένων μεταξύ συμπλεγμάτων με σκοπό τη δημιουργία αντιγράφων ασφαλείας και την ανάκτηση δεδομένων.

#6. Ασφάλεια και παρατηρησιμότητα

Το Hive μπορεί να ενσωματωθεί με το Apache Ranger, ένα πλαίσιο που επιτρέπει την παρακολούθηση και τη διαχείριση της ασφάλειας δεδομένων, και με το Apache Atlas, το οποίο επιτρέπει στις επιχειρήσεις να ανταποκρίνονται στις απαιτήσεις συμμόρφωσής τους. Το Hive υποστηρίζει επίσης τον έλεγχο ταυτότητας Kerberos, ένα πρωτόκολλο δικτύου που ασφαλίζει την επικοινωνία σε ένα δίκτυο. Τα τρία μαζί κάνουν το Hive ασφαλές και παρατηρήσιμο.

#7. Κυψέλη LLAP

Το Hive διαθέτει Αναλυτική Επεξεργασία χαμηλής καθυστέρησης (LLAP) που καθιστά το Hive πολύ γρήγορο βελτιστοποιώντας την προσωρινή αποθήκευση δεδομένων και χρησιμοποιώντας υποδομή επίμονων ερωτημάτων.

#8. Βελτιστοποίηση με βάση το κόστος

Το Hive χρησιμοποιεί ένα εργαλείο βελτιστοποίησης ερωτημάτων βάσει κόστους και ένα πλαίσιο εκτέλεσης ερωτημάτων από την Apache Calcite για τη βελτιστοποίηση των ερωτημάτων SQL. Το Apache Calcite χρησιμοποιείται στην κατασκευή βάσεων δεδομένων και συστημάτων διαχείρισης δεδομένων.

  Πώς να συνδέσετε το τηλέφωνο με τον προβολέα μέσω USB

Τα παραπάνω χαρακτηριστικά κάνουν το Apache Hive ένα εξαιρετικό σύστημα αποθήκης δεδομένων

Χρησιμοποιήστε τις θήκες για το Apache Hive

Το Apache Hive είναι μια ευέλικτη λύση αποθήκης δεδομένων και ανάλυσης δεδομένων που επιτρέπει στους χρήστες να επεξεργάζονται και να αναλύουν εύκολα μεγάλους όγκους δεδομένων. Μερικές από τις περιπτώσεις χρήσης για το Apache Hive περιλαμβάνουν:

Ανάλυση δεδομένων

Το Apache Hive υποστηρίζει την ανάλυση μεγάλων συνόλων δεδομένων χρησιμοποιώντας δηλώσεις τύπου SQL. Αυτό επιτρέπει στους οργανισμούς να εντοπίζουν μοτίβα στα δεδομένα και να βγάλουν ουσιαστικά συμπεράσματα από τα εξαγόμενα δεδομένα. Αυτό είναι χρήσιμο στη σχεδίαση. Παραδείγματα εταιρειών που χρησιμοποιούν το Apache Hive για ανάλυση δεδομένων και ερωτήματα περιλαμβάνουν τα AirBnB, FINRA και Vanguard.

Επεξεργασία παρτίδων

Αυτό περιλαμβάνει τη χρήση του Apache Hive για την επεξεργασία πολύ μεγάλων συνόλων δεδομένων μέσω κατανεμημένης επεξεργασίας δεδομένων σε ομάδες. Αυτό έχει το πλεονέκτημα ότι επιτρέπει τη γρήγορη επεξεργασία μεγάλων συνόλων δεδομένων. Ένα παράδειγμα εταιρείας που χρησιμοποιεί το Apache Hive για αυτόν τον σκοπό είναι η Guardian, μια εταιρεία διαχείρισης ασφάλισης και περιουσίας.

Αποθήκευση Δεδομένων

Αυτό περιλαμβάνει τη χρήση του Apache hive για την αποθήκευση και τη διαχείριση πολύ μεγάλων συνόλων δεδομένων. Επιπλέον, τα δεδομένα που αποθηκεύονται μπορούν να αναλυθούν και να δημιουργηθούν αναφορές από το. Οι εταιρείες που χρησιμοποιούν το Apache Hive ως λύση αποθήκης δεδομένων περιλαμβάνουν τις JPMorgan Chase και Target.

Μάρκετινγκ και ανάλυση πελατών

Οι οργανισμοί μπορούν να χρησιμοποιήσουν το Apache Hive για να αναλύσουν τα δεδομένα των πελατών τους, να πραγματοποιήσουν τμηματοποίηση πελατών και να είναι σε θέση να κατανοήσουν καλύτερα τους πελάτες τους και να προσαρμόσουν τις προσπάθειες μάρκετινγκ ώστε να αντιστοιχούν στην κατανόηση των πελατών τους. Αυτή είναι μια εφαρμογή για την οποία όλες οι εταιρείες που χειρίζονται δεδομένα πελατών μπορούν να χρησιμοποιήσουν το Apache Hive.

Επεξεργασία ETL (Extract, Transform, Load).

Όταν εργάζεστε με πολλά δεδομένα σε μια αποθήκη δεδομένων, είναι απαραίτητο να εκτελείτε λειτουργίες όπως ο καθαρισμός, η εξαγωγή και ο μετασχηματισμός δεδομένων πριν φορτωθούν και αποθηκευτούν τα δεδομένα σε ένα σύστημα αποθήκης δεδομένων.

Με αυτόν τον τρόπο, η επεξεργασία και η ανάλυση δεδομένων θα είναι γρήγορη, εύκολη και χωρίς σφάλματα. Το Apache Hive μπορεί να εκτελέσει όλες αυτές τις λειτουργίες πριν φορτωθούν τα δεδομένα σε μια αποθήκη δεδομένων.

Τα παραπάνω αποτελούν τις κύριες περιπτώσεις χρήσεων για το Apache Hive

Πόροι μάθησης

Το Apache hive είναι ένα πολύ χρήσιμο εργαλείο για την αποθήκευση δεδομένων και την ανάλυση δεδομένων μεγάλων συνόλων δεδομένων. Οργανισμοί και άτομα που εργάζονται με μεγάλα σύνολα δεδομένων πρόκειται να επωφεληθούν χρησιμοποιώντας το Apache hive. Για να μάθετε περισσότερα σχετικά με το Apache Hive και πώς να το χρησιμοποιήσετε, εξετάστε τους ακόλουθους πόρους:

#1. Hive To ADVANCE Hive (χρήση σε πραγματικό χρόνο)

Το Hive to Advance Hive είναι ένα μάθημα με τις μεγαλύτερες πωλήσεις για το Udemy που δημιουργήθηκε από τον J Garg, έναν ανώτερο σύμβουλο μεγάλων δεδομένων με πάνω από μια δεκαετία εμπειρία σε τεχνολογίες Apache για ανάλυση δεδομένων και εκπαίδευση άλλων χρηστών.

Αυτό είναι ένα μοναδικό μάθημα που οδηγεί τους μαθητές από τα βασικά του Apache Hive σε προηγμένες έννοιες και περιλαμβάνει επίσης μια ενότητα για περιπτώσεις χρήσης που χρησιμοποιούνται στις συνεντεύξεις εργασίας του Apache Hive. Παρέχει επίσης σύνολα δεδομένων και ερωτήματα Apache Hive που μπορούν να χρησιμοποιήσουν οι εκπαιδευόμενοι για να εξασκηθούν ενώ μαθαίνουν.

Ορισμένες από τις έννοιες του Apache Hive που καλύπτονται περιλαμβάνουν προηγμένες λειτουργίες στο Hive, τεχνικές συμπίεσης στο Hive, ρυθμίσεις διαμόρφωσης του Hive, εργασία με πολλούς πίνακες στο Hive και φόρτωση μη δομημένων δεδομένων στο Hive.

  25 καλύτερες ταπετσαρίες Samsung Galaxy S9 και S9+

Η δύναμη αυτού του μαθήματος έγκειται στη σε βάθος κάλυψη των προηγμένων εννοιών Hive που χρησιμοποιούνται σε έργα του πραγματικού κόσμου.

#2. Apache Hive για μηχανικούς δεδομένων

Αυτό είναι ένα πρακτικό, βασισμένο σε έργα Udemy Course που διδάσκει στους μαθητές πώς να εργάζονται με το Apache Hive από αρχάριο σε προχωρημένο επίπεδο, δουλεύοντας σε έργα πραγματικού κόσμου.

Το μάθημα ξεκινά με μια επισκόπηση του Apache Hive και καλύπτει γιατί είναι απαραίτητο εργαλείο για τους μηχανικούς δεδομένων. Στη συνέχεια εξερευνά την αρχιτεκτονική του Hive, την εγκατάστασή του και τις απαραίτητες διαμορφώσεις του Apache Hive. Μετά την τοποθέτηση των θεμελίων, το μάθημα προχωρά στην κάλυψη των ροών ερωτημάτων κυψέλης, των χαρακτηριστικών της κυψέλης, των περιορισμών και του μοντέλου δεδομένων που χρησιμοποιείται στην κυψέλη Apache.

Καλύπτει επίσης τον τύπο δεδομένων, τη γλώσσα ορισμού δεδομένων και τη γλώσσα χειρισμού δεδομένων στο Hive. Οι τελικές ενότητες καλύπτουν προηγμένες έννοιες του Hive, όπως προβολές, διαμερίσματα, τοποθέτηση σε κάδο, συνδέσεις και ενσωματωμένες λειτουργίες και τελεστές.

Για να τα καλύψει όλα, το μάθημα καλύπτει συχνές ερωτήσεις και απαντήσεις συνέντευξης. Αυτό είναι ένα εξαιρετικό μάθημα για να μάθετε για το Apache Hive και πώς μπορεί να εφαρμοστεί στον πραγματικό κόσμο.

#3. Apache Hive Basic για να προχωρήσετε

Το Apache Hive Basic to advance είναι ένα μάθημα από τον Anshul Jain, έναν ανώτερο μηχανικό δεδομένων με μεγάλη εμπειρία σε συνεργασία με το Apache Hive και άλλα εργαλεία Big data.

Αυτό παρουσιάζει τις έννοιες του Apache Hive με έναν εύκολο στην κατανόηση τρόπο και είναι κατάλληλο για αρχάριους που θέλουν να μάθουν τα σχοινιά του Apache Hive.

Το μάθημα καλύπτει ρήτρες HQL, συναρτήσεις παραθύρου, υλοποιημένη προβολή, λειτουργίες CRUD στο Hive, ανταλλαγή κατατμήσεων και βελτιστοποίηση απόδοσης για γρήγορη αναζήτηση δεδομένων.

Αυτό το μάθημα θα σας δώσει μια πρακτική εμπειρία με το Apache Hive εκτός από τη βοήθεια που θα σας βοηθήσει να αντιμετωπίσετε κοινές ερωτήσεις συνέντευξης που είναι πιθανό να αντιμετωπίσετε όταν κάνετε αίτηση για εργασία.

#4. Apache Hive Essentials

Αυτό το βιβλίο είναι ιδιαίτερα χρήσιμο σε αναλυτές δεδομένων, προγραμματιστές ή οποιονδήποτε ενδιαφέρεται να μάθει πώς να χρησιμοποιεί το Apache Hive.

Ο συγγραφέας έχει πάνω από μια δεκαετία εμπειρίας εργαζόμενος ως επαγγελματίας μεγάλων δεδομένων σχεδιάζοντας και εφαρμόζοντας εταιρική αρχιτεκτονική μεγάλων δεδομένων και ανάλυση σε διάφορους κλάδους.

Το βιβλίο καλύπτει πώς να δημιουργήσετε και να ρυθμίσετε ένα περιβάλλον Hive, να περιγράφετε αποτελεσματικά δεδομένα χρησιμοποιώντας τη γλώσσα ορισμού του Hive και να ενώνετε και να φιλτράρετε σύνολα δεδομένων στο Hive.

Επιπλέον, καλύπτει μετασχηματισμούς δεδομένων χρησιμοποιώντας ταξινόμηση, ταξινόμηση και λειτουργίες Hive, τον τρόπο συγκέντρωσης και δειγματοληψίας δεδομένων και τον τρόπο ενίσχυσης της απόδοσης των ερωτημάτων Hive και ενίσχυσης της ασφάλειας στο Hive. Τέλος, καλύπτει τις προσαρμογές στο Apache hive, διδάσκοντας στους χρήστες πώς να τροποποιούν το Apache Hive για να εξυπηρετούν τις ανάγκες τους σε μεγάλα δεδομένα.

#5. Βιβλίο μαγειρικής Apache Hive

Το Apache Hive Cookbook, διαθέσιμο σε Kindle και χαρτόδετο, παρέχει μια εύκολη και πρακτική προσέγγιση του Apache Hive, επιτρέποντάς σας να μάθετε και να κατανοήσετε το Apache Hive και την ενσωμάτωσή του με δημοφιλή πλαίσια σε μεγάλα δεδομένα.

Αυτό το βιβλίο, που προορίζεται για αναγνώστες με προηγούμενη γνώση της SQL, καλύπτει τον τρόπο ρύθμισης παραμέτρων του Apache Hive με το Hadoop, τις υπηρεσίες στο Hive, το μοντέλο δεδομένων Hive και τη γλώσσα ορισμού και χειρισμού δεδομένων Hive.

Επιπλέον, καλύπτει λειτουργίες επεκτασιμότητας στο Hive, βελτιστοποίηση συνδέσεων και συνδέσεων, στατιστικά στοιχεία στο Hive, λειτουργίες Hive, συντονισμό Hive για βελτιστοποίηση και ασφάλεια στο Hive και ολοκληρώνεται με εις βάθος κάλυψη της ενοποίησης του Hive με άλλα πλαίσια.

συμπέρασμα

Αξίζει να σημειωθεί ότι το Apache Hive χρησιμοποιείται καλύτερα για παραδοσιακές εργασίες αποθήκευσης δεδομένων και είναι ακατάλληλο για την επεξεργασία διαδικτυακών συναλλαγών. Το Apache έχει σχεδιαστεί για να μεγιστοποιεί την απόδοση, την επεκτασιμότητα, την ανοχή σε σφάλματα και τη χαλαρή σύζευξη με τις μορφές εισόδου του.

Οι οργανισμοί που χειρίζονται και επεξεργάζονται μεγάλες ποσότητες δεδομένων επωφελούνται εξαιρετικά από τις ισχυρές δυνατότητες που προσφέρει το Apache Hive. Αυτά τα χαρακτηριστικά είναι πολύ χρήσιμα για την αποθήκευση και την ανάλυση μεγάλων συνόλων δεδομένων.

Μπορείτε επίσης να εξερευνήσετε μερικές σημαντικές διαφορές μεταξύ του Apache Hive και του Apache Impala.