30+ Ερωτήσεις και απαντήσεις συνέντευξης Hadoop

Λοιπόν, οι στατιστικές του Forbes αναφέρουν ότι έως και το 90% των παγκόσμιων οργανισμών χρησιμοποιούν αναλυτικά στοιχεία Big Data για να δημιουργήσουν τις επενδυτικές τους αναφορές.

Με την αυξανόμενη δημοτικότητα των Big Data, υπάρχει, κατά συνέπεια, μια αύξηση των ευκαιριών απασχόλησης στο Hadoop περισσότερο από πριν.

Επομένως, για να σας βοηθήσουμε να αποκτήσετε αυτόν τον ρόλο ειδικού στο Hadoop, μπορείτε να χρησιμοποιήσετε αυτές τις ερωτήσεις συνέντευξης και τις απαντήσεις που έχουμε συγκεντρώσει για εσάς σε αυτό το άρθρο για να σας βοηθήσουμε να ολοκληρώσετε τη συνέντευξη.

Ίσως η γνώση των γεγονότων, όπως το εύρος μισθών που κάνουν τους ρόλους του Hadoop και των Big Data, να σας παρακινήσει να περάσετε αυτήν τη συνέντευξη, σωστά; 🤔

  • Σύμφωνα με το indeed.com, ένας προγραμματιστής Big Data Hadoop με έδρα τις ΗΠΑ κερδίζει μέσο μισθό 144.000 $.
  • Σύμφωνα με το itjobswatch.co.uk, ο μέσος μισθός ενός προγραμματιστή Big Data Hadoop είναι 66.750 £.
  • Στην Ινδία, η πηγή του indeed.com αναφέρει ότι θα κέρδιζαν μέσο μισθό 16.00.000 ₹.

Προσοδοφόρα, δεν νομίζετε; Τώρα, ας πηδήξουμε για να μάθουμε για το Hadoop.

Πίνακας περιεχομένων

Τι είναι το Hadoop;

Το Hadoop είναι ένα δημοφιλές πλαίσιο γραμμένο σε Java που χρησιμοποιεί μοντέλα προγραμματισμού για την επεξεργασία, αποθήκευση και ανάλυση μεγάλων συνόλων δεδομένων.

Από προεπιλογή, ο σχεδιασμός του επιτρέπει την κλιμάκωση από μεμονωμένους διακομιστές σε πολλαπλά μηχανήματα που προσφέρουν τοπικούς υπολογισμούς και αποθήκευση. Επιπλέον, η ικανότητά του να ανιχνεύει και να χειρίζεται αστοχίες στο επίπεδο εφαρμογών που οδηγούν σε εξαιρετικά διαθέσιμες υπηρεσίες καθιστά το Hadoop αρκετά αξιόπιστο.

Ας μεταβούμε απευθείας στις συνήθεις ερωτήσεις συνέντευξης Hadoop και στις σωστές απαντήσεις τους.

Ερωτήσεις και απαντήσεις για τη συνέντευξη του Hadoop

Τι είναι η μονάδα αποθήκευσης στο Hadoop;

Απάντηση: Η μονάδα αποθήκευσης του Hadoop ονομάζεται σύστημα κατανεμημένων αρχείων Hadoop (HDFS).

Σε τι διαφέρει ο χώρος αποθήκευσης που συνδέεται με το δίκτυο από το σύστημα κατανεμημένων αρχείων Hadoop;

Απάντηση: Το HDFS, το οποίο είναι ο κύριος αποθηκευτικός χώρος του Hadoop, είναι ένα κατανεμημένο σύστημα αρχείων που αποθηκεύει τεράστια αρχεία χρησιμοποιώντας υλικό εμπορευμάτων. Από την άλλη πλευρά, το NAS είναι ένας διακομιστής αποθήκευσης δεδομένων υπολογιστή σε επίπεδο αρχείου που παρέχει σε ετερογενείς ομάδες πελατών πρόσβαση στα δεδομένα.

Ενώ η αποθήκευση δεδομένων στο NAS είναι σε αποκλειστικό υλικό, το HDFS διανέμει τα μπλοκ δεδομένων σε όλα τα μηχανήματα στο σύμπλεγμα Hadoop.

Το NAS χρησιμοποιεί συσκευές αποθήκευσης υψηλής τεχνολογίας, οι οποίες είναι μάλλον δαπανηρές, ενώ το υλικό βασικών προϊόντων που χρησιμοποιείται στο HDFS είναι οικονομικά αποδοτικό.

Το NAS αποθηκεύει χωριστά δεδομένα από υπολογισμούς, καθιστώντας το ακατάλληλο για το MapReduce. Αντίθετα, ο σχεδιασμός του HDFS του επιτρέπει να λειτουργεί με το πλαίσιο MapReduce. Οι υπολογισμοί μετακινούνται στα δεδομένα στο πλαίσιο MapReduce αντί για δεδομένα σε υπολογισμούς.

Εξηγήστε το MapReduce στο Hadoop and Shuffling

Απάντηση: Το MapReduce αναφέρεται σε δύο ξεχωριστές εργασίες που εκτελούν τα προγράμματα Hadoop για να επιτρέψουν μεγάλη επεκτασιμότητα σε εκατοντάδες έως χιλιάδες διακομιστές μέσα σε ένα σύμπλεγμα Hadoop. Η τυχαία αναπαραγωγή, από την άλλη πλευρά, μεταφέρει την έξοδο χάρτη από τους Mappers στον απαραίτητο Reducer στο MapReduce.

  Πώς να κλειδώσετε τα κελιά του Excel με τύπους για να αποτρέψετε την επεξεργασία

Ρίξτε μια ματιά στην αρχιτεκτονική Apache Pig

The Apache Pig Architecture

Απάντηση: Η αρχιτεκτονική Apache Pig διαθέτει διερμηνέα Pig Latin που επεξεργάζεται και αναλύει μεγάλα σύνολα δεδομένων χρησιμοποιώντας λατινικά σενάρια Pig.

Το Apache pig αποτελείται επίσης από σύνολα συνόλων δεδομένων στα οποία εκτελούνται λειτουργίες δεδομένων όπως σύνδεση, φόρτωση, φίλτρο, ταξινόμηση και ομάδα.

Η λατινική γλώσσα Pig χρησιμοποιεί μηχανισμούς εκτέλεσης όπως κελύφη Grant, UDF και ενσωματωμένα για τη σύνταξη σεναρίων Pig που εκτελούν τις απαιτούμενες εργασίες.

Το Pig διευκολύνει τη δουλειά των προγραμματιστών μετατρέποντας αυτά τα γραπτά σενάρια σε σειρές εργασιών Map-Reduce.

Τα στοιχεία αρχιτεκτονικής Apache Pig περιλαμβάνουν:

  • Parser – Χειρίζεται τα Pig Scripts ελέγχοντας τη σύνταξη του σεναρίου και εκτελώντας έλεγχο τύπου. Η έξοδος του αναλυτή αντιπροσωπεύει τις δηλώσεις και τους λογικούς τελεστές του Pig Latin και ονομάζεται DAG (κατευθυνόμενο άκυκλο γράφημα).
  • Optimizer – Ο βελτιστοποιητής εφαρμόζει λογικές βελτιστοποιήσεις όπως προβολή και pushdown στο DAG.
  • Compiler – Μεταγλωττίζει το βελτιστοποιημένο λογικό σχέδιο από το optimizer σε μια σειρά εργασιών MapReduce.
  • Execution Engine – Εδώ πραγματοποιείται η τελική εκτέλεση των εργασιών MapReduce στην επιθυμητή έξοδο.
  • Λειτουργία εκτέλεσης – Οι λειτουργίες εκτέλεσης στο Apache pig περιλαμβάνουν κυρίως την τοπική και τη μείωση χάρτη.

Απάντηση: Η υπηρεσία Metastore στο Local Metastore εκτελείται στο ίδιο JVM με το Hive, αλλά συνδέεται με μια βάση δεδομένων που εκτελείται σε ξεχωριστή διαδικασία στο ίδιο ή σε απομακρυσμένο μηχάνημα. Από την άλλη πλευρά, το Metastore στο Remote Metastore εκτελείται στο JVM του ξεχωριστά από την υπηρεσία Hive JVM.

Τι είναι τα Five V’s Big Data;

Απάντηση: Αυτά τα πέντε V αντιπροσωπεύουν τα κύρια χαρακτηριστικά των Big Data. Περιλαμβάνουν:

  • Αξία: Τα μεγάλα δεδομένα επιδιώκουν να παρέχουν σημαντικά οφέλη από την υψηλή απόδοση επένδυσης (ROI) σε έναν οργανισμό που χρησιμοποιεί μεγάλα δεδομένα στις λειτουργίες δεδομένων του. Τα μεγάλα δεδομένα φέρνουν αυτή την αξία από την ανακάλυψη της γνώσης και την αναγνώριση προτύπων, με αποτέλεσμα ισχυρότερες σχέσεις με τους πελάτες και πιο αποτελεσματικές λειτουργίες, μεταξύ άλλων πλεονεκτημάτων.
  • Ποικιλία: Αυτό αντιπροσωπεύει την ετερογένεια του τύπου των τύπων δεδομένων που συλλέγονται. Οι διάφορες μορφές περιλαμβάνουν CSV, βίντεο, ήχο κ.λπ.
  • Όγκος: Αυτό καθορίζει τον σημαντικό όγκο και το μέγεθος των δεδομένων που διαχειρίζεται και αναλύει ένας οργανισμός. Αυτά τα δεδομένα απεικονίζουν εκθετική ανάπτυξη.
  • Ταχύτητα: Αυτός είναι ο εκθετικός ρυθμός ταχύτητας για την ανάπτυξη δεδομένων.
  • Ειλικρίνεια: Η ακρίβεια αναφέρεται στο πόσο «αβέβαια» ή «ανακριβή» δεδομένα που είναι διαθέσιμα οφείλονται στο ότι τα δεδομένα είναι ελλιπή ή ασυνεπή.

Εξηγήστε τους διαφορετικούς τύπους δεδομένων των λατινικών χοίρων.

Απάντηση: Οι τύποι δεδομένων στα Χοιρινά Λατινικά περιλαμβάνουν ατομικούς τύπους δεδομένων και σύνθετους τύπους δεδομένων.

Οι ατομικοί τύποι δεδομένων είναι οι βασικοί τύποι δεδομένων που χρησιμοποιούνται σε κάθε άλλη γλώσσα. Περιλαμβάνουν τα ακόλουθα:

  • Int – Αυτός ο τύπος δεδομένων ορίζει έναν υπογεγραμμένο ακέραιο αριθμό 32 bit. Παράδειγμα: 13
  • Long – Το Long ορίζει έναν ακέραιο αριθμό 64 bit. Παράδειγμα: 10L
  • Float – Καθορίζει μια υπογεγραμμένη κινητή υποδιαστολή 32 bit. Παράδειγμα: 2,5 F
  • Double – Καθορίζει μια υπογεγραμμένη κινητή υποδιαστολή 64-bit. Παράδειγμα: 23.4
  • Boolean – Καθορίζει μια Boolean τιμή. Περιλαμβάνει: Σωστό/Λάθος
  • Datetime – Καθορίζει μια τιμή ημερομηνίας-ώρας. Παράδειγμα: 1980-01-01T00:00.00.000+00:00

Οι σύνθετοι τύποι δεδομένων περιλαμβάνουν:

  • Χάρτης-Χάρτης αναφέρεται σε ένα σύνολο ζεύγους κλειδιών-τιμών. Παράδειγμα: [‘color’#’yellow’, ‘number’#3]
  • Τσάντα – Είναι μια συλλογή από ένα σύνολο πλειάδων και χρησιμοποιεί το σύμβολο «{}». Παράδειγμα: {(Henry, 32), (Kiti, 47)}
  • Πλειάδα – Μια πλειάδα ορίζει ένα ταξινομημένο σύνολο πεδίων. Παράδειγμα: (Ηλικία, 33)

Τι είναι το Apache Oozie και το Apache ZooKeeper;

Απάντηση: Ο Apache Oozie είναι ένας προγραμματιστής Hadoop που είναι υπεύθυνος για τον προγραμματισμό και τη δέσμευση εργασιών Hadoop ως ένα ενιαίο λογικό έργο.

Το Apache Zookeeper, από την άλλη πλευρά, συντονίζεται με διάφορες υπηρεσίες σε ένα κατανεμημένο περιβάλλον. Εξοικονομεί χρόνο στους προγραμματιστές με την απλή έκθεση απλών υπηρεσιών όπως ο συγχρονισμός, η ομαδοποίηση, η συντήρηση της διαμόρφωσης και η ονομασία. Το Apache Zookeeper παρέχει επίσης άμεση υποστήριξη για ουρές αναμονής και εκλογή αρχηγού.

Ποιος είναι ο ρόλος του Combiner, του RecordReader και του Partitioner σε μια λειτουργία MapReduce;

Απάντηση: Ο συνδυαστής λειτουργεί σαν μίνι μειωτήρας. Λαμβάνει και λειτουργεί σε δεδομένα από εργασίες χαρτών και στη συνέχεια περνά την έξοδο των δεδομένων στη φάση του μειωτήρα.

Το RecordHeader επικοινωνεί με το InputSplit και μετατρέπει τα δεδομένα σε ζεύγη κλειδιού-τιμής για να τα διαβάσει κατάλληλα ο αντιστοιχιστής.

Το Partitioner είναι υπεύθυνο να αποφασίσει τον αριθμό των μειωμένων εργασιών που απαιτούνται για τη σύνοψη των δεδομένων και να επιβεβαιώσει τον τρόπο αποστολής των εξόδων συνδυασμού στον μειωτήρα. Το Partitioner ελέγχει επίσης την κατάτμηση κλειδιών των ενδιάμεσων εξόδων χάρτη.

Αναφέρετε διαφορετικές διανομές του Hadoop για συγκεκριμένους προμηθευτές.

Απάντηση: Οι διάφοροι προμηθευτές που επεκτείνουν τις δυνατότητες του Hadoop περιλαμβάνουν:

  • IBM Open πλατφόρμα.
  • Cloudera CDH Hadoop Distribution
  • MapR Hadoop Distribution
  • Amazon Elastic MapReduce
  • Hortonworks Data Platform (HDP)
  • Pivotal Big Data Suite
  • Datastax Enterprise Analytics
  • HDInsight της Microsoft Azure – Διανομή Hadoop που βασίζεται σε σύννεφο.
  Πώς να εγκαταστήσετε το Exodus για το Kodi σε οποιαδήποτε συσκευή

Γιατί το HDFS είναι ανεκτικό σε σφάλματα;

Απάντηση: Το HDFS αναπαράγει δεδομένα σε διαφορετικούς DataNodes, καθιστώντας το ανεκτικό σε σφάλματα. Η αποθήκευση των δεδομένων σε διαφορετικούς κόμβους επιτρέπει την ανάκτηση από άλλους κόμβους όταν μια λειτουργία διακόπτεται.

Διαφοροποίηση μεταξύ ομοσπονδίας και υψηλής διαθεσιμότητας.

Απάντηση: Η Ομοσπονδία HDFS προσφέρει ανοχή σφαλμάτων που επιτρέπει τη συνεχή ροή δεδομένων σε έναν κόμβο όταν ένας άλλος διακόπτεται. Από την άλλη πλευρά, η υψηλή διαθεσιμότητα θα απαιτήσει δύο ξεχωριστά μηχανήματα που διαμορφώνουν το ενεργό NameNode και το δευτερεύον NameNode στον πρώτο και τον δεύτερο μηχανισμό ξεχωριστά.

Η Ομοσπονδία μπορεί να έχει απεριόριστο αριθμό άσχετων NameNodes, ενώ στην Υψηλή διαθεσιμότητα, μόνο δύο σχετικοί NameNodes, ενεργοί και αναμονής, που λειτουργούν συνεχώς, είναι διαθέσιμοι.

Τα NameNodes στην ομοσπονδία μοιράζονται ένα σύνολο μεταδεδομένων, με κάθε NameNode να έχει την αποκλειστική του ομάδα. Στην Υψηλή Διαθεσιμότητα, ωστόσο, οι ενεργοί NameNodes εκτελούνται κάθε φορά, ενώ οι NameNodes σε κατάσταση αναμονής παραμένουν αδρανείς και ενημερώνουν μόνο περιστασιακά τα μεταδεδομένα τους.

Πώς να βρείτε την κατάσταση των μπλοκ και την υγεία του συστήματος αρχείων;

Απάντηση: Χρησιμοποιείτε την εντολή hdfs fsck / τόσο σε επίπεδο χρήστη root όσο και σε μεμονωμένο κατάλογο για να ελέγξετε την κατάσταση υγείας του συστήματος αρχείων HDFS.

Εντολή HDFS fsck σε χρήση:

hdfs fsck / -files --blocks –locations> dfs-fsck.log

Περιγραφή της εντολής:

  • -αρχεία: Εκτυπώστε τα αρχεία που ελέγχετε.
  • –τοποθεσίες: Εκτυπώνει τις θέσεις όλων των μπλοκ κατά τον έλεγχο.

Εντολή για έλεγχο της κατάστασης των μπλοκ:

hdfs fsck <path> -files -blocks
  • <διαδρομή>: Ξεκινά τους ελέγχους από τη διαδρομή που πέρασε εδώ.
  • – μπλοκ: Εκτυπώνει τα μπλοκ αρχείων κατά τον έλεγχο

Πότε χρησιμοποιείτε τις εντολές rmadmin-refreshNodes και dfsadmin-refreshNodes;

Απάντηση: Αυτές οι δύο εντολές είναι χρήσιμες για την ανανέωση των πληροφοριών κόμβου είτε κατά τη θέση σε λειτουργία είτε όταν ολοκληρωθεί η έναρξη λειτουργίας του κόμβου.

Η εντολή dfsadmin-refreshNodes εκτελεί τον πελάτη HDFS και ανανεώνει τη διαμόρφωση κόμβου του NameNode. Η εντολή rmadmin-refreshNodes, από την άλλη, εκτελεί τις διαχειριστικές εργασίες του ResourceManager.

Τι είναι το Checkpoint;

Απάντηση: Το Checkpoint είναι μια λειτουργία που συγχωνεύει τις τελευταίες αλλαγές του συστήματος αρχείων με το πιο πρόσφατο FSImage, έτσι ώστε τα αρχεία καταγραφής επεξεργασίας να παραμένουν αρκετά μικρά ώστε να επιταχύνει τη διαδικασία έναρξης ενός NameNode. Το σημείο ελέγχου εμφανίζεται στο δευτερεύον NameNode.

Γιατί χρησιμοποιούμε HDFS για εφαρμογές που έχουν μεγάλα σύνολα δεδομένων;

Απάντηση: Το HDFS παρέχει μια αρχιτεκτονική DataNode και NameNode που υλοποιεί ένα κατανεμημένο σύστημα αρχείων.

Αυτές οι δύο αρχιτεκτονικές παρέχουν πρόσβαση υψηλής απόδοσης σε δεδομένα μέσω συστάδων υψηλής κλιμάκωσης του Hadoop. Το NameNode του αποθηκεύει τα μεταδεδομένα του συστήματος αρχείων στη μνήμη RAM, με αποτέλεσμα η ποσότητα της μνήμης να περιορίζει τον αριθμό των αρχείων συστήματος αρχείων HDFS.

Τι κάνει η εντολή ‘jps’;

Απάντηση: Η εντολή Java Virtual Machine Process Status (JPS) ελέγχει εάν εκτελούνται ή όχι συγκεκριμένοι δαίμονες Hadoop, συμπεριλαμβανομένων των NodeManager, DataNode, NameNode και ResourceManager. Αυτή η εντολή απαιτείται να εκτελείται από τη ρίζα για να ελέγξετε τους κόμβους λειτουργίας στον κεντρικό υπολογιστή.

Τι είναι η «Speculative Execution» στο Hadoop;

Απάντηση: Αυτή είναι μια διαδικασία κατά την οποία ο κύριος κόμβος στο Hadoop, αντί να διορθώνει αργές εργασίες που έχουν εντοπιστεί, εκκινεί μια διαφορετική παρουσία της ίδιας εργασίας με μια εφεδρική εργασία (κερδοσκοπική εργασία) σε έναν άλλο κόμβο. Η κερδοσκοπική εκτέλεση εξοικονομεί πολύ χρόνο, ειδικά σε ένα περιβάλλον εντατικού φόρτου εργασίας.

Ονομάστε τους τρεις τρόπους λειτουργίας στους οποίους μπορεί να τρέξει το Hadoop.

Απάντηση: Οι τρεις κύριοι κόμβοι στους οποίους εκτελείται το Hadoop περιλαμβάνουν:

  • Ο αυτόνομος κόμβος είναι η προεπιλεγμένη λειτουργία που εκτελεί τις υπηρεσίες Hadoop χρησιμοποιώντας το τοπικό σύστημα αρχείων και μια μεμονωμένη διεργασία Java.
  • Ο ψευδο-κατανεμημένος κόμβος εκτελεί όλες τις υπηρεσίες Hadoop χρησιμοποιώντας μια ενιαία ανάπτυξη Hadoop ωδών.
  • Ο πλήρως κατανεμημένος κόμβος εκτελεί υπηρεσίες Hadoop master και slave χρησιμοποιώντας ξεχωριστούς κόμβους.

Τι είναι το UDF;

Απάντηση: Το UDF (Συναρτήσεις καθοριζόμενες από το χρήστη) σάς επιτρέπει να κωδικοποιήσετε τις προσαρμοσμένες συναρτήσεις σας τις οποίες μπορείτε να χρησιμοποιήσετε για να επεξεργαστείτε τιμές στηλών κατά τη διάρκεια ενός ερωτήματος Impala.

Τι είναι το DistCp;

Απάντηση: Το DistCp ή το Distributed Copy, εν συντομία, είναι ένα χρήσιμο εργαλείο για μεγάλη αντιγραφή δεδομένων μεταξύ ή εντός συμπλέγματος. Χρησιμοποιώντας το MapReduce, το DistCp υλοποιεί αποτελεσματικά το κατανεμημένο αντίγραφο μεγάλου όγκου δεδομένων, μεταξύ άλλων εργασιών όπως η διαχείριση σφαλμάτων, η ανάκτηση και η αναφορά.

Απάντηση: Το Hive metastore είναι μια υπηρεσία που αποθηκεύει τα μεταδεδομένα του Apache Hive για τους πίνακες Hive σε μια σχεσιακή βάση δεδομένων όπως η MySQL. Παρέχει το API της υπηρεσίας metastore που επιτρέπει την πρόσβαση σε cent στα μεταδεδομένα.

Ορισμός RDD.

Απάντηση: Το RDD, το οποίο σημαίνει Resilient Distributed Datasets, είναι η δομή δεδομένων του Spark και μια αμετάβλητη κατανεμημένη συλλογή των στοιχείων δεδομένων σας που υπολογίζεται στους διαφορετικούς κόμβους συμπλέγματος.

Πώς μπορούν οι εγγενείς βιβλιοθήκες να συμπεριληφθούν στις θέσεις εργασίας YARN;

Απάντηση: Μπορείτε να το εφαρμόσετε είτε χρησιμοποιώντας -Djava.library. επιλογή διαδρομής στην εντολή ή ορίζοντας LD+LIBRARY_PATH σε αρχείο .bashrc χρησιμοποιώντας την ακόλουθη μορφή:

<property>
<name>mapreduce.map.env</name>
<value>LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/my/libs</value>
</property>

Εξηγήστε το “WAL” στο HBase.

Απάντηση: Το Write Ahead Log (WAL) είναι ένα πρωτόκολλο ανάκτησης που καταγράφει τις αλλαγές δεδομένων του MemStore στο HBase στον χώρο αποθήκευσης που βασίζεται σε αρχεία. Το WAL ανακτά αυτά τα δεδομένα σε περίπτωση σφάλματος του RegionalServer ή πριν από την έκπλυση του MemStore.

Είναι το YARN αντικατάσταση του Hadoop MapReduce;

Απάντηση: Όχι, το YARN δεν είναι αντικατάσταση του Hadoop MapReduce. Αντίθετα, μια ισχυρή τεχνολογία που ονομάζεται Hadoop 2.0 ή MapReduce 2 υποστηρίζει το MapReduce.

Ποια είναι η διαφορά μεταξύ ORDER BY και SORT BY στο HIVE;

Απάντηση: Ενώ και οι δύο εντολές ανακτούν δεδομένα με ταξινομημένο τρόπο στο Hive, τα αποτελέσματα από τη χρήση SORT BY μπορούν να ταξινομηθούν μόνο εν μέρει.

Επιπλέον, το SORT BY απαιτεί έναν μειωτήρα για την παραγγελία των σειρών. Αυτοί οι μειωτές που απαιτούνται για την τελική έξοδο μπορεί επίσης να είναι πολλαπλοί. Σε αυτήν την περίπτωση, η τελική έξοδος μπορεί να παραγγελθεί μερικώς.

Από την άλλη πλευρά, το ORDER BY απαιτεί μόνο έναν μειωτήρα για μια συνολική παραγγελία στην έξοδο. Μπορείτε επίσης να χρησιμοποιήσετε τη λέξη-κλειδί LIMIT που μειώνει τον συνολικό χρόνο ταξινόμησης.

Ποια είναι η διαφορά μεταξύ Spark και Hadoop;

Απάντηση: Ενώ τόσο το Hadoop όσο και το Spark είναι κατανεμημένα πλαίσια επεξεργασίας, η βασική τους διαφορά είναι η επεξεργασία τους. Όπου το Hadoop είναι αποτελεσματικό για ομαδική επεξεργασία, το Spark είναι αποτελεσματικό για επεξεργασία δεδομένων σε πραγματικό χρόνο.

Επιπλέον, το Hadoop διαβάζει και γράφει κυρίως αρχεία σε HDFS, ενώ το Spark χρησιμοποιεί την ιδέα Resilient Distributed Dataset για την επεξεργασία δεδομένων στη μνήμη RAM.

Με βάση τον λανθάνοντα χρόνο τους, το Hadoop είναι ένα υπολογιστικό πλαίσιο υψηλής καθυστέρησης χωρίς διαδραστική λειτουργία επεξεργασίας δεδομένων, ενώ το Spark είναι ένα υπολογιστικό πλαίσιο χαμηλής καθυστέρησης που επεξεργάζεται δεδομένα διαδραστικά.

Συγκρίνετε το Sqoop και το Flume.

Απάντηση: Το Sqoop και το Flume είναι εργαλεία Hadoop που συλλέγουν δεδομένα που συλλέγονται από διάφορες πηγές και φορτώνουν τα δεδομένα στο HDFS.

  • Το Sqoop(SQL-to-Hadoop) εξάγει δομημένα δεδομένα από βάσεις δεδομένων, συμπεριλαμβανομένων των Teradata, MySQL, Oracle κ.λπ., ενώ το Flume είναι χρήσιμο για την εξαγωγή μη δομημένων δεδομένων από πηγές βάσης δεδομένων και τη φόρτωσή τους στο HDFS.
  • Όσον αφορά τα οδηγούμενα συμβάντα, το Flume βασίζεται σε γεγονότα, ενώ το Sqoop δεν καθοδηγείται από γεγονότα.
  • Το Sqoop χρησιμοποιεί μια αρχιτεκτονική που βασίζεται σε εφαρμογές σύνδεσης όπου οι σύνδεσμοι γνωρίζουν πώς να συνδέονται σε μια διαφορετική πηγή δεδομένων. Το Flume χρησιμοποιεί μια αρχιτεκτονική βασισμένη σε πράκτορες, με τον κώδικα που γράφεται να είναι ο πράκτορας που είναι υπεύθυνος για την ανάκτηση των δεδομένων.
  • Λόγω της κατανεμημένης φύσης του Flume, μπορεί εύκολα να συλλέγει και να συγκεντρώνει δεδομένα. Το Sqoop είναι χρήσιμο για παράλληλη μεταφορά δεδομένων, με αποτέλεσμα η έξοδος να είναι σε πολλά αρχεία.

Εξηγήστε το BloomMapFile.

Απάντηση: Το BloomMapFile είναι μια κλάση που επεκτείνει την κλάση MapFile και χρησιμοποιεί φίλτρα δυναμικής άνθισης που παρέχουν μια γρήγορη δοκιμή ιδιότητας μέλους για κλειδιά.

Καταγράψτε τη διαφορά μεταξύ HiveQL και PigLatin.

Απάντηση: Ενώ η HiveQL είναι μια δηλωτική γλώσσα παρόμοια με την SQL, η PigLatin είναι μια διαδικαστική γλώσσα ροής δεδομένων υψηλού επιπέδου.

Τι είναι ο καθαρισμός δεδομένων;

Απάντηση: Η εκκαθάριση δεδομένων είναι μια κρίσιμη διαδικασία για την απαλλαγή ή τη διόρθωση εντοπισμένων σφαλμάτων δεδομένων που περιλαμβάνουν λανθασμένα, ελλιπή, κατεστραμμένα, διπλότυπα και εσφαλμένα μορφοποιημένα δεδομένα σε ένα σύνολο δεδομένων.

Αυτή η διαδικασία στοχεύει στη βελτίωση της ποιότητας των δεδομένων και στην παροχή πιο ακριβών, συνεπών και αξιόπιστων πληροφοριών που είναι απαραίτητες για την αποτελεσματική λήψη αποφάσεων σε έναν οργανισμό.

Συμπέρασμα 💃

Με τις τρέχουσες ευκαιρίες εργασίας Big data και Hadoop να αυξάνονται, ίσως θέλετε να βελτιώσετε τις πιθανότητές σας να εισέλθετε. Οι ερωτήσεις και οι απαντήσεις της συνέντευξης Hadoop αυτού του άρθρου θα σας βοηθήσουν να κερδίσετε αυτή την επερχόμενη συνέντευξη.

Στη συνέχεια, μπορείτε να δείτε καλούς πόρους για να μάθετε Big Data και Hadoop.

Καλή τύχη! 👍