Πώς να κάνετε Διερευνητική Ανάλυση Δεδομένων (EDA) στο R (με παραδείγματα)

Μάθετε όλα όσα χρειάζεται να γνωρίζετε για την διερευνητική ανάλυση δεδομένων, μια κρίσιμη διαδικασία που χρησιμοποιείται για την ανακάλυψη τάσεων και προτύπων και τη σύνοψη συνόλων δεδομένων με τη βοήθεια στατιστικών περιλήψεων και γραφικών αναπαραστάσεων.

Όπως κάθε έργο, ένα έργο επιστήμης δεδομένων είναι μια μακρά διαδικασία που απαιτεί χρόνο, καλή οργάνωση και σχολαστικό σεβασμό για πολλά βήματα. Η διερευνητική ανάλυση δεδομένων (EDA) είναι ένα από τα πιο σημαντικά βήματα σε αυτή τη διαδικασία.

Επομένως, σε αυτό το άρθρο, θα εξετάσουμε εν συντομία τι είναι η διερευνητική ανάλυση δεδομένων και πώς μπορείτε να την εκτελέσετε με το R!

Τι είναι η Διερευνητική Ανάλυση Δεδομένων;

Η διερευνητική ανάλυση δεδομένων εξετάζει και μελετά τα χαρακτηριστικά ενός συνόλου δεδομένων πριν υποβληθεί σε μια εφαρμογή, είτε είναι αποκλειστικά επιχειρηματική, στατιστική ή μηχανική μάθηση.

Αυτή η περίληψη της φύσης της πληροφορίας και των κύριων ιδιαιτεροτήτων της γίνεται συνήθως με οπτικές μεθόδους, όπως γραφικές αναπαραστάσεις και πίνακες. Η πρακτική πραγματοποιείται εκ των προτέρων ακριβώς για την αξιολόγηση των δυνατοτήτων αυτών των δεδομένων, τα οποία θα τυγχάνουν πιο σύνθετης επεξεργασίας στο μέλλον.

Ως εκ τούτου, η EDA επιτρέπει:

  • Διατυπώστε υποθέσεις για τη χρήση αυτών των πληροφοριών.
  • Εξερευνήστε κρυφές λεπτομέρειες στη δομή δεδομένων.
  • Προσδιορίστε τιμές που λείπουν, ακραίες τιμές ή μη φυσιολογικές συμπεριφορές.
  • Ανακαλύψτε τις τάσεις και τις σχετικές μεταβλητές στο σύνολό τους.
  • Απορρίψτε άσχετες μεταβλητές ή μεταβλητές που συσχετίζονται με άλλες.
  • Καθορίστε την επίσημη μοντελοποίηση που θα χρησιμοποιηθεί.

Ποια είναι η διαφορά μεταξύ της περιγραφικής και της διερευνητικής ανάλυσης δεδομένων;

Υπάρχουν δύο τύποι ανάλυσης δεδομένων, η περιγραφική ανάλυση και η διερευνητική ανάλυση δεδομένων, που συμβαδίζουν, παρόλο που έχουν διαφορετικούς στόχους.

Ενώ η πρώτη εστιάζει στην περιγραφή της συμπεριφοράς των μεταβλητών, για παράδειγμα, μέσος όρος, διάμεσος, τρόπος λειτουργίας κ.λπ.

Η διερευνητική ανάλυση στοχεύει στον εντοπισμό σχέσεων μεταξύ μεταβλητών, την εξαγωγή προκαταρκτικών πληροφοριών και την κατεύθυνση της μοντελοποίησης στα πιο κοινά παραδείγματα μηχανικής μάθησης: ταξινόμηση, παλινδρόμηση και ομαδοποίηση.

Κοινώς, και τα δύο μπορεί να ασχολούνται με γραφική αναπαράσταση. Ωστόσο, μόνο η διερευνητική ανάλυση επιδιώκει να φέρει πρακτικές ιδέες, δηλαδή ιδέες που προκαλούν δράση από τον λήπτη αποφάσεων.

  Τι είναι το περιβάλλον Sandbox;

Τέλος, ενώ η διερευνητική ανάλυση δεδομένων επιδιώκει να λύσει προβλήματα και να φέρει λύσεις που θα καθοδηγήσουν τα βήματα μοντελοποίησης, η περιγραφική ανάλυση, όπως υποδηλώνει το όνομά της, στοχεύει μόνο στην παραγωγή μιας λεπτομερούς περιγραφής του εν λόγω συνόλου δεδομένων.

Περιγραφική Ανάλυση Διερευνητική Ανάλυση ΔεδομένωνΑνάλυση ΣυμπεριφοράΑναλύει τη συμπεριφορά και τη σχέση Παρέχει μια σύνοψη Οδηγεί σε προδιαγραφές και ενέργειεςΟργανώνει δεδομένα σε πίνακες και γραφήματαΟργανώνει δεδομένα σε πίνακες και γραφήματαΔεν έχει σημαντική επεξηγηματική ισχύΈχει σημαντική επεξηγηματική ισχύ

Μερικές περιπτώσεις πρακτικών χρήσεων της ΕΔΑ

#1. Ψηφιακό μάρκετινγκ

Το Digital Marketing έχει εξελιχθεί από μια δημιουργική διαδικασία σε μια διαδικασία που βασίζεται στα δεδομένα. Οι οργανισμοί μάρκετινγκ χρησιμοποιούν διερευνητική ανάλυση δεδομένων για να καθορίσουν τα αποτελέσματα των καμπανιών ή των προσπαθειών και να καθοδηγήσουν τις επενδύσεις των καταναλωτών και τις αποφάσεις στόχευσης.

Οι δημογραφικές μελέτες, η τμηματοποίηση πελατών και άλλες τεχνικές επιτρέπουν στους επαγγελματίες του μάρκετινγκ να χρησιμοποιούν μεγάλες ποσότητες αγορών από καταναλωτές, έρευνες και δεδομένα πάνελ για να κατανοήσουν και να επικοινωνήσουν το μάρκετινγκ στρατηγικής.

Τα εξερευνητικά αναλυτικά στοιχεία Ιστού επιτρέπουν στους επαγγελματίες του μάρκετινγκ να συλλέγουν πληροφορίες σε επίπεδο συνεδρίας σχετικά με τις αλληλεπιδράσεις σε έναν ιστότοπο. Το Google Analytics είναι ένα παράδειγμα ενός δωρεάν και δημοφιλούς εργαλείου ανάλυσης που χρησιμοποιούν οι έμποροι για αυτόν τον σκοπό.

Οι διερευνητικές τεχνικές που χρησιμοποιούνται συχνά στο μάρκετινγκ περιλαμβάνουν μοντελοποίηση μίγματος μάρκετινγκ, αναλύσεις τιμολόγησης και προώθησης, βελτιστοποίηση πωλήσεων και διερευνητική ανάλυση πελατών, π.χ. τμηματοποίηση.

#2. Διερευνητική Ανάλυση Χαρτοφυλακίου

Μια κοινή εφαρμογή της διερευνητικής ανάλυσης δεδομένων είναι η διερευνητική ανάλυση χαρτοφυλακίου. Μια τράπεζα ή μια εταιρεία δανειοδότησης έχει μια συλλογή λογαριασμών διαφορετικής αξίας και κινδύνου.

Οι λογαριασμοί μπορεί να διαφέρουν ανάλογα με την κοινωνική θέση του κατόχου (πλούσιος, μεσαία τάξη, φτωχός κ.λπ.), η γεωγραφική θέση, η καθαρή θέση και πολλοί άλλοι παράγοντες. Ο δανειστής πρέπει να εξισορροπήσει την απόδοση του δανείου με τον κίνδυνο αθέτησης για κάθε δάνειο. Στη συνέχεια, το ερώτημα είναι πώς να εκτιμηθεί το χαρτοφυλάκιο ως σύνολο.

Το δάνειο χαμηλότερου κινδύνου μπορεί να είναι για πολύ πλούσιους ανθρώπους, αλλά υπάρχει πολύ περιορισμένος αριθμός πλουσίων. Από την άλλη πλευρά, πολλοί φτωχοί άνθρωποι μπορούν να δανείσουν, αλλά με μεγαλύτερο κίνδυνο.

Η λύση διερευνητικής ανάλυσης δεδομένων μπορεί να συνδυάσει την ανάλυση χρονοσειρών με πολλά άλλα προβλήματα για να αποφασίσει πότε θα δανειστούν χρήματα σε αυτά τα διαφορετικά τμήματα δανειοληπτών ή το επιτόκιο δανεισμού. Οι τόκοι χρεώνονται στα μέλη ενός τομέα χαρτοφυλακίου για την κάλυψη ζημιών μεταξύ των μελών αυτού του τομέα.

  Ένας πλήρης οδηγός με παραδείγματα κώδικα

#3. Διερευνητική Ανάλυση Κινδύνου

Αναπτύσσονται μοντέλα πρόβλεψης στον τραπεζικό τομέα για να παρέχουν βεβαιότητα σχετικά με τις βαθμολογίες κινδύνου για μεμονωμένους πελάτες. Οι πιστωτικές βαθμολογίες έχουν σχεδιαστεί για να προβλέψουν την παραβατική συμπεριφορά ενός ατόμου και χρησιμοποιούνται ευρέως για την αξιολόγηση της πιστοληπτικής ικανότητας κάθε αιτούντος.

Επιπλέον, η ανάλυση κινδύνου πραγματοποιείται στον επιστημονικό κόσμο και στον ασφαλιστικό κλάδο. Χρησιμοποιείται επίσης ευρέως σε χρηματοπιστωτικά ιδρύματα, όπως εταιρείες διαδικτυακών πυλών πληρωμών, για να αναλυθεί εάν μια συναλλαγή είναι γνήσια ή δόλια.

Για το σκοπό αυτό χρησιμοποιούν το ιστορικό συναλλαγών του πελάτη. Χρησιμοποιείται πιο συχνά σε αγορές με πιστωτική κάρτα. όταν υπάρχει μια ξαφνική απότομη αύξηση στον όγκο συναλλαγών πελάτη, ο πελάτης λαμβάνει μια κλήση επιβεβαίωσης εάν ξεκίνησε τη συναλλαγή. Βοηθά επίσης στη μείωση των απωλειών λόγω τέτοιων συνθηκών.

Διερευνητική Ανάλυση Δεδομένων με τον R

Το πρώτο πράγμα που χρειάζεται για να εκτελέσετε το EDA με το R είναι να κάνετε λήψη του R βάσης και του R Studio (IDE), και στη συνέχεια να εγκαταστήσετε και να φορτώσετε τα ακόλουθα πακέτα:

#Installing Packages
install.packages("dplyr")
install.packages("ggplot2")
install.packages("magrittr") 
install.packages("tsibble")
install.packages("forecast")
install.packages("skimr")

#Loading Packages
library(dplyr)
library(ggplot2)
library(magrittr)
library(tsibble)
library(forecast)
library(skimr)

Για αυτό το σεμινάριο, θα χρησιμοποιήσουμε ένα σύνολο δεδομένων οικονομικών που συνοδεύεται από το R και παρέχει δεδομένα ετήσιων οικονομικών δεικτών της οικονομίας των ΗΠΑ και θα αλλάξουμε το όνομά του σε econ για απλότητα:

econ <- ggplot2::economics

Για να εκτελέσουμε την περιγραφική ανάλυση, θα χρησιμοποιήσουμε το πακέτο skimr, το οποίο υπολογίζει αυτά τα στατιστικά στοιχεία με απλό και καλά παρουσιασμένο τρόπο:

#Descriptive Analysis
skimr::skim(econ)

Μπορείτε επίσης να χρησιμοποιήσετε τη συνάρτηση σύνοψης για περιγραφική ανάλυση:

Εδώ η περιγραφική ανάλυση δείχνει 547 σειρές και 6 στήλες στο σύνολο δεδομένων. Η ελάχιστη τιμή είναι για το 1967-07-01 και η μέγιστη είναι για το 2015-04-01. Ομοίως, δείχνει επίσης τη μέση τιμή και την τυπική απόκλιση.

Τώρα έχετε μια βασική ιδέα για το τι υπάρχει μέσα στο σύνολο δεδομένων econ. Ας σχεδιάσουμε ένα ιστόγραμμα της μεταβλητής uempmed για να δούμε καλύτερα τα δεδομένα:

#Histogram of Unemployment
econ %>%
  ggplot2::ggplot() +
  ggplot2::aes(x = uempmed) +
  ggplot2::geom_histogram() +
  labs(x = "Unemployment", title = "Monthly Unemployment Rate in US between 1967 to 2015")

Η κατανομή του ιστογράμματος δείχνει ότι έχει μια επιμήκη ουρά στα δεξιά. Δηλαδή, υπάρχουν πιθανώς μερικές παρατηρήσεις αυτής της μεταβλητής με πιο «ακραίες» τιμές. Τίθεται το ερώτημα: σε ποια περίοδο πραγματοποιήθηκαν αυτές οι τιμές και ποια είναι η τάση της μεταβλητής;

  Πώς να θυμάστε σημαντικά μηνύματα στο Slack

Ο πιο άμεσος τρόπος προσδιορισμού της τάσης μιας μεταβλητής είναι μέσω ενός γραμμικού γραφήματος. Παρακάτω δημιουργούμε ένα γραμμικό γράφημα και προσθέτουμε μια γραμμή εξομάλυνσης:

#Line Graph of Unemployment
econ %>%
  ggplot2::autoplot(uempmed) +
  ggplot2::geom_smooth()

Χρησιμοποιώντας αυτό το γράφημα, μπορούμε να εντοπίσουμε ότι την πιο πρόσφατη περίοδο, στις τελευταίες παρατηρήσεις από το 2010, υπάρχει μια τάση για αύξηση της ανεργίας, ξεπερνώντας την ιστορία των προηγούμενων δεκαετιών.

Ένα άλλο σημαντικό σημείο, ειδικά σε πλαίσια οικονομικής μοντελοποίησης, είναι η σταθερότητα της σειράς. δηλαδή ο μέσος όρος και η διακύμανση είναι σταθερές στο χρόνο;

Όταν αυτές οι υποθέσεις δεν είναι αληθείς σε μια μεταβλητή, λέμε ότι η σειρά έχει μοναδιαία ρίζα (μη στάσιμη) έτσι ώστε οι κραδασμοί που υφίσταται η μεταβλητή να δημιουργούν ένα μόνιμο αποτέλεσμα.

Φαίνεται ότι ίσχυε για την εν λόγω μεταβλητή, τη διάρκεια της ανεργίας. Είδαμε ότι οι διακυμάνσεις της μεταβλητής έχουν αλλάξει σημαντικά, γεγονός που έχει ισχυρές επιπτώσεις που σχετίζονται με τις οικονομικές θεωρίες που ασχολούνται με τους κύκλους. Όμως, ξεφεύγοντας από τη θεωρία, πώς πρακτικά ελέγχουμε αν η μεταβλητή είναι ακίνητη;

Το πακέτο πρόβλεψης έχει μια εξαιρετική λειτουργία που επιτρέπει την εφαρμογή δοκιμών, όπως το ADF, το KPSS και άλλα, τα οποία ήδη επιστρέφουν τον αριθμό των διαφορών που απαιτούνται για να είναι σταθερή η σειρά:

 #Using ADF test for checking stationarity
forecast::ndiffs( 
  x    = econ$uempmed,
  test = "adf")

Εδώ η τιμή p μεγαλύτερη από 0,05 δείχνει ότι τα δεδομένα είναι μη στάσιμα.

Ένα άλλο σημαντικό ζήτημα στις χρονοσειρές είναι ο εντοπισμός πιθανών συσχετίσεων (η γραμμική σχέση) μεταξύ των τιμών με καθυστέρηση της σειράς. Τα συσχετιστικά ACF και PACF βοηθούν στην αναγνώρισή του.

Καθώς η σειρά δεν έχει εποχικότητα αλλά έχει μια συγκεκριμένη τάση, οι αρχικές αυτοσυσχετίσεις τείνουν να είναι μεγάλες και θετικές, επειδή οι παρατηρήσεις κλείνουν χρονικά είναι επίσης κοντά σε αξία.

Έτσι, η συνάρτηση αυτοσυσχέτισης (ACF) μιας χρονοσειράς με τάση τείνει να έχει θετικές τιμές που μειώνονται αργά καθώς αυξάνονται οι καθυστερήσεις.

#Residuals of Unemployment 
checkresiduals(econ$uempmed) 
pacf(econ$uempmed)

συμπέρασμα

Όταν παίρνουμε στα χέρια μας δεδομένα που είναι περισσότερο ή λιγότερο καθαρά, δηλαδή ήδη καθαρισμένα, μπαίνουμε στον πειρασμό αμέσως να βουτήξουμε στο στάδιο κατασκευής του μοντέλου για να βγάλουμε τα πρώτα αποτελέσματα. Πρέπει να αντισταθείτε σε αυτόν τον πειρασμό και να αρχίσετε να κάνετε διερευνητική ανάλυση δεδομένων, η οποία είναι απλή αλλά μας βοηθά να αντλήσουμε ισχυρές γνώσεις στα δεδομένα.

Μπορείτε επίσης να εξερευνήσετε μερικούς καλύτερους πόρους για να μάθετε στατιστικά στοιχεία για την Επιστήμη των Δεδομένων.