Επεξήγηση της παλινδρόμησης έναντι της ταξινόμησης στη μηχανική μάθηση

Η παλινδρόμηση και η ταξινόμηση είναι δύο από τους πιο θεμελιώδεις και σημαντικούς τομείς της μηχανικής μάθησης.

Μπορεί να είναι δύσκολο να διακρίνετε μεταξύ των αλγορίθμων παλινδρόμησης και ταξινόμησης όταν μόλις μπείτε στη μηχανική εκμάθηση. Η κατανόηση του τρόπου με τον οποίο λειτουργούν αυτοί οι αλγόριθμοι και πότε πρέπει να χρησιμοποιηθούν μπορεί να είναι ζωτικής σημασίας για τη λήψη ακριβών προβλέψεων και αποτελεσματικών αποφάσεων.

Αρχικά, ας δούμε τη μηχανική εκμάθηση.

Τι είναι η μηχανική μάθηση;

Η μηχανική μάθηση είναι μια μέθοδος διδασκαλίας των υπολογιστών να μαθαίνουν και να λαμβάνουν αποφάσεις χωρίς να είναι ρητά προγραμματισμένοι. Περιλαμβάνει την εκπαίδευση ενός μοντέλου υπολογιστή σε ένα σύνολο δεδομένων, επιτρέποντας στο μοντέλο να κάνει προβλέψεις ή αποφάσεις με βάση μοτίβα και σχέσεις στα δεδομένα.

Υπάρχουν τρεις κύριοι τύποι μηχανικής μάθησης: η εποπτευόμενη μάθηση, η μάθηση χωρίς επίβλεψη και η ενισχυτική μάθηση.

Στην εποπτευόμενη μάθηση, το μοντέλο παρέχεται με επισημασμένα δεδομένα εκπαίδευσης, συμπεριλαμβανομένων των δεδομένων εισόδου και της αντίστοιχης σωστής εξόδου. Ο στόχος είναι το μοντέλο να κάνει προβλέψεις σχετικά με την έξοδο για νέα, αόρατα δεδομένα με βάση τα μοτίβα που έμαθε από τα δεδομένα εκπαίδευσης.

Στην μάθηση χωρίς επίβλεψη, στο μοντέλο δεν παρέχονται δεδομένα εκπαίδευσης με ετικέτα. Αντίθετα, αφήνεται να ανακαλύψει ανεξάρτητα πρότυπα και σχέσεις στα δεδομένα. Αυτό μπορεί να χρησιμοποιηθεί για τον εντοπισμό ομάδων ή συστάδων στα δεδομένα ή για την εύρεση ανωμαλιών ή ασυνήθιστων μοτίβων.

Και στο Reinforcement Learning, ένας πράκτορας μαθαίνει να αλληλεπιδρά με το περιβάλλον του για να μεγιστοποιήσει μια ανταμοιβή. Περιλαμβάνει την εκπαίδευση ενός μοντέλου για τη λήψη αποφάσεων με βάση την ανατροφοδότηση που λαμβάνει από το περιβάλλον.

Η μηχανική εκμάθηση χρησιμοποιείται σε διάφορες εφαρμογές, όπως η αναγνώριση εικόνας και ομιλίας, η επεξεργασία φυσικής γλώσσας, η ανίχνευση απάτης και τα αυτοοδηγούμενα αυτοκίνητα. Έχει τη δυνατότητα να αυτοματοποιήσει πολλές εργασίες και να βελτιώσει τη λήψη αποφάσεων σε διάφορους κλάδους.

Αυτό το άρθρο εστιάζει κυρίως στις έννοιες ταξινόμησης και παλινδρόμησης, οι οποίες εμπίπτουν στην εποπτευόμενη μηχανική εκμάθηση. Ας αρχίσουμε!

Ταξινόμηση στη Μηχανική Μάθηση

Η ταξινόμηση είναι μια τεχνική μηχανικής μάθησης που περιλαμβάνει την εκπαίδευση ενός μοντέλου για την ανάθεση μιας ετικέτας τάξης σε μια δεδομένη είσοδο. Είναι μια εποπτευόμενη μαθησιακή εργασία, που σημαίνει ότι το μοντέλο εκπαιδεύεται σε ένα επισημασμένο σύνολο δεδομένων που περιλαμβάνει παραδείγματα των δεδομένων εισόδου και τις αντίστοιχες ετικέτες κλάσεων.

Το μοντέλο στοχεύει να μάθει τη σχέση μεταξύ των δεδομένων εισόδου και των ετικετών κλάσης για να προβλέψει την ετικέτα κλάσης για νέα, αόρατη είσοδο.

Υπάρχουν πολλοί διαφορετικοί αλγόριθμοι που μπορούν να χρησιμοποιηθούν για ταξινόμηση, συμπεριλαμβανομένης της λογιστικής παλινδρόμησης, των δέντρων αποφάσεων και των μηχανών διανυσμάτων υποστήριξης. Η επιλογή του αλγορίθμου θα εξαρτηθεί από τα χαρακτηριστικά των δεδομένων και την επιθυμητή απόδοση του μοντέλου.

Ορισμένες κοινές εφαρμογές ταξινόμησης περιλαμβάνουν ανίχνευση ανεπιθύμητων μηνυμάτων, ανάλυση συναισθημάτων και ανίχνευση απάτης. Σε κάθε μία από αυτές τις περιπτώσεις, τα δεδομένα εισόδου μπορεί να περιλαμβάνουν κείμενο, αριθμητικές τιμές ή συνδυασμό και των δύο. Οι ετικέτες κλάσεων θα μπορούσαν να είναι δυαδικές (π.χ. ανεπιθύμητη ή μη ανεπιθύμητη) ή πολλαπλών κλάσεων (π.χ. θετικό, ουδέτερο, αρνητικό συναίσθημα).

  Εξασκήστε τις δεξιότητές σας SQL σε αυτές τις 6 πλατφόρμες κωδικοποίησης

Για παράδειγμα, εξετάστε ένα σύνολο δεδομένων από κριτικές πελατών για ένα προϊόν. Τα δεδομένα εισαγωγής μπορεί να είναι το κείμενο της κριτικής και η ετικέτα της τάξης μπορεί να είναι μια βαθμολογία (π.χ. θετική, ουδέτερη, αρνητική). Το μοντέλο θα εκπαιδευόταν σε ένα σύνολο δεδομένων με επισημασμένες κριτικές και στη συνέχεια θα μπορούσε να προβλέψει τη βαθμολογία μιας νέας κριτικής που δεν είχε δει πριν.

Τύποι αλγορίθμων ταξινόμησης ML

Υπάρχουν διάφοροι τύποι αλγορίθμων ταξινόμησης στη μηχανική μάθηση:

Logistic Regression

Αυτό είναι ένα γραμμικό μοντέλο που χρησιμοποιείται για δυαδική ταξινόμηση. Χρησιμοποιείται για να προβλέψει την πιθανότητα να συμβεί ένα συγκεκριμένο γεγονός. Ο στόχος της λογιστικής παλινδρόμησης είναι να βρεθούν οι καλύτεροι συντελεστές (βάρη) που ελαχιστοποιούν το σφάλμα μεταξύ της προβλεπόμενης πιθανότητας και του παρατηρούμενου αποτελέσματος.

Αυτό γίνεται χρησιμοποιώντας έναν αλγόριθμο βελτιστοποίησης, όπως το gradient descent, για την προσαρμογή των συντελεστών έως ότου το μοντέλο ταιριάζει στα δεδομένα εκπαίδευσης όσο το δυνατόν καλύτερα.

Δέντρα απόφασης

Αυτά είναι μοντέλα που μοιάζουν με δέντρα που λαμβάνουν αποφάσεις με βάση τις τιμές χαρακτηριστικών. Μπορούν να χρησιμοποιηθούν τόσο για δυαδική όσο και για πολυκλάση ταξινόμηση. Τα δέντρα απόφασης έχουν πολλά πλεονεκτήματα, συμπεριλαμβανομένης της απλότητας και της διαλειτουργικότητάς τους.

Είναι επίσης γρήγοροι στο να εκπαιδεύονται και να κάνουν προβλέψεις και μπορούν να χειριστούν τόσο αριθμητικά όσο και κατηγορικά δεδομένα. Ωστόσο, μπορεί να είναι επιρρεπείς στην υπερβολική εφαρμογή, ειδικά αν το δέντρο είναι βαθύ και έχει πολλά κλαδιά.

Τυχαία Ταξινόμηση Δασών

Η τυχαία ταξινόμηση δασών είναι μια μέθοδος συνόλου που συνδυάζει τις προβλέψεις πολλαπλών δέντρων αποφάσεων για να κάνει μια πιο ακριβή και σταθερή πρόβλεψη. Είναι λιγότερο επιρρεπές σε υπερπροσαρμογή από ένα δέντρο απόφασης επειδή οι προβλέψεις των μεμονωμένων δέντρων υπολογίζονται κατά μέσο όρο, γεγονός που μειώνει τη διακύμανση στο μοντέλο.

AdaBoost

Αυτός είναι ένας αλγόριθμος ενίσχυσης που αλλάζει προσαρμοστικά το βάρος των λανθασμένων παραδειγμάτων στο σετ εκπαίδευσης. Συχνά χρησιμοποιείται για δυαδική ταξινόμηση.

Ο αφελής Bayes

Το Naïve Bayes βασίζεται στο θεώρημα του Bayes, το οποίο είναι ένας τρόπος ενημέρωσης της πιθανότητας ενός γεγονότος με βάση νέα στοιχεία. Είναι ένας πιθανοτικός ταξινομητής που χρησιμοποιείται συχνά για ταξινόμηση κειμένου και φιλτράρισμα ανεπιθύμητων μηνυμάτων.

Κ-Πλησιότερος γείτονας

Το K-Nearest Neighbors (KNN) χρησιμοποιείται για εργασίες ταξινόμησης και παλινδρόμησης. Είναι μια μη παραμετρική μέθοδος που ταξινομεί ένα σημείο δεδομένων με βάση την κλάση των πλησιέστερων γειτόνων του. Το KNN έχει πολλά πλεονεκτήματα, συμπεριλαμβανομένης της απλότητάς του και του γεγονότος ότι είναι εύκολο να εφαρμοστεί. Μπορεί επίσης να χειριστεί αριθμητικά και κατηγορικά δεδομένα και δεν κάνει υποθέσεις σχετικά με την υποκείμενη κατανομή δεδομένων.

Ενίσχυση κλίσης

Αυτά είναι σύνολα αδύναμων μαθητών που εκπαιδεύονται διαδοχικά, με κάθε μοντέλο να προσπαθεί να διορθώσει τα λάθη του προηγούμενου μοντέλου. Μπορούν να χρησιμοποιηθούν τόσο για ταξινόμηση όσο και για παλινδρόμηση.

Παλινδρόμηση στη Μηχανική Μάθηση

Στη μηχανική μάθηση, η παλινδρόμηση είναι ένας τύπος εποπτευόμενης μάθησης όπου ο στόχος είναι η πρόβλεψη εξαρτώμενης μεταβλητής με βάση ένα ή περισσότερα χαρακτηριστικά εισόδου (ονομάζονται επίσης προγνωστικοί παράγοντες ή ανεξάρτητες μεταβλητές).

Οι αλγόριθμοι παλινδρόμησης χρησιμοποιούνται για να μοντελοποιήσουν τη σχέση μεταξύ των εισόδων και των εξόδων και να κάνουν προβλέψεις με βάση αυτή τη σχέση. Η παλινδρόμηση μπορεί να χρησιμοποιηθεί τόσο για συνεχείς όσο και για κατηγορικές εξαρτημένες μεταβλητές.

  Δημιουργήστε ένα εντυπωσιακό βιογραφικό βίντεο με αυτά τα 11 εργαλεία

Γενικά, ο στόχος της παλινδρόμησης είναι να χτίσει ένα μοντέλο που να μπορεί να προβλέψει με ακρίβεια την έξοδο με βάση τα χαρακτηριστικά εισόδου και να κατανοήσει την υποκείμενη σχέση μεταξύ των χαρακτηριστικών εισόδου και της εξόδου.

Η ανάλυση παλινδρόμησης χρησιμοποιείται σε διάφορους τομείς, συμπεριλαμβανομένων των οικονομικών, των οικονομικών, του μάρκετινγκ και της ψυχολογίας, για την κατανόηση και την πρόβλεψη των σχέσεων μεταξύ διαφορετικών μεταβλητών. Είναι ένα θεμελιώδες εργαλείο για την ανάλυση δεδομένων και τη μηχανική μάθηση και χρησιμοποιείται για την πραγματοποίηση προβλέψεων, τον εντοπισμό τάσεων και την κατανόηση των υποκείμενων μηχανισμών που οδηγούν τα δεδομένα.

Για παράδειγμα, σε ένα απλό μοντέλο γραμμικής παλινδρόμησης, ο στόχος μπορεί να είναι η πρόβλεψη της τιμής ενός σπιτιού με βάση το μέγεθος, τη θέση του και άλλα χαρακτηριστικά. Το μέγεθος του σπιτιού και η θέση του θα ήταν οι ανεξάρτητες μεταβλητές και η τιμή του σπιτιού θα ήταν η εξαρτημένη μεταβλητή.

Το μοντέλο θα εκπαιδευτεί σε δεδομένα εισόδου που περιλαμβάνουν το μέγεθος και τη θέση πολλών σπιτιών, μαζί με τις αντίστοιχες τιμές τους. Μόλις το μοντέλο εκπαιδευτεί, μπορεί να χρησιμοποιηθεί για να κάνει προβλέψεις σχετικά με την τιμή ενός σπιτιού, δεδομένου του μεγέθους και της θέσης του.

Τύποι αλγορίθμων παλινδρόμησης ML

Οι αλγόριθμοι παλινδρόμησης είναι διαθέσιμοι σε διάφορες μορφές και η χρήση κάθε αλγορίθμου εξαρτάται από τον αριθμό των παραμέτρων, όπως το είδος της τιμής του χαρακτηριστικού, το μοτίβο της γραμμής τάσης και τον αριθμό των ανεξάρτητων μεταβλητών. Οι τεχνικές παλινδρόμησης που χρησιμοποιούνται συχνά περιλαμβάνουν:

Γραμμικής παλινδρόμησης

Αυτό το απλό γραμμικό μοντέλο χρησιμοποιείται για την πρόβλεψη μιας συνεχούς τιμής με βάση ένα σύνολο χαρακτηριστικών. Χρησιμοποιείται για τη μοντελοποίηση της σχέσης μεταξύ των χαρακτηριστικών και της μεταβλητής στόχου προσαρμόζοντας μια γραμμή στα δεδομένα.

Πολυωνυμική παλινδρόμηση

Αυτό είναι ένα μη γραμμικό μοντέλο που χρησιμοποιείται για την προσαρμογή μιας καμπύλης στα δεδομένα. Χρησιμοποιείται για τη μοντελοποίηση σχέσεων μεταξύ των χαρακτηριστικών και της μεταβλητής στόχου όταν η σχέση δεν είναι γραμμική. Βασίζεται στην ιδέα της προσθήκης όρων υψηλότερης τάξης στο γραμμικό μοντέλο για την καταγραφή μη γραμμικών σχέσεων μεταξύ των εξαρτημένων και ανεξάρτητων μεταβλητών.

Παλινδρόμηση κορυφογραμμής

Αυτό είναι ένα γραμμικό μοντέλο που αντιμετωπίζει την υπερπροσαρμογή στη γραμμική παλινδρόμηση. Είναι μια κανονικοποιημένη έκδοση της γραμμικής παλινδρόμησης που προσθέτει έναν όρο ποινής στη συνάρτηση κόστους για να μειώσει την πολυπλοκότητα του μοντέλου.

Υποστήριξη διανυσματικής παλινδρόμησης

Όπως τα SVM, η Υποστήριξη Διανυσματική Παλινδρόμηση είναι ένα γραμμικό μοντέλο που προσπαθεί να προσαρμόσει τα δεδομένα βρίσκοντας το υπερεπίπεδο που μεγιστοποιεί το περιθώριο μεταξύ των εξαρτημένων και ανεξάρτητων μεταβλητών.

Ωστόσο, σε αντίθεση με τα SVM, τα οποία χρησιμοποιούνται για ταξινόμηση, το SVR χρησιμοποιείται για εργασίες παλινδρόμησης, όπου ο στόχος είναι να προβλέψουμε μια συνεχή τιμή και όχι μια ετικέτα κλάσης.

Παλινδρόμηση Λάσο

Αυτό είναι ένα άλλο τακτοποιημένο γραμμικό μοντέλο που χρησιμοποιείται για την αποφυγή υπερπροσαρμογής στη γραμμική παλινδρόμηση. Προσθέτει έναν όρο ποινής στη συνάρτηση κόστους με βάση την απόλυτη τιμή των συντελεστών.

Γραμμική παλινδρόμηση Bayes

Η γραμμική παλινδρόμηση Bayes είναι μια πιθανολογική προσέγγιση της γραμμικής παλινδρόμησης που βασίζεται στο θεώρημα του Bayes, το οποίο είναι ένας τρόπος ενημέρωσης της πιθανότητας ενός γεγονότος με βάση νέα στοιχεία.

Αυτό το μοντέλο παλινδρόμησης στοχεύει στην εκτίμηση της μεταγενέστερης κατανομής των παραμέτρων του μοντέλου δεδομένων των δεδομένων. Αυτό γίνεται ορίζοντας μια προηγούμενη κατανομή στις παραμέτρους και στη συνέχεια χρησιμοποιώντας το θεώρημα Bayes για να ενημερώσετε την κατανομή με βάση τα παρατηρούμενα δεδομένα.

  Μπορείτε να κάνετε αίτηση για DoorDash μετά την απενεργοποίηση;

Παλινδρόμηση εναντίον Ταξινόμησης

Η παλινδρόμηση και η ταξινόμηση είναι δύο τύποι εποπτευόμενης μάθησης, που σημαίνει ότι χρησιμοποιούνται για την πρόβλεψη ενός αποτελέσματος με βάση ένα σύνολο χαρακτηριστικών εισόδου. Ωστόσο, υπάρχουν μερικές βασικές διαφορές μεταξύ των δύο:

RegressionClassificationDefinitionΈνας τύπος εποπτευόμενης μάθησης που προβλέπει μια συνεχή τιμήΈνας τύπος εποπτευόμενης μάθησης που προβλέπει μια κατηγορική τιμή Τύπος εξόδουΣυνεχήςΔιακριτικήΑξιολόγηση ΜετρικέςΜέσο τετράγωνο σφάλμα (MSE), ρίζα μέσο τετράγωνο σφάλμα (RMSE) Ακρίβεια, ακρίβεια, ανάκληση, αναδρομή, F1, hmsL, βαθμολόγηση Decision TreeLogistic regression, SVM, Naïve Bayes, KNN, Decision TreeModel Complexity Λιγότερο περίπλοκα μοντέλαΠιο πολύπλοκα μοντέλαΥποθέσεις Γραμμική σχέση μεταξύ χαρακτηριστικών και στόχουΔεν υπάρχουν συγκεκριμένες υποθέσεις σχετικά με τη σχέση μεταξύ χαρακτηριστικών και στόχουΚλάση ανισορροπίαΜη εφαρμόσιμηΜπορεί να είναι πρόβλημαΕξαιρετικές επιδόσειςΜπορεί συνήθως να επηρεάσουν το μοντέλο. δεν ταξινομούνται με βάση τη σημασίαΠαράδειγμα εφαρμογών Πρόβλεψη τιμών, θερμοκρασιών, ποσοτήτων Πρόβλεψη αν είναι ανεπιθύμητη αλληλογραφία, πρόβλεψη εκτροπής πελατών

Πόροι μάθησης

Ίσως είναι δύσκολο να επιλέξετε τους καλύτερους διαδικτυακούς πόρους για την κατανόηση των εννοιών μηχανικής εκμάθησης. Εξετάσαμε τα δημοφιλή μαθήματα που παρέχονται από αξιόπιστες πλατφόρμες για να σας παρουσιάσουμε τις προτάσεις μας για τα κορυφαία μαθήματα ML σχετικά με την παλινδρόμηση και την ταξινόμηση.

#1. Bootcamp ταξινόμησης μηχανικής μάθησης σε Python

Αυτό είναι ένα μάθημα που προσφέρεται στην πλατφόρμα Udemy. Καλύπτει μια ποικιλία αλγορίθμων και τεχνικών ταξινόμησης, συμπεριλαμβανομένων των δέντρων αποφάσεων και της λογιστικής παλινδρόμησης, και υποστηρίζει διανυσματικές μηχανές.

Μπορείτε επίσης να μάθετε για θέματα όπως η υπερπροσαρμογή, η ανταλλαγή μεροληψίας-διακύμανσης και η αξιολόγηση μοντέλου. Το μάθημα χρησιμοποιεί βιβλιοθήκες Python όπως το sci-kit-learn και τα pandas για την εφαρμογή και αξιολόγηση μοντέλων μηχανικής μάθησης. Επομένως, απαιτούνται βασικές γνώσεις python για να ξεκινήσετε με αυτό το μάθημα.

#2. Masterclass παλινδρόμησης μηχανικής μάθησης σε Python

Σε αυτό το μάθημα Udemy, ο εκπαιδευτής καλύπτει τα βασικά και την υποκείμενη θεωρία διαφόρων αλγορίθμων παλινδρόμησης, συμπεριλαμβανομένων των τεχνικών γραμμικής παλινδρόμησης, πολυωνυμικής παλινδρόμησης και τεχνικών παλινδρόμησης Lasso & Ridge.

Μέχρι το τέλος αυτού του μαθήματος, θα είστε σε θέση να εφαρμόσετε αλγόριθμους παλινδρόμησης και να αξιολογήσετε την απόδοση εκπαιδευμένων μοντέλων Μηχανικής μάθησης χρησιμοποιώντας διάφορους Βασικούς δείκτες απόδοσης.

Τυλίγοντας

Οι αλγόριθμοι μηχανικής μάθησης μπορούν να είναι πολύ χρήσιμοι σε πολλές εφαρμογές και μπορούν να βοηθήσουν στην αυτοματοποίηση και τον εξορθολογισμό πολλών διαδικασιών. Οι αλγόριθμοι ML χρησιμοποιούν στατιστικές τεχνικές για να μάθουν μοτίβα σε δεδομένα και να κάνουν προβλέψεις ή αποφάσεις με βάση αυτά τα μοτίβα.

Μπορούν να εκπαιδευτούν σε μεγάλους όγκους δεδομένων και μπορούν να χρησιμοποιηθούν για την εκτέλεση εργασιών που θα ήταν δύσκολο ή χρονοβόρο για τον άνθρωπο να κάνει χειροκίνητα.

Κάθε αλγόριθμος ML έχει τα δυνατά και τα αδύνατα σημεία του και η επιλογή του αλγορίθμου εξαρτάται από τη φύση των δεδομένων και τις απαιτήσεις της εργασίας. Είναι σημαντικό να επιλέξετε τον κατάλληλο αλγόριθμο ή συνδυασμό αλγορίθμων για το συγκεκριμένο πρόβλημα που προσπαθείτε να λύσετε.

Είναι σημαντικό να επιλέξετε τον σωστό τύπο αλγορίθμου για το πρόβλημά σας, καθώς η χρήση λανθασμένου τύπου αλγορίθμου μπορεί να οδηγήσει σε κακή απόδοση και ανακριβείς προβλέψεις. Εάν δεν είστε σίγουροι ποιον αλγόριθμο να χρησιμοποιήσετε, μπορεί να είναι χρήσιμο να δοκιμάσετε αλγόριθμους παλινδρόμησης και ταξινόμησης και να συγκρίνετε την απόδοσή τους στο σύνολο δεδομένων σας.

Ελπίζω να βρήκατε αυτό το άρθρο χρήσιμο για την εκμάθηση της παλινδρόμησης έναντι της ταξινόμησης στη μηχανική μάθηση. Μπορεί επίσης να σας ενδιαφέρει να μάθετε για κορυφαία μοντέλα Machine Learning.