Τρόπος ανάλυσης κειμένου

Εάν έχετε μάθει μερικές γλώσσες προγραμματισμού υπολογιστών, ίσως έχετε ακούσει τον όρο, ανάλυση κειμένου. Αυτό χρησιμοποιείται για την απλοποίηση των πολύπλοκων τιμών δεδομένων του αρχείου. Το άρθρο σάς βοηθά να μάθετε πώς να αναλύετε κείμενο χρησιμοποιώντας τη γλώσσα. Επιπλέον, εάν αντιμετωπίσατε σφάλμα στο κείμενο ανάλυσης x, θα γνωρίζετε πώς να διορθώσετε το σφάλμα ανάλυσης στο άρθρο.

Τρόπος ανάλυσης κειμένου

Σε αυτό το άρθρο δείξαμε έναν πλήρη οδηγό για την ανάλυση κειμένου με διάφορους τρόπους και επίσης δώσαμε εν συντομία εισαγωγή στην ανάλυση κειμένου.

Τι είναι το Parsing Text;

Πριν ψάξετε για να μάθετε τις έννοιες της ανάλυσης κειμένου χρησιμοποιώντας οποιονδήποτε κώδικα. Είναι σημαντικό να γνωρίζετε τα βασικά της γλώσσας και την κωδικοποίηση.

NLP ή Επεξεργασία Φυσικής Γλώσσας

Για την ανάλυση κειμένου, χρησιμοποιείται η Επεξεργασία Φυσικής Γλώσσας ή το NLP, που είναι υποπεδίο του τομέα Τεχνητής Νοημοσύνης. Η γλώσσα Python, η οποία είναι μία από τις γλώσσες που ανήκουν στην κατηγορία, χρησιμοποιείται για την ανάλυση κειμένου.

Οι κωδικοί NLP επιτρέπουν στους υπολογιστές να κατανοούν και να επεξεργάζονται ανθρώπινες γλώσσες για να τις κάνουν κατάλληλες για διάφορες εφαρμογές. Για να εφαρμοστούν τεχνικές ML ή Machine Learning στη γλώσσα, τα μη δομημένα δεδομένα κειμένου πρέπει να μετατραπούν σε δομημένα δεδομένα πίνακα. Για την ολοκλήρωση της δραστηριότητας ανάλυσης, η γλώσσα Python χρησιμοποιείται για την αλλαγή των κωδικών του προγράμματος.

Τι είναι το Parsing Text;

Η ανάλυση κειμένου σημαίνει απλώς τη μετατροπή των δεδομένων από μια μορφή σε άλλη μορφή. Η μορφή στην οποία αποθηκεύεται το αρχείο θα αναλυθεί ή θα μετατραπεί σε αρχείο διαφορετικής μορφής για να μπορέσει ο χρήστης να το χρησιμοποιήσει σε διάφορες εφαρμογές.

  • Με άλλα λόγια, η διαδικασία σημαίνει ανάλυση της συμβολοσειράς ή ενός κειμένου και μετατροπή σε λογικά στοιχεία αλλάζοντας τη μορφή του αρχείου.
  • Ορισμένοι κανόνες της γλώσσας Python χρησιμοποιούνται για την ολοκλήρωση αυτής της κοινής προγραμματιστικής εργασίας. Κατά την ανάλυση κειμένου, η δεδομένη σειρά κειμένου αναλύεται σε μικρότερα στοιχεία.

Ποιοι είναι οι λόγοι για την ανάλυση κειμένου;

Οι λόγοι για τους οποίους πρέπει να αναλυθεί το κείμενο δίνονται σε αυτήν την ενότητα και είναι προαπαιτούμενη γνώση πριν μάθετε πώς να αναλύετε κείμενο.

  • Όλα τα ηλεκτρονικά δεδομένα δεν θα έχουν την ίδια μορφή και ενδέχεται να διαφέρουν ανάλογα με τις διάφορες εφαρμογές.
  • Οι μορφές δεδομένων διαφέρουν για διάφορες εφαρμογές και ένας ασύμβατος κώδικας θα οδηγούσε σε αυτό το σφάλμα.
  • Δεν υπάρχει μεμονωμένο καθολικό πρόγραμμα υπολογιστή για την επιλογή των δεδομένων όλων των μορφών δεδομένων.

Μέθοδος 1: Μέσω της κλάσης DataFrame

Η κλάση DataFrame της γλώσσας Python έχει όλες τις απαιτούμενες συναρτήσεις για την ανάλυση κειμένου. Αυτή η ενσωματωμένη βιβλιοθήκη φιλοξενεί τους απαραίτητους κωδικούς για την ανάλυση δεδομένων οποιασδήποτε μορφής σε άλλη μορφή.

Σύντομη εισαγωγή της κλάσης DataFrame

Το DataFrame Class είναι μια πλούσια σε χαρακτηριστικά δομή δεδομένων, η οποία χρησιμοποιείται ως εργαλείο ανάλυσης δεδομένων. Αυτό είναι ένα ισχυρό εργαλείο ανάλυσης δεδομένων που μπορεί να χρησιμοποιηθεί για την ανάλυση δεδομένων με ελάχιστη προσπάθεια.

  • Ο κώδικας διαβάζεται στο pandas DataFrame για να πραγματοποιηθεί η ανάλυση στη γλώσσα Python.
  • Η Τάξη συνοδεύεται από πολλά πακέτα που παρέχονται από τα πάντα τα οποία χρησιμοποιούνται από αναλυτές δεδομένων Python.
  • Το χαρακτηριστικό αυτής της κλάσης είναι μια αφαίρεση, ένας κώδικας στον οποίο η εσωτερική λειτουργικότητα της συνάρτησης είναι κρυμμένη από τους χρήστες, της βιβλιοθήκης NumPy. Η βιβλιοθήκη NumPy είναι μια βιβλιοθήκη python που περιλαμβάνει τις εντολές και τις λειτουργίες για την εργασία με πίνακες.
  • Η κλάση DataFrame μπορεί να χρησιμοποιηθεί για την απόδοση ενός δισδιάστατου πίνακα με πολλαπλούς δείκτες σειρών και στηλών. Αυτοί οι δείκτες βοηθούν στην αποθήκευση πολυδιάστατων δεδομένων και, ως εκ τούτου, ονομάζονται MultiIndex. Αυτά πρέπει να τροποποιηθούν για να ξέρετε πώς να διορθώσετε το σφάλμα ανάλυσης.

Τα panda της γλώσσας Python βοηθούν στην εκτέλεση των λειτουργιών SQL ή τύπου βάσης δεδομένων με εξαιρετική τελειότητα για την αποφυγή σφαλμάτων στην ανάλυση του κειμένου x. Περιέχει επίσης ορισμένα εργαλεία IO που βοηθούν στην ανάλυση των αρχείων CSV, MS Excel, JSON, HDF5 και άλλων μορφών δεδομένων.

Διαδικασία ανάλυσης κειμένου με χρήση της κλάσης DataFrame

Για να μάθετε πώς να αναλύετε κείμενο, μπορείτε να χρησιμοποιήσετε την τυπική διαδικασία χρησιμοποιώντας την κλάση DataFrame που δίνεται σε αυτήν την ενότητα.

  • Αποκρυπτογραφήστε τη μορφή δεδομένων των δεδομένων εισόδου.
  • Αποφασίστε τα δεδομένα εξόδου των δεδομένων, όπως CSV ή Τιμή διαχωρισμένη με κόμμα.
  • Γράψτε στον κώδικα έναν πρωτόγονο τύπο δεδομένων όπως λίστα ή dict.

Σημείωση: Η εγγραφή του κώδικα σε ένα κενό DataFrame μπορεί να είναι κουραστική και περίπλοκη. Τα panda επιτρέπουν τη δημιουργία των δεδομένων στην κλάση DataFrame από αυτούς τους τύπους δεδομένων. Ως εκ τούτου, τα δεδομένα στον πρωτόγονο τύπο δεδομένων μπορούν εύκολα να αναλυθούν στην απαιτούμενη μορφή δεδομένων.

  • Αναλύστε τα δεδομένα χρησιμοποιώντας το εργαλείο ανάλυσης δεδομένων, pandas DataFrame και εκτυπώστε το αποτέλεσμα.

Επιλογή I: Τυπική μορφή

Η τυπική μέθοδος για τη μορφοποίηση οποιουδήποτε αρχείου με συγκεκριμένη μορφή δεδομένων, όπως το CSV, εξηγείται εδώ.

  • Αποθηκεύστε το αρχείο με τις τιμές δεδομένων τοπικά στον υπολογιστή σας. Για παράδειγμα, μπορείτε να ονομάσετε το αρχείο data.txt.
  • Εισαγάγετε το αρχείο σε pandas με συγκεκριμένο όνομα και εισαγάγετε τα δεδομένα σε άλλη μεταβλητή. Για παράδειγμα, τα panda της γλώσσας εισάγονται στο όνομα pd στον κώδικα που δίνεται.
  • Η εισαγωγή θα πρέπει να έχει έναν πλήρη κωδικό με τις λεπτομέρειες του ονόματος του αρχείου εισόδου, της συνάρτησης και της μορφής του αρχείου εισόδου.

Σημείωση: Εδώ, η μεταβλητή με το όνομα res χρησιμοποιείται για την εκτέλεση της συνάρτησης ανάγνωσης των δεδομένων στο αρχείο data.txt χρησιμοποιώντας τα pandas που έχουν εισαχθεί στο pd. Η μορφή δεδομένων του κειμένου εισαγωγής καθορίζεται σε μορφή CSV.

  • Καλέστε τον επώνυμο τύπο αρχείου και αναλύστε το αναλυμένο κείμενο στο εκτυπωμένο αποτέλεσμα. Για παράδειγμα, η εντολή res μετά την εκτέλεση της γραμμής εντολών θα βοηθήσει στην εκτύπωση του αναλυμένου κειμένου.

Ένα παράδειγμα κώδικα για τη διαδικασία που εξηγήθηκε παραπάνω δίνεται παρακάτω και θα βοηθήσει στην κατανόηση του τρόπου ανάλυσης κειμένου.

import pandas as pd
res = pd.read_csv(‘data.txt’)
res

Σε αυτήν την περίπτωση, εάν εισαγάγετε τις τιμές δεδομένων στο αρχείο data.txt όπως π.χ [1,2,3]θα αναλυόταν και θα εμφανιζόταν ως 1 2 3.

  Πώς να επιλέξετε την καλύτερη υπηρεσία ελέγχου ιστορικού

Επιλογή II: Μέθοδος συμβολοσειράς

Εάν το κείμενο που δίνεται στον κώδικα περιέχει μόνο συμβολοσειρές ή άλφα χαρακτήρες, οι ειδικοί χαρακτήρες στη συμβολοσειρά, όπως κόμματα, κενό κ.λπ., μπορούν να χρησιμοποιηθούν για τον διαχωρισμό και την ανάλυση του κειμένου. Η διαδικασία είναι παρόμοια με τις κοινές λειτουργίες εσωτερικής συμβολοσειράς. Για να βρείτε πώς να διορθώσετε το σφάλμα ανάλυσης, πρέπει να ακολουθήσετε τη διαδικασία ανάλυσης του κειμένου χρησιμοποιώντας αυτήν την επιλογή που εξηγείται παρακάτω.

  • Τα δεδομένα εξάγονται από τη συμβολοσειρά και σημειώνονται όλοι οι ειδικοί χαρακτήρες που χωρίζουν το κείμενο.

Για παράδειγμα, στον κώδικα που δίνεται παρακάτω, προσδιορίζονται οι ειδικοί χαρακτήρες στη συμβολοσειρά my_string, οι οποίοι είναι, ‘,’ και ‘:’. Αυτή η διαδικασία πρέπει να γίνει προσεκτικά για να αποφευχθεί το σφάλμα στην ανάλυση του κειμένου x.

  • Το κείμενο στη συμβολοσειρά χωρίζεται ξεχωριστά με βάση τις τιμές και τη θέση των ειδικών χαρακτήρων.

Για παράδειγμα, η συμβολοσειρά χωρίζεται σε τιμές δεδομένων κειμένου με βάση τους ειδικούς χαρακτήρες που προσδιορίζονται χρησιμοποιώντας την εντολή split.

  • Οι τιμές δεδομένων της συμβολοσειράς εκτυπώνονται μόνες ως το αναλυμένο κείμενο. Εδώ, η δήλωση εκτύπωσης χρησιμοποιείται για την εκτύπωση της τιμής αναλυμένων δεδομένων του κειμένου.

Το δείγμα κώδικα για τη διαδικασία που εξηγήθηκε παραπάνω δίνεται παρακάτω.

my_string = ‘Names: Tech, computer’
sfinal = [name.strip() for name in my_string.split(‘:’)[1].split(‘,’)]
print(“Names: {}”.format(sfinal))

Σε αυτήν την περίπτωση, το αποτέλεσμα της αναλυμένης συμβολοσειράς θα εμφανίζεται όπως φαίνεται παρακάτω.

Names: [‘Tech’, ‘computer’]

Για να έχετε καλύτερη σαφήνεια και να ξέρετε πώς να αναλύετε κείμενο ενώ χρησιμοποιείτε το κείμενο συμβολοσειράς, χρησιμοποιείται ένας βρόχος for και ο κώδικας τροποποιείται ως εξής.

my_string = ‘Names: Tech, computer’
s1 = my_string.split(‘:’)
s2 = s1[1]
s3 = s2.split(‘,’)
s4 = [name.strip() for name in s3]
for idx, item in enumerate([s1, s2, s3, s4]):
print(“Step {}: {}”.format(idx, item))

Το αποτέλεσμα του αναλυμένου κειμένου για καθένα από αυτά τα βήματα εμφανίζεται όπως δίνεται παρακάτω. Μπορείτε να σημειώσετε ότι, στο Βήμα 0, η συμβολοσειρά διαχωρίζεται με βάση τον ειδικό χαρακτήρα : και οι τιμές δεδομένων κειμένου διαχωρίζονται με βάση τον χαρακτήρα σε περαιτέρω βήματα.

Step 0: [‘Names’, ‘Tech, computer’]
Step 1: Tech, computer
Step 2: [‘ Tech’, ‘ computer’]
Step 3: [‘Tech’, ‘computer’]

Επιλογή III: Ανάλυση σύνθετου αρχείου

Στις περισσότερες περιπτώσεις, τα δεδομένα αρχείου που πρέπει να αναλυθούν περιέχουν διαφορετικούς τύπους δεδομένων και τιμές δεδομένων. Σε αυτήν την περίπτωση, μπορεί να είναι δύσκολο να αναλύσετε το αρχείο χρησιμοποιώντας τις μεθόδους που εξηγήθηκαν προηγουμένως.

Τα χαρακτηριστικά της ανάλυσης των σύνθετων δεδομένων στο αρχείο είναι να κάνουν τις τιμές δεδομένων να εμφανίζονται σε μορφή πίνακα.

  • Ο τίτλος ή τα μεταδεδομένα των τιμών εκτυπώνονται στην κορυφή του αρχείου,
  • Οι μεταβλητές και τα πεδία εκτυπώνονται στην έξοδο σε μορφή πίνακα και
  • Οι τιμές δεδομένων σχηματίζουν ένα σύνθετο κλειδί.

Πριν εμβαθύνουμε στο να μάθετε πώς να αναλύετε κείμενο σε αυτήν τη μέθοδο, είναι απαραίτητο να μάθετε μερικές βασικές έννοιες. Η ανάλυση των τιμών των δεδομένων γίνεται με βάση κανονικές εκφράσεις ή Regex.

Regex Patterns

Για να μάθετε πώς να διορθώσετε το σφάλμα ανάλυσης, πρέπει να διασφαλίσετε ότι τα μοτίβα regex στις εκφράσεις είναι σωστά. Ο κώδικας για την ανάλυση των τιμών δεδομένων των συμβολοσειρών θα περιλαμβάνει τα κοινά μοτίβα Regex που αναφέρονται παρακάτω σε αυτήν την ενότητα.

  • ‘d’: ταιριάζει με το δεκαδικό ψηφίο στη συμβολοσειρά,

  • ‘s’: ταιριάζει με τον χαρακτήρα κενού διαστήματος,

  • ‘w’: ταιριάζει με τον αλφαριθμητικό χαρακτήρα,

  • ‘+’ ή ‘*’ : εκτελεί ένα άπληστο ταίριασμα ταιριάζοντας έναν ή περισσότερους χαρακτήρες στις συμβολοσειρές,

  • ‘a-z’ : ταιριάζει με τις πεζές ομάδες στις τιμές δεδομένων κειμένου,

  • ‘A-Z’ ή ‘a-z’ : ταιριάζει με τις κεφαλαίες και πεζές ομάδες της συμβολοσειράς, και

  • ‘0-9’ : ταιριάζει με τις αριθμητικές τιμές.

Κανονικές εκφράσεις

Οι λειτουργικές μονάδες τυπικής έκφρασης αποτελούν σημαντικό μέρος του πακέτου pandas στη γλώσσα Python και μια λανθασμένη επανάληψη μπορεί να οδηγήσει σε σφάλμα στην ανάλυση του κειμένου x. Είναι μια μικροσκοπική γλώσσα ενσωματωμένη στην Python για να βρει το μοτίβο συμβολοσειράς στην έκφραση. Οι κανονικές εκφράσεις ή Regex είναι συμβολοσειρές με ειδική σύνταξη. Επιτρέπει στο χρήστη να αντιστοιχίσει μοτίβα σε άλλες συμβολοσειρές με βάση τις τιμές στις συμβολοσειρές.

Το Regex δημιουργείται με βάση τον τύπο δεδομένων και την απαίτηση της έκφρασης στη συμβολοσειρά, όπως ‘String = (.*)n. Το regex χρησιμοποιείται πριν από το μοτίβο σε κάθε έκφραση. Τα σύμβολα που χρησιμοποιούνται στις κανονικές εκφράσεις παρατίθενται παρακάτω και θα σας βοηθήσουν να μάθετε πώς να αναλύετε κείμενο.

  • . : για ανάκτηση οποιουδήποτε χαρακτήρα από τα δεδομένα,

  • * : χρησιμοποιήστε μηδέν ή περισσότερα δεδομένα από την προηγούμενη έκφραση,

  • (.*) : για να ομαδοποιήσετε ένα μέρος της κανονικής έκφρασης μέσα στις παρενθέσεις,

  • n: Δημιουργήστε έναν νέο χαρακτήρα γραμμής στο τέλος της γραμμής στον κώδικα,

  • d: δημιουργήστε μια σύντομη ακέραια τιμή στο εύρος 0 έως 9,

  • + : χρησιμοποιήστε ένα ή περισσότερα δεδομένα από την προηγούμενη έκφραση και

  • | : δημιουργία μιας λογικής δήλωσης. χρησιμοποιείται για ή εκφράσεις.

RegexObjects

Το RegexObject είναι μια επιστρεφόμενη τιμή για τη συνάρτηση μεταγλώττισης και χρησιμοποιείται για να επιστρέψει ένα MatchObject εάν η παράσταση ταιριάζει με την τιμή αντιστοίχισης.

1. MatchObject

Καθώς η Boolean τιμή του MatchObject είναι πάντα True, μπορείτε να χρησιμοποιήσετε μια δήλωση if για να προσδιορίσετε τις θετικές αντιστοιχίσεις στο αντικείμενο. Στην περίπτωση χρήσης της εντολής if, η ομάδα που αναφέρεται από το ευρετήριο χρησιμοποιείται για να βρεθεί η αντιστοίχιση του αντικειμένου στην έκφραση.

  • group() επιστρέφει μία ή περισσότερες υποομάδες αντιστοιχίας,

  • Το γκρουπ(0) επιστρέφει ολόκληρο τον αγώνα,

  • Η ομάδα(1) επιστρέφει την πρώτη υποομάδα σε παρένθεση και

  • Ενώ αναφερόμαστε σε πολλές ομάδες, θα πρέπει να χρησιμοποιήσουμε μια συγκεκριμένη επέκταση για python. Αυτή η επέκταση χρησιμοποιείται για τον καθορισμό του ονόματος της ομάδας στην οποία πρέπει να βρεθεί ο αγώνας. Η συγκεκριμένη επέκταση παρέχεται εντός της ομάδας σε παρένθεση. Για παράδειγμα, η έκφραση, (?Pregex1) θα αναφέρεται στη συγκεκριμένη ομάδα με το όνομα group1 και θα ελέγχει για την αντιστοίχιση στην κανονική έκφραση, regex1. Για να μάθετε πώς να διορθώνετε το σφάλμα ανάλυσης, πρέπει να ελέγξετε εάν η ομάδα είναι σωστά σημειωμένη.

2. Μέθοδοι του MatchObject

Ενώ βρίσκετε πώς να αναλύετε κείμενο, είναι σημαντικό να γνωρίζετε ότι το MatchObject έχει δύο βασικές μεθόδους όπως αναφέρονται παρακάτω. Εάν το MatchObject βρεθεί στην έκφραση που καθορίστηκε, θα επέστρεφε την παρουσία του, διαφορετικά, θα επέστρεφε Κανένα.

  • Η μέθοδος match(string) χρησιμοποιείται για την εύρεση των αντιστοιχιών της συμβολοσειράς στην αρχή της κανονικής έκφρασης και
  • Η μέθοδος αναζήτησης (συμβολοσειράς) χρησιμοποιείται για τη σάρωση της συμβολοσειράς για την εύρεση της θέσης για μια αντιστοίχιση στην κανονική έκφραση.

Συναρτήσεις κανονικής έκφρασης

Οι συναρτήσεις Regex είναι γραμμές κώδικα που χρησιμοποιούνται για την εκτέλεση μιας συγκεκριμένης λειτουργίας όπως καθορίζεται από τον χρήστη από το σύνολο τιμών δεδομένων που προμηθεύεται.

Σημείωση: Για να γράψετε τις συναρτήσεις, χρησιμοποιούνται ακατέργαστες συμβολοσειρές για τις κανονικές εκφράσεις για την αποφυγή σφαλμάτων στην ανάλυση του κειμένου x. Αυτό γίνεται με την προσθήκη του δείκτη r πριν από κάθε μοτίβο στην έκφραση.

Οι κοινές συναρτήσεις που χρησιμοποιούνται στις εκφράσεις εξηγούνται παρακάτω.

1. re.findall()

Αυτή η συνάρτηση επιστρέφει όλα τα μοτίβα στη συμβολοσειρά εάν βρεθεί αντιστοιχία και επιστρέφει μια κενή λίστα εάν δεν βρεθεί αντιστοιχία. Για παράδειγμα, η συνάρτηση, string = re.findall(‘[aeiou]’, regex_filename) χρησιμοποιείται για την εύρεση της εμφάνισης φωνηέντων στο όνομα αρχείου.

2. re.split()

Αυτή η συνάρτηση χρησιμοποιείται για τον διαχωρισμό της συμβολοσειράς σε περίπτωση αντιστοίχισης με έναν καθορισμένο χαρακτήρα, όπως για παράδειγμα, το διάστημα. Σε περίπτωση που δεν βρεθεί αντιστοίχιση, επιστρέφει μια κενή συμβολοσειρά.

3. re.sub()

Η συνάρτηση αντικαθιστά το αντιστοιχισμένο κείμενο με τα περιεχόμενα της μεταβλητής αντικατάστασης που δίνεται. Σε αντίθεση με άλλες συναρτήσεις, εάν δεν βρεθεί μοτίβο, επιστρέφεται η αρχική συμβολοσειρά.

4. re.search()

Μία από τις βασικές λειτουργίες που βοηθούν στην εκμάθηση του τρόπου ανάλυσης κειμένου είναι η λειτουργία αναζήτησης. Βοηθά στην αναζήτηση του μοτίβου στη συμβολοσειρά και στην επιστροφή του αντικειμένου αντιστοίχισης. Εάν η αναζήτηση αποτύχει στον προσδιορισμό της αντιστοίχισης, δεν επιστρέφεται καμία τιμή.

5. re.compile(μοτίβο)

Αυτή η συνάρτηση χρησιμοποιείται για τη μεταγλώττιση μοτίβων τυπικών εκφράσεων σε ένα RegexObject, το οποίο συζητήθηκε νωρίτερα.

Λοιπές απαιτήσεις

Οι απαιτήσεις που αναφέρονται είναι ένα πρόσθετο χαρακτηριστικό που χρησιμοποιείται από προχωρημένους προγραμματιστές στην ανάλυση δεδομένων.

  • Για την οπτικοποίηση της κανονικής έκφρασης, χρησιμοποιείται το regexper και
  • Για τον έλεγχο της κανονικής έκφρασης, χρησιμοποιείται το regex101.

Διαδικασία ανάλυσης κειμένου

Η μέθοδος ανάλυσης του κειμένου σε αυτήν την πολύπλοκη επιλογή περιγράφεται όπως δίνεται παρακάτω.

  • Το κύριο βήμα είναι να κατανοήσετε τη μορφή εισόδου διαβάζοντας το περιεχόμενο του αρχείου. Για παράδειγμα, οι συναρτήσεις with open και read() χρησιμοποιούνται για το άνοιγμα και την ανάγνωση του περιεχομένου του αρχείου με το όνομα δείγμα. Το δείγμα αρχείου έχει τα περιεχόμενα από το αρχείο file.txt. για να μάθετε πώς να διορθώσετε το σφάλμα ανάλυσης, το αρχείο πρέπει να διαβαστεί πλήρως.
  • Τα περιεχόμενα του αρχείου εκτυπώνονται για να αναλυθούν τα δεδομένα χειροκίνητα για να βρεθούν τα μεταδεδομένα των τιμών. Εδώ, η συνάρτηση print() χρησιμοποιείται για την εκτύπωση των περιεχομένων του δείγματος αρχείου.
  • Τα απαιτούμενα πακέτα δεδομένων για την ανάλυση του κειμένου εισάγονται στον κώδικα και δίνεται ένα όνομα στην κλάση για περαιτέρω κωδικοποίηση. Εδώ εισάγονται οι κανονικές εκφράσεις και τα panda.
  • Οι τυπικές εκφράσεις που απαιτούνται για τον κώδικα ορίζονται στο αρχείο συμπεριλαμβάνοντας το regex μοτίβο και τη συνάρτηση regex. Αυτό επιτρέπει στο αντικείμενο κειμένου ή το σώμα να λάβει τον κώδικα για ανάλυση δεδομένων.
  • Για να μάθετε πώς να αναλύετε κείμενο, μπορείτε να ανατρέξετε στο παράδειγμα κώδικα που δίνεται εδώ. Η συνάρτηση compile() χρησιμοποιείται για τη μεταγλώττιση της συμβολοσειράς από την ομάδα stringname1 του ονόματος αρχείου. Η συνάρτηση για έλεγχο αντιστοιχιών στο regex χρησιμοποιείται από την εντολή ief_parse_line(line),
  • Ο αναλυτής γραμμής για τον κώδικα γράφεται χρησιμοποιώντας το def_parse_file(filepath), στο οποίο η καθορισμένη συνάρτηση ελέγχει για όλες τις αντιστοιχίσεις regex στην καθορισμένη συνάρτηση. Εδώ, η μέθοδος regex search() αναζητά το κλειδί rx στο όνομα αρχείου και επιστρέφει το κλειδί και το ταίριασμα του πρώτου αντίστοιχου regex. Οποιοδήποτε πρόβλημα με το βήμα μπορεί να οδηγήσει σε σφάλμα στην ανάλυση κειμένου x.
  • Το επόμενο βήμα είναι να γράψετε έναν Αναλυτή αρχείων χρησιμοποιώντας τη συνάρτηση ανάλυσης αρχείων, η οποία είναι def_parse_file(filepath). Δημιουργείται μια κενή λίστα για τη συλλογή των δεδομένων του κώδικα, ως data = []η αντιστοίχιση ελέγχεται σε κάθε γραμμή ανά αντιστοίχιση = _parse_line(line) και τα ακριβή δεδομένα τιμής επιστρέφονται με βάση τον τύπο δεδομένων.
  • Για να εξαγάγετε τον αριθμό και την τιμή για τον πίνακα, χρησιμοποιείται η γραμμή εντολών.strip().split(‘,’). Η εντολή row{} χρησιμοποιείται για τη δημιουργία ενός λεξικού με τη σειρά δεδομένων. Η εντολή data.append(row) χρησιμοποιείται για την κατανόηση των δεδομένων και την ανάλυση τους σε μορφή πίνακα.

Η εντολή data = pd.DataFrame(data) χρησιμοποιείται για τη δημιουργία ενός pandas DataFrame από τις τιμές dict. Εναλλακτικά, μπορείτε να χρησιμοποιήσετε τις ακόλουθες εντολές για τον αντίστοιχο σκοπό όπως αναφέρεται παρακάτω.

  • data.set_index([‘string’, ‘integer’]inplace=True) για να ορίσετε το ευρετήριο του Πίνακα.

  • data = data.groupby(level=data.index.names).first() για ενοποίηση και κατάργηση nans.

  • data = data.apply(pd.to_numeric, errors=’ignore’) για αναβάθμιση της βαθμολογίας από float σε ακέραια τιμή.

Το τελευταίο βήμα για να μάθετε πώς να αναλύετε κείμενο είναι να δοκιμάσετε τον αναλυτή χρησιμοποιώντας τη δήλωση if, εκχωρώντας τις τιμές σε μια μεταβλητή δεδομένα και εκτυπώνοντάς την χρησιμοποιώντας την εντολή print(data).

Το παράδειγμα κώδικα για την παραπάνω εξήγηση δίνεται εδώ.

with open(‘file.txt’) as sample:
sample_contents = sample.read()
print(sample_contents)
import re
import pandas as pd
rx_filename = {
‘string1’: re.compile(r ‘string = (?<P<stringname1>,*)n’),
}
ief_parse_line(line):
for key, rx in rx_filename.items():
match = rx.search(line)
if match:
return key, match
return None, None
def parse_file(filepath):
data = []
with open(filepath, ‘r’) as file_object:
line = file_object.readline()
while line:
key, match = _parse_line(line)
if key == ‘string1’:
string = match.group(‘string1’)
integer = int(string1)
value_type = match.group(‘string1’)
line = file_object.readline()
while line.strip():
number, value = line.strip().split(‘,’)
value = value.strip()
row = {
‘Data1’: string1,
‘Data2’: number,
value_type: value
}
data.append(row)
line = file_object.readline()
line = file_object.readline()
data = pd.DataFrame(data)
return data
if _ _name_ _ = = ‘_ _main_ _’:
filepath = ‘sample.txt’
data = parse(filepath)
print(data)

Μέθοδος 2: Μέσω του Word Tokenization

Η διαδικασία μετατροπής ενός κειμένου ή σώματος σε διακριτικά ή μικρότερα κομμάτια με βάση ορισμένους κανόνες ονομάζεται Tokenization. Για να μάθετε πώς να διορθώνετε το σφάλμα ανάλυσης, είναι σημαντικό να αναλύσετε τις εντολές δημιουργίας διακριτικών λέξεων στον κώδικα. Παρόμοια με το regex, μπορούν να δημιουργηθούν δικοί κανόνες σε αυτήν τη μέθοδο και βοηθά σε εργασίες προεπεξεργασίας κειμένου, όπως η χαρτογράφηση τμημάτων της ομιλίας. Επίσης, σε αυτήν τη μέθοδο εκτελούνται δραστηριότητες όπως η εύρεση και αντιστοίχιση κοινών λέξεων, ο καθαρισμός του κειμένου και η προετοιμασία των δεδομένων για προηγμένες τεχνικές ανάλυσης κειμένου, όπως η ανάλυση συναισθήματος. Εάν το tokenization είναι ακατάλληλο, ενδέχεται να προκύψει σφάλμα στην ανάλυση του κειμένου x.

Βιβλιοθήκη Ntlk

Η διαδικασία απαιτεί τη βοήθεια της δημοφιλούς βιβλιοθήκης γλωσσικών εργαλείων που ονομάζεται nltk, η οποία έχει ένα πλούσιο σύνολο λειτουργιών για την εκτέλεση πολλών εργασιών NLP. Μπορείτε να τα κατεβάσετε μέσω των πακέτων Pip ή Pip Installs. Για να μάθετε πώς να αναλύετε κείμενο, μπορείτε να χρησιμοποιήσετε το βασικό πακέτο της διανομής Anaconda που περιλαμβάνει τη βιβλιοθήκη από προεπιλογή.

Μορφές Tokenization

Οι κοινές μορφές αυτής της μεθόδου είναι η συμβολοποίηση λέξεων και η συμβολοποίηση προτάσεων. Λόγω του διακριτικού επιπέδου λέξης, ο πρώτος εκτυπώνει μία λέξη μόνο μία φορά, ενώ ο δεύτερος εκτυπώνει τη λέξη σε επίπεδο πρότασης.

Διαδικασία ανάλυσης κειμένου

  • Η βιβλιοθήκη εργαλειοθήκης ntlk εισάγεται και οι φόρμες tokenization εισάγονται από τη βιβλιοθήκη.
  • Δίνεται μια συμβολοσειρά και δίνονται οι εντολές για την εκτέλεση του tokenization.
  • Ενώ εκτυπώνεται η συμβολοσειρά, η έξοδος θα είναι υπολογιστής είναι η λέξη.
  • Στην περίπτωση του word tokenization ή word_tokenize(), κάθε λέξη της πρότασης εκτυπώνεται ξεχωριστά μέσα στο ” και χωρίζεται με κόμμα. Η έξοδος για την εντολή θα είναι τα ‘υπολογιστής’, ‘είναι’, ‘η’, ‘λέξη’, ‘.
  • Στην περίπτωση της πρότασης tokenization ή sent_tokenize(), οι μεμονωμένες προτάσεις τοποθετούνται στο ” και επιτρέπεται η επανάληψη της λέξης. Η έξοδος για την εντολή θα ήταν «ο υπολογιστής είναι η λέξη».

Ο κώδικας που εξηγεί τα βήματα για το tokenization παραπάνω δίνεται εδώ.

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
string = “computer is the word.”
print(string)
print(word_tokenize(string))
print(sent_tokenize(string))

Μέθοδος 3: Μέσω της τάξης DocParser

Παρόμοια με την κλάση DataFrame, το Class DocParser μπορεί να χρησιμοποιηθεί για την ανάλυση του κειμένου στον κώδικα. Η κλάση σας επιτρέπει να καλέσετε τη συνάρτηση ανάλυσης με τη διαδρομή αρχείου.

Διαδικασία ανάλυσης κειμένου

Για να μάθετε πώς να αναλύετε κείμενο χρησιμοποιώντας την Τάξη DocParser, ακολουθήστε τις οδηγίες που δίνονται παρακάτω.

  • Η συνάρτηση get_format(όνομα αρχείου) χρησιμοποιείται για την εξαγωγή της επέκτασης αρχείου, την επιστροφή της σε μια μεταβλητή συνόλου για τη συνάρτηση και τη μεταβίβασή της στην επόμενη συνάρτηση. Για παράδειγμα, το p1 = get_format (όνομα αρχείου) θα εξάγει την επέκταση αρχείου του ονόματος αρχείου, θα την ορίζει στη μεταβλητή p1 και θα τη μεταβιβάζει στην επόμενη συνάρτηση.
  • Μια λογική δομή με άλλες συναρτήσεις κατασκευάζεται χρησιμοποιώντας τις δηλώσεις και τις συναρτήσεις if-elif-else.
  • Εάν η επέκταση αρχείου είναι έγκυρη και η δομή είναι λογική, η συνάρτηση get_parser χρησιμοποιείται για την ανάλυση των δεδομένων στη διαδρομή του αρχείου και την επιστροφή του αντικειμένου συμβολοσειράς στον χρήστη.

Σημείωση: Για να μάθετε πώς να διορθώσετε το σφάλμα ανάλυσης, αυτή η συνάρτηση πρέπει να εφαρμοστεί σωστά.

  • Η ανάλυση των τιμών δεδομένων γίνεται με την επέκταση αρχείου του αρχείου. Η συγκεκριμένη υλοποίηση της κλάσης, που είναι parse_txt ή parse_docx χρησιμοποιείται για τη δημιουργία αντικειμένων συμβολοσειρών από τα μέρη του συγκεκριμένου τύπου αρχείου.
  • Η ανάλυση μπορεί να γίνει για αρχεία άλλων αναγνώσιμων επεκτάσεων όπως parse_pdf, parse_html και parse_pptx.
  • Οι τιμές δεδομένων και η διεπαφή μπορούν να εισαχθούν σε εφαρμογές με δηλώσεις εισαγωγής και να δημιουργήσουν ένα αντικείμενο DocParser. Αυτό μπορεί να γίνει με ανάλυση αρχείων στη γλώσσα Python, όπως parse_file.py. Αυτή η λειτουργία πρέπει να γίνει προσεκτικά για να αποφευχθεί το σφάλμα στην ανάλυση του κειμένου x.

Μέθοδος 4: Μέσω του εργαλείου ανάλυσης κειμένου

Το εργαλείο ανάλυσης κειμένου χρησιμοποιείται για την εξαγωγή συγκεκριμένων δεδομένων από μεταβλητές και την αντιστοίχιση τους σε άλλες μεταβλητές. Αυτό είναι ανεξάρτητο από οποιαδήποτε άλλα εργαλεία που χρησιμοποιούνται σε μια εργασία και το εργαλείο BPA Platform χρησιμοποιείται για την κατανάλωση και την έξοδο μεταβλητών. Χρησιμοποιήστε τον σύνδεσμο που δίνεται εδώ για να αποκτήσετε πρόσβαση στο Εργαλείο ανάλυσης κειμένου στο διαδίκτυο και χρησιμοποιήστε τις απαντήσεις που δόθηκαν προηγουμένως σχετικά με τον τρόπο ανάλυσης κειμένου.

Μέθοδος 5: Μέσω TextFieldParser (Visual Basic)

Το TextFieldParser χρησιμοποίησε αντικείμενα για την ανάλυση και επεξεργασία πολύ μεγάλων αρχείων που είναι δομημένα και οριοθετημένα. Το πλάτος και η στήλη του κειμένου, όπως αρχεία καταγραφής ή πληροφορίες βάσης δεδομένων παλαιού τύπου μπορούν να χρησιμοποιηθούν σε αυτήν τη μέθοδο. Η μέθοδος ανάλυσης είναι παρόμοια με την επανάληψη του κώδικα σε ένα αρχείο κειμένου και χρησιμοποιείται κυρίως για την εξαγωγή πεδίων κειμένου παρόμοια με τις μεθόδους χειρισμού συμβολοσειρών. Αυτό γίνεται για την οριοθέτηση συμβολοσειρών και πεδίων διαφορετικού πλάτους χρησιμοποιώντας τον καθορισμένο οριοθέτη, όπως κόμμα ή χώρο καρτέλας.

Λειτουργίες για ανάλυση κειμένου

Οι ακόλουθες συναρτήσεις μπορούν να χρησιμοποιηθούν για την ανάλυση του κειμένου σε αυτήν τη μέθοδο.

  • Για να ορίσετε έναν οριοθέτη, χρησιμοποιείται το SetDelimiters. Για παράδειγμα, η εντολή testReader.SetDelimiters (vbTab) χρησιμοποιείται για τον ορισμό του χώρου καρτέλας ως οριοθέτη.
  • Για να ορίσετε ένα πλάτος πεδίου σε μια θετική ακέραια τιμή σε ένα σταθερό πλάτος πεδίου αρχείων κειμένου, μπορείτε να χρησιμοποιήσετε την εντολή testReader.SetFieldWidths (ακέραιος).
  • Για να ελέγξετε τον τύπο πεδίου του κειμένου, μπορείτε να χρησιμοποιήσετε την ακόλουθη εντολή testReader.TextFieldType = Microsoft.VisualBasic.FileIO.FieldType.FixedWidth.

Μέθοδοι εύρεσης MatchObject

Υπάρχουν δύο βασικές μέθοδοι για να βρείτε το MatchObject στον κώδικα ή στο αναλυμένο κείμενο.

  • Η πρώτη μέθοδος είναι να ορίσετε τη μορφή και να κάνετε βρόχο μέσω του αρχείου χρησιμοποιώντας τη μέθοδο ReadFields. Αυτή η μέθοδος θα βοηθούσε στην επεξεργασία κάθε γραμμής του κώδικα.
  • Η μέθοδος PeekChars χρησιμοποιείται για τον έλεγχο κάθε πεδίου ξεχωριστά πριν από την ανάγνωση, τον καθορισμό πολλαπλών μορφών και την αντίδραση.

Σε κάθε περίπτωση, εάν ένα πεδίο δεν ταιριάζει με την καθορισμένη μορφή κατά την εκτέλεση της ανάλυσης ή την εύρεση του τρόπου ανάλυσης κειμένου, επιστρέφεται μια εξαίρεση MalformedLineException.

Επαγγελματική συμβουλή: Πώς να αναλύσετε το κείμενο μέσω του MS Excel

Ως τελική και απλή μέθοδος ανάλυσης του κειμένου, μπορείτε να χρησιμοποιήσετε το MS Excel εφαρμογή ως αναλυτής για τη δημιουργία αρχείων οριοθετημένων με στηλοθέτες και οριοθετημένα με κόμματα. Αυτό θα βοηθούσε στον διασταυρούμενο έλεγχο με το αναλυμένο αποτέλεσμα και θα βοηθούσε στην εύρεση του τρόπου διόρθωσης του σφάλματος ανάλυσης.

1. Επιλέξτε τις τιμές δεδομένων στο αρχείο προέλευσης και πατήστε τα πλήκτρα Ctrl + C μαζί για να αντιγράψετε το αρχείο.

2. Ανοίξτε την εφαρμογή Excel χρησιμοποιώντας τη γραμμή αναζήτησης των Windows.

3. Κάντε κλικ στο κελί A1 και πατήστε τα πλήκτρα Ctrl + V ταυτόχρονα για να επικολλήσετε το αντιγραμμένο κείμενο.

4. Επιλέξτε το κελί A1, μεταβείτε στην καρτέλα Δεδομένα και κάντε κλικ στην επιλογή Κείμενο σε στήλες στην ενότητα Εργαλεία δεδομένων.

5Α. Ενεργοποιήστε την επιλογή Οριοθετημένο εάν χρησιμοποιείται ένα κόμμα ή ένας χώρος στηλοθέτης ως διαχωριστικό και κάντε κλικ στα κουμπιά Επόμενο και Τέλος.

5Β. Επιλέξτε την επιλογή Σταθερό πλάτος, εκχωρήστε μια τιμή για το διαχωριστικό και κάντε κλικ στα κουμπιά Επόμενο και Τέλος.

Πώς να διορθώσετε το σφάλμα ανάλυσης

Ενδέχεται να προκύψει σφάλμα στην ανάλυση κειμένου x σε συσκευές Android καθώς, Σφάλμα ανάλυσης: Παρουσιάστηκε πρόβλημα κατά την ανάλυση του πακέτου. Αυτό συμβαίνει συνήθως όταν η εφαρμογή αποτυγχάνει να εγκατασταθεί από το Google Play Store ή κατά την εκτέλεση μιας εφαρμογής τρίτου μέρους.

Το κείμενο σφάλματος x μπορεί να προκύψει εάν η λίστα με τα διανύσματα χαρακτήρων είναι βρόχος και άλλες συναρτήσεις σχηματίζουν ένα γραμμικό μοντέλο για τον υπολογισμό των τιμών δεδομένων. Το μήνυμα σφάλματος είναι Error in parse(text = x, keep.source = FALSE)::2.0:μη αναμενόμενο τέλος της εισαγωγής 1:OffenceAgainst ~ ^.

Μπορείτε να διαβάσετε το άρθρο σχετικά με το πώς να διορθώσετε το σφάλμα ανάλυσης στο Android για να μάθετε τις αιτίες και τις μεθόδους για να διορθώσετε το σφάλμα.

Εκτός από τις λύσεις στον οδηγό, μπορείτε να δοκιμάσετε τις παρακάτω επιδιορθώσεις.

  • Επανάληψη λήψης του αρχείου .apk ή επαναφορά του ονόματος του αρχείου.
  • Επαναφορά αλλαγών στο αρχείο Androidmanifest.xml, εάν έχετε δεξιότητες προγραμματισμού σε επίπεδο ειδικών.

***

Το άρθρο βοηθά στη διδασκαλία του πώς να αναλύετε κείμενο και να μάθετε πώς να διορθώνετε το σφάλμα ανάλυσης. Ενημερώστε μας ποια μέθοδος βοήθησε στη διόρθωση σφάλματος στην ανάλυση κειμένου x και ποια μέθοδος ανάλυσης προτιμάται. Μοιραστείτε τις προτάσεις και τις απορίες σας στην παρακάτω ενότητα σχολίων.