Πώς λειτουργούν οι εφαρμογές αναγνώρισης μουσικής όπως το Shazam;

Οι εφαρμογές αναγνώρισης μουσικής φαίνονται σαν μαγικές στην αρχή, αλλά κάτω από την κουκούλα υπάρχει ένας εξελιγμένος αλγόριθμος που μπορεί να βρει τραγούδια σε μια στιγμή. Να πώς λειτουργούν.

Η Μαγεία της Ταυτοποίησης της Μουσικής

Μάλλον σε όλους μας έχει συμβεί. Τρώτε δείπνο σε ένα ωραίο εστιατόριο, κάνετε παρέα σε μια καφετέρια ή περπατάτε σε ένα κατάστημα, όταν ξαφνικά ακούτε ένα υπέροχο τραγούδι να παίζει πάνω από τα ηχεία. Ίσως είναι ένα τραγούδι που έχετε ακούσει πριν ή ένα κομμάτι που δεν έχετε ακούσει ποτέ. Έτσι, βγάζετε το τηλέφωνό σας, ανοίγετε το Shazam και κρατάτε τη συσκευή σας μέχρι το ταβάνι. Απλώς, η εφαρμογή σάς λέει ποιο είναι το τραγούδι, ποιος είναι ο καλλιτέχνης και πού να το μεταδώσετε σε ροή.

Είναι γρήγορα, εξαιρετικά ακριβή και μπορούν να αναγνωρίσουν ακόμη και τα πιο σκοτεινά τραγούδια. Με λίγα λόγια, εργάζονται απομονώνοντας το τραγούδι από μια ηχογράφηση και αναζητώντας το σε μια εκτεταμένη βάση δεδομένων κομματιών. Αλλά η τεχνολογία πίσω από το πώς το κάνουν αυτό είναι αρκετά περίπλοκη και εντυπωσιακή.

Ίσως εκπλαγείτε όταν μάθετε ότι η εφαρμογή Shazam που γνωρίζουμε σήμερα κυκλοφόρησε το 2002 και το σύστημα ήταν εξίσου ακριβές και γρήγορο τότε όπως και τώρα. Όλα αυτά χάρη σε έναν μοναδικό αλγόριθμο που θα έφερε επανάσταση στον κόσμο της μουσικής.

  Οι καλύτεροι τρόποι ανάγνωσης ειδήσεων στο iPhone ή το iPad σας

Δεν είναι μόνο οι στίχοι

Με την πρώτη ματιά, οι εφαρμογές αναγνώρισης μουσικής όπως το Shazam μπορεί να φαίνονται απλές. Μπορεί να νομίζετε ότι απλώς ακούν τους στίχους, όπως οποιοσδήποτε φωνητικός βοηθός, και τον αναζητούν σε μια βάση δεδομένων με στίχους τραγουδιών για να σας πουν ποιο είναι το τραγούδι.

Ωστόσο, οι περισσότερες εφαρμογές αναγνώρισης μουσικής είναι σε θέση να πουν ποιος είναι ο τίτλος ενός ορχηστρικού ή ακόμα και ο τραγουδιστής ενός τραγουδιού διασκευής. Αυτό συμβαίνει επειδή, αντί να αναλύουν τους στίχους του κομματιού, αναζητούν «δακτυλικά αποτυπώματα» που είναι μοναδικά για κάθε τραγούδι στις εκτεταμένες βάσεις δεδομένων τους.

Τεχνολογία δακτυλικών αποτυπωμάτων

Πιθανότατα έχετε συσκευές που μπορούν να ξεκλειδωθούν χρησιμοποιώντας το δακτυλικό σας αποτύπωμα, το οποίο είναι η διάταξη των μικρών γραμμών στο δάχτυλό σας που είναι μοναδικές για εσάς. Ομοίως, όταν κρατάτε ψηλά το μικρόφωνό σας για να ηχογραφήσετε ένα σύντομο κλιπ ενός τραγουδιού, αυτό το κλιπ μετατρέπεται σε μοτίβα δεδομένων που το Shazam ή άλλη εφαρμογή μπορεί να αναζητήσει στη βάση δεδομένων του.

Με την πρώτη ματιά, αυτή η μέθοδος φαίνεται επιρρεπής σε πολλά προβλήματα. Τις περισσότερες φορές που ακούτε μουσική δημόσια, υπάρχει θόρυβος στο φόντο και παραμόρφωση που προκαλούνται από τα ηχεία, γεγονός που μπορεί να κάνει τα τραγούδια απροσδιόριστα ή να οδηγήσει σε ανακριβή αντιστοίχιση. Επίσης, υπάρχουν πολλά δεδομένα που καταγράφονται ακόμη και σε ένα σύντομο ηχητικό κλιπ, γεγονός που μπορεί να κάνει την αναζήτηση αυτών των μοτίβων σε μια βάση δεδομένων με εκατομμύρια τραγούδια αργή.

  Πώς να εισάγετε Emoji στο Photoshop

Σε μια συνέντευξη με Scientific American το 2003, ο Avery Li-Chun Wang, ο επικεφαλής επιστήμονας δεδομένων και συνιδρυτής του Shazam, εξηγεί πώς ο αλγόριθμός τους διορθώνει αυτά τα προβλήματα. Οι πληροφορίες ενός ηχητικού κλιπ μπορούν να οπτικοποιηθούν με ένα τρισδιάστατο διάγραμμα γνωστό ως φασματόγραμμα, το οποίο αντιπροσωπεύει μια αλλαγή στις συχνότητες σε μια χρονική περίοδο. Λαμβάνει επίσης υπόψη το πλάτος, δηλαδή πόσο δυνατός είναι ένας ήχος. Αυτό αναπαρίσταται σε ένα φασματόγραμμα χρησιμοποιώντας την ένταση του χρώματος.

Με τον ίδιο τρόπο που οι άνθρωποι δεν μπορούν να αντιληφθούν τον ήχο εκτός εάν βρίσκονται σε μια συγκεκριμένη συχνότητα, αντί να λαμβάνεται υπόψη το σύνολο ενός τραγουδιού κατά την εκτέλεση μιας αναζήτησης, το Shazam παίρνει μόνο “κορυφές”, που είναι το υψηλότερο ενεργειακό περιεχόμενο σε ένα ηχητικό κλιπ . Τα δακτυλικά αποτυπώματα που συλλαμβάνει λαμβάνουν μόνο τα σημεία υψηλότερης συχνότητας εντός ενός δεδομένου χρονικού πλαισίου και στη συνέχεια τα σημεία πλάτους κορυφής εντός αυτών των συχνοτήτων.

  Πώς να σταματήσετε αυτόματα το Apple Watch σας από το να ανάβει

Σε μια ερευνητική εργασία για Πανεπιστήμιο Κολούμπια, ο Wang δήλωσε ότι η μέθοδος τους επιτρέπει να αφαιρέσουν τα περισσότερα από τα περιττά μέρη ενός ηχητικού κλιπ όπως το θόρυβο του φόντου και να καθαρίσουν την παραμόρφωση. Επίσης, κάνει το μέγεθος των εκτυπώσεων αρκετά μικρό ώστε να χρειάζονται μόνο χιλιοστά του δευτερολέπτου για να αναγνωριστεί ένα τραγούδι ανάμεσα στην τεράστια βάση δεδομένων τους.

Shazam’s Impact

Εκτός από το να είναι χρήσιμες για τους μέσους ακροατές που ακούν ένα τραγούδι που τους αρέσει, οι εφαρμογές αναγνώρισης μουσικής συμβάλλουν επίσης στη διαμόρφωση του μουσικού κόσμου.

Οι ραδιοφωνικοί σταθμοί και οι υπηρεσίες ροής συχνά χρησιμοποιούν τα δεδομένα σχετικά με το ποιοι άνθρωποι κάνουν το Shazam περισσότερο για να καταλάβουν ποια κομμάτια ακούγονται από το κοινό. Αυτό είναι χρήσιμο γιατί υποδηλώνει το πιασάρικο και την πιθανή δημοτικότητα ενός τραγουδιού, ανεξάρτητα από τον καλλιτέχνη. Όταν ταυτίζετε ένα τραγούδι με την εφαρμογή, θα δείτε αμέσως πόσα άτομα προσπάθησαν επίσης να το αναγνωρίσουν.

Από την άνοδο του Shazam, έχουν εμφανιστεί και αρκετοί ανταγωνιστές. Το Soundhound ισχυρίζεται ότι μπορεί να αναγνωρίσει ένα τραγούδι απλά τραγουδώντας ή βουίζοντας του, με ανάμεικτα αποτελέσματα. Υπάρχει επίσης ένα αναγνωριστικό τραγουδιού ενσωματωμένο με εφαρμογές φωνής όπως το Google Assistant που λειτουργούν πολύ παρόμοια με το σύστημα του Shazam.