Audio Deepfakes: Μπορεί κανείς να πει αν είναι ψεύτικο;

Τα βαθιά ψεύτικα βίντεο σημαίνουν ότι δεν μπορείτε να εμπιστευτείτε όλα όσα βλέπετε. Τώρα, τα βαθιά ψεύτικα ήχου μπορεί να σημαίνουν ότι δεν μπορείτε πλέον να εμπιστεύεστε τα αυτιά σας. Ήταν πράγματι ο πρόεδρος που κήρυξε τον πόλεμο στον Καναδά; Είναι αλήθεια ότι ο μπαμπάς σου στο τηλέφωνο ζητάει τον κωδικό του email;

Προσθέστε άλλη μια υπαρξιακή ανησυχία στη λίστα για το πώς η δική μας ύβρις μπορεί αναπόφευκτα να μας καταστρέψει. Κατά την εποχή του Ρέιγκαν, οι μόνοι πραγματικοί τεχνολογικοί κίνδυνοι ήταν η απειλή πυρηνικού, χημικού και βιολογικού πολέμου.

Τα επόμενα χρόνια, είχαμε την ευκαιρία να ασχοληθούμε με το γκρίζο σκάνδαλο της νανοτεχνολογίας και τις παγκόσμιες πανδημίες. Τώρα, έχουμε deepfakes—οι άνθρωποι χάνουν τον έλεγχο της ομοιότητας ή της φωνής τους.

Πίνακας περιεχομένων

Τι είναι ένα Audio Deepfake;

Οι περισσότεροι από εμάς έχουμε δει ένα βίντεο deepfake, στο οποίο χρησιμοποιούνται αλγόριθμοι βαθιάς μάθησης για να αντικαταστήσουν ένα άτομο με την ομοιότητα κάποιου άλλου. Τα καλύτερα είναι απίστευτα ρεαλιστικά και τώρα είναι η σειρά του ήχου. Ένα ακουστικό deepfake είναι όταν μια «κλωνοποιημένη» φωνή που δυνητικά δεν διακρίνεται από τη φωνή του πραγματικού ατόμου χρησιμοποιείται για την παραγωγή συνθετικού ήχου.

«Είναι σαν το Photoshop για φωνή», δήλωσε ο Zohaib Ahmed, Διευθύνων Σύμβουλος της Μοιάζουν με AI, σχετικά με την τεχνολογία κλωνοποίησης φωνής της εταιρείας του.

Ωστόσο, οι κακές εργασίες Photoshop απομυθοποιούνται εύκολα. Μια εταιρεία ασφαλείας με την οποία μιλήσαμε είπε ότι οι άνθρωποι συνήθως μαντεύουν μόνο αν ένα ακουστικό deepfake είναι αληθινό ή ψεύτικο με περίπου 57 τοις εκατό ακρίβεια – όχι καλύτερα από μια αναστροφή νομίσματος.

Επιπλέον, επειδή τόσες πολλές ηχογραφήσεις φωνής είναι τηλεφωνικών κλήσεων χαμηλής ποιότητας (ή έχουν εγγραφεί σε θορυβώδεις τοποθεσίες), τα βαθιά ψεύτικα ήχου μπορούν να γίνουν ακόμα πιο δυσδιάκριτα. Όσο χειρότερη είναι η ποιότητα του ήχου, τόσο πιο δύσκολο είναι να αντιληφθείτε αυτά τα ενδεικτικά σημάδια ότι μια φωνή δεν είναι αληθινή.

Αλλά γιατί θα χρειαζόταν κάποιος ένα Photoshop για φωνές, ούτως ή άλλως;

The Comelling Case for Synthetic Audio

Υπάρχει πραγματικά μια τεράστια ζήτηση για συνθετικό ήχο. Σύμφωνα με τον Ahmed, «η απόδοση επένδυσης είναι πολύ άμεση».

Αυτό ισχύει ιδιαίτερα όταν πρόκειται για gaming. Στο παρελθόν, η ομιλία ήταν το μόνο συστατικό σε ένα παιχνίδι που ήταν αδύνατο να δημιουργηθεί κατά παραγγελία. Ακόμη και σε διαδραστικούς τίτλους με σκηνές κινηματογραφικής ποιότητας που αποδίδονται σε πραγματικό χρόνο, οι λεκτικές αλληλεπιδράσεις με χαρακτήρες που δεν παίζουν είναι πάντα ουσιαστικά στατικές.

Τώρα, όμως, η τεχνολογία έχει πιάσει. Τα στούντιο έχουν τη δυνατότητα να κλωνοποιήσουν τη φωνή ενός ηθοποιού και να χρησιμοποιήσουν μηχανές μετατροπής κειμένου σε ομιλία, ώστε οι χαρακτήρες να μπορούν να πουν οτιδήποτε σε πραγματικό χρόνο.

Υπάρχουν επίσης πιο παραδοσιακές χρήσεις στη διαφήμιση, καθώς και στην τεχνική υποστήριξη και την υποστήριξη πελατών. Εδώ, μια φωνή που ακούγεται αυθεντικά ανθρώπινη και ανταποκρίνεται προσωπικά και συμφραζόμενα χωρίς ανθρώπινη συνεισφορά είναι αυτό που είναι σημαντικό.

Οι εταιρείες κλωνοποίησης φωνής είναι επίσης ενθουσιασμένες με τις ιατρικές εφαρμογές. Φυσικά, η αντικατάσταση φωνής δεν είναι κάτι καινούργιο στην ιατρική—ο Στίβεν Χόκινγκ χρησιμοποίησε περίφημα μια ρομποτική συνθετική φωνή αφού έχασε τη δική του το 1985. Ωστόσο, η σύγχρονη κλωνοποίηση φωνής υπόσχεται κάτι ακόμα καλύτερο.

Το 2008, η εταιρεία συνθετικής φωνής, CereProc, έδωσε τη φωνή του στον αείμνηστο κριτικό κινηματογράφου, Ρότζερ Έμπερτ, μετά την αφαίρεση του καρκίνου. Η CereProc είχε δημοσιεύσει μια ιστοσελίδα που επέτρεπε στους ανθρώπους να πληκτρολογούν μηνύματα που στη συνέχεια θα λέγονταν με τη φωνή του πρώην προέδρου Τζορτζ Μπους.

«Ο Έμπερτ το είδε αυτό και σκέφτηκε, «καλά, αν μπορούσαν να αντιγράψουν τη φωνή του Μπους, θα μπορούσαν να αντιγράψουν και τη δική μου», είπε ο Μάθιου Άιλετ, επικεφαλής επιστημονικός υπεύθυνος της CereProc. Ο Έμπερτ ζήτησε στη συνέχεια από την εταιρεία να δημιουργήσει μια φωνή αντικατάστασης, κάτι που έκαναν επεξεργάζοντας μια μεγάλη βιβλιοθήκη ηχογραφήσεων φωνής.

Πώς να ρυθμίσετε το Quassel Core σε διακομιστή Ubuntu

«Ήταν μια από τις πρώτες φορές που κάποιος το έκανε ποτέ και ήταν μια πραγματική επιτυχία», είπε η Aylett.

Τα τελευταία χρόνια, ορισμένες εταιρείες (συμπεριλαμβανομένης της CereProc) έχουν συνεργαστεί με την Σύλλογος ALS επί Revoice έργου να παρέχει συνθετικές φωνές σε όσους πάσχουν από ALS.

Πώς λειτουργεί ο συνθετικός ήχος

Η κλωνοποίηση φωνής περνάει μια στιγμή αυτή τη στιγμή και πολλές εταιρείες αναπτύσσουν εργαλεία. Μοιάζουν με AI και Περιγραφή να έχουν διαδικτυακές επιδείξεις ο καθένας μπορεί να δοκιμάσει δωρεάν. Απλώς ηχογραφείτε τις φράσεις που εμφανίζονται στην οθόνη και, σε λίγα μόνο λεπτά, δημιουργείται ένα μοντέλο της φωνής σας.

Μπορείτε να ευχαριστήσετε την τεχνητή νοημοσύνη —συγκεκριμένα, τους αλγόριθμους βαθιάς μάθησης— που μπορείτε να ταιριάξετε την ηχογραφημένη ομιλία με το κείμενο για να κατανοήσετε τα φωνήματα των στοιχείων που συνθέτουν τη φωνή σας. Στη συνέχεια χρησιμοποιεί τα προκύπτοντα γλωσσικά δομικά στοιχεία για να προσεγγίσει λέξεις που δεν σας έχει ακούσει να μιλάτε.

Η βασική τεχνολογία υπήρχε εδώ και λίγο καιρό, αλλά όπως τόνισε ο Aylett, χρειαζόταν κάποια βοήθεια.

«Η αντιγραφή φωνής ήταν λίγο σαν να φτιάχνεις ζαχαροπλαστική», είπε. «Ήταν κάπως δύσκολο να γίνει και υπήρχαν διάφοροι τρόποι που έπρεπε να το τροποποιήσεις με το χέρι για να το πετύχεις».

Οι προγραμματιστές χρειάζονταν τεράστιες ποσότητες ηχογραφημένων φωνητικών δεδομένων για να λάβουν βατά αποτελέσματα. Μετά, πριν από μερικά χρόνια, άνοιξαν οι πύλες. Η έρευνα στον τομέα της όρασης υπολογιστών αποδείχθηκε κρίσιμη. Οι επιστήμονες ανέπτυξαν δίκτυα γενετικής αντιπαράθεσης (GAN), τα οποία θα μπορούσαν, για πρώτη φορά, να προεκτείνουν και να κάνουν προβλέψεις με βάση τα υπάρχοντα δεδομένα.

“Αντί ένας υπολογιστής να δει μια εικόνα ενός αλόγου και να πει “αυτό είναι ένα άλογο”, το μοντέλο μου θα μπορούσε τώρα να κάνει ένα άλογο ζέβρα”, είπε η Aylett. «Έτσι, η έκρηξη στη σύνθεση ομιλίας τώρα οφείλεται στην ακαδημαϊκή εργασία από την όραση υπολογιστή».

Μία από τις μεγαλύτερες καινοτομίες στην κλωνοποίηση φωνής ήταν η συνολική μείωση του όγκου των ακατέργαστων δεδομένων που απαιτούνται για τη δημιουργία μιας φωνής. Στο παρελθόν, τα συστήματα χρειάζονταν δεκάδες ή και εκατοντάδες ώρες ήχου. Τώρα, ωστόσο, οι ικανές φωνές μπορούν να δημιουργηθούν από λίγα λεπτά περιεχομένου.

Ο υπαρξιακός φόβος να μην εμπιστευτείς τίποτα

Αυτή η τεχνολογία, μαζί με την πυρηνική ενέργεια, τη νανοτεχνολογία, την τρισδιάστατη εκτύπωση και το CRISPR, είναι ταυτόχρονα συναρπαστική και τρομακτική. Άλλωστε, υπήρξαν ήδη περιπτώσεις στις ειδήσεις για άτομα που εξαπατήθηκαν από κλώνους φωνής. Το 2019, μια εταιρεία στο Ηνωμένο Βασίλειο ισχυρίστηκε ότι ήταν εξαπατήθηκε από ένα ακουστικό deepfake τηλεφώνημα για την παροχή χρημάτων σε εγκληματίες.

Δεν χρειάζεται να πάτε μακριά για να βρείτε εκπληκτικά πειστικά ψεύτικα ήχου. Κανάλι YouTube Φωνητική σύνθεση παρουσιάζει γνωστούς ανθρώπους που λένε πράγματα που δεν είπαν ποτέ, όπως Ο Τζορτζ Μπους διαβάζει το «In Da Club» του 50 Cent. Είναι επί τόπου.

Αλλού στο YouTube, μπορείτε να ακούσετε ένα κοπάδι πρώην Προέδρων, μεταξύ των οποίων Ο Ομπάμα, η Κλίντον και ο Ρίγκαν, ραπάρουν το NWA. Η μουσική και οι ήχοι του φόντου βοηθούν να συγκαλύψει κάποια από τα προφανή ρομποτικά προβλήματα, αλλά ακόμη και σε αυτήν την ατελή κατάσταση, η δυνατότητα είναι προφανής.

Πειραματιστήκαμε με τα εργαλεία Μοιάζουν με AI και Περιγραφή και δημιούργησε τον κλώνο φωνής. Το Descript χρησιμοποιεί μια μηχανή κλωνοποίησης φωνής που αρχικά ονομαζόταν Lyrebird και ήταν ιδιαίτερα εντυπωσιακή. Ήμασταν σοκαρισμένοι με την ποιότητα. Το να ακούς τη δική σου φωνή να λέει πράγματα που ξέρεις ότι δεν έχεις πει ποτέ είναι ενοχλητικό.

Υπάρχει σίγουρα μια ρομποτική ποιότητα στην ομιλία, αλλά σε μια περιστασιακή ακρόαση, οι περισσότεροι άνθρωποι δεν θα είχαν κανένα λόγο να πιστεύουν ότι ήταν ψεύτικη.

Προσθέστε νέες λέξεις ή επεξεργαστείτε τις τρέχουσες στο λεξικό του προγράμματος περιήγησής σας

Είχαμε ακόμη μεγαλύτερες ελπίδες για το Resemble AI. Σας δίνει τα εργαλεία για να δημιουργήσετε μια συνομιλία με πολλές φωνές και να διαφοροποιήσετε την εκφραστικότητα, το συναίσθημα και τον ρυθμό του διαλόγου. Ωστόσο, δεν πιστεύαμε ότι το μοντέλο φωνής αποτύπωνε τις βασικές ιδιότητες της φωνής που χρησιμοποιήσαμε. Στην πραγματικότητα, ήταν απίθανο να ξεγελάσει κανέναν.

Ένας εκπρόσωπος της Resemble AI μας είπε ότι «οι περισσότεροι άνθρωποι εκπλήσσονται από τα αποτελέσματα αν το κάνουν σωστά». Κατασκευάσαμε ένα μοντέλο φωνής δύο φορές με παρόμοια αποτελέσματα. Έτσι, προφανώς, δεν είναι πάντα εύκολο να δημιουργήσετε έναν κλώνο φωνής που μπορείτε να χρησιμοποιήσετε για να πραγματοποιήσετε μια ψηφιακή ληστεία.

Ακόμα κι έτσι, ο ιδρυτής της Lyrebird (που είναι πλέον μέρος του Descript), Kundan Kumar, πιστεύει ότι έχουμε ήδη περάσει αυτό το όριο.

«Για ένα μικρό ποσοστό των περιπτώσεων, είναι ήδη εκεί», είπε ο Kumar. “Αν χρησιμοποιώ συνθετικό ήχο για να αλλάξω μερικές λέξεις σε μια ομιλία, είναι ήδη τόσο καλό που θα δυσκολευτείτε να μάθετε τι άλλαξε.”

Μπορούμε επίσης να υποθέσουμε ότι αυτή η τεχνολογία θα βελτιωθεί μόνο με τον καιρό. Τα συστήματα θα χρειάζονται λιγότερο ήχο για να δημιουργήσουν ένα μοντέλο και ταχύτεροι επεξεργαστές θα μπορούν να δημιουργήσουν το μοντέλο σε πραγματικό χρόνο. Η πιο έξυπνη τεχνητή νοημοσύνη θα μάθει πώς να προσθέτει πιο πειστικό ρυθμό που μοιάζει με τον άνθρωπο και να δίνει έμφαση στην ομιλία χωρίς να έχετε ένα παράδειγμα για να δουλέψετε.

Που σημαίνει ότι μπορεί να πλησιάζουμε πιο κοντά στην ευρεία διαθεσιμότητα της αβίαστης κλωνοποίησης φωνής.

Η ηθική του κουτιού της Πανδώρας

Οι περισσότερες εταιρείες που εργάζονται σε αυτόν τον χώρο φαίνονται έτοιμες να χειριστούν την τεχνολογία με ασφαλή και υπεύθυνο τρόπο. Μοιάζουν με AI, για παράδειγμα, έχει μια ολόκληρη ενότητα «Ηθική» στον ιστότοπό της, και το παρακάτω απόσπασμα είναι ενθαρρυντικό:

«Συνεργαζόμαστε με εταιρείες μέσω μιας αυστηρής διαδικασίας για να βεβαιωθούμε ότι η φωνή που κλωνοποιούν είναι χρησιμοποιήσιμη από αυτές και ότι έχουν τις κατάλληλες συναινέσεις με τους φωνητικούς ηθοποιούς».

Ομοίως, ο Kumar είπε ότι η Lyrebird ανησυχούσε για κακή χρήση από την αρχή. Γι’ αυτό τώρα, ως μέρος του Descript, επιτρέπει μόνο στους ανθρώπους να κλωνοποιούν τη δική τους φωνή. Στην πραγματικότητα, τόσο το Resemble όσο και το Descript απαιτούν από τους ανθρώπους να καταγράφουν ζωντανά τα δείγματά τους για να αποτρέψουν τη μη συναινετική κλωνοποίηση φωνής.

Είναι ενθαρρυντικό το γεγονός ότι οι μεγάλοι εμπορικοί παίκτες έχουν επιβάλει ορισμένες ηθικές κατευθυντήριες γραμμές. Ωστόσο, είναι σημαντικό να θυμάστε ότι αυτές οι εταιρείες δεν είναι φύλακες αυτής της τεχνολογίας. Υπάρχει ήδη μια σειρά από εργαλεία ανοιχτού κώδικα, για τα οποία δεν υπάρχουν κανόνες. Σύμφωνα με τον Henry Ajder, επικεφαλής της υπηρεσίας πληροφοριών απειλών στο Deeptrace, δεν χρειάζεστε επίσης προηγμένες γνώσεις κωδικοποίησης για να το χρησιμοποιήσετε κατάχρηση.

«Πολλή πρόοδος στον χώρο έχει προέλθει από συνεργατική εργασία σε μέρη όπως το GitHub, χρησιμοποιώντας εφαρμογές ανοιχτού κώδικα προηγουμένως δημοσιευμένων ακαδημαϊκών εργασιών», είπε ο Ajder. “Μπορεί να χρησιμοποιηθεί από οποιονδήποτε έχει μέτρια επάρκεια στην κωδικοποίηση.”

Οι επαγγελματίες ασφαλείας τα έχουν δει όλα αυτά στο παρελθόν

Οι εγκληματίες προσπάθησαν να κλέψουν χρήματα μέσω τηλεφώνου πολύ πριν καταστεί δυνατή η κλωνοποίηση φωνής και οι ειδικοί ασφαλείας ήταν πάντα σε ετοιμότητα για να το εντοπίσουν και να το αποτρέψουν. Εταιρεία ασφαλείας Πίνδροπ προσπαθεί να σταματήσει την τραπεζική απάτη επαληθεύοντας εάν ο καλών είναι αυτός που ισχυρίζεται ότι είναι από τον ήχο. Μόνο το 2019, η Pindrop ισχυρίζεται ότι ανέλυσε 1,2 δισεκατομμύρια φωνητικές αλληλεπιδράσεις και απέτρεψε περίπου 470 εκατομμύρια δολάρια σε απόπειρες απάτης.

Πριν από την κλωνοποίηση φωνής, οι απατεώνες δοκίμασαν μια σειρά από άλλες τεχνικές. Το πιο απλό ήταν να τηλεφωνήσω από αλλού με προσωπικές πληροφορίες για το σήμα.

«Η ακουστική μας υπογραφή μας επιτρέπει να προσδιορίσουμε ότι μια κλήση προέρχεται πράγματι από ένα τηλέφωνο Skype στη Νιγηρία λόγω των χαρακτηριστικών του ήχου», δήλωσε ο Διευθύνων Σύμβουλος της Pindrop, Vijay Balasubramaniyan. «Στη συνέχεια, μπορούμε να συγκρίνουμε ότι γνωρίζοντας ότι ο πελάτης χρησιμοποιεί ένα τηλέφωνο AT&T στην Ατλάντα».

Πώς να δημιουργήσετε έναν κλώνο εκκίνησης του σκληρού δίσκου του Mac σας

Μερικοί εγκληματίες έχουν κάνει επίσης καριέρα χρησιμοποιώντας ήχους φόντου για να απορρίψουν τους τραπεζικούς υπαλλήλους.

«Υπάρχει ένας απατεώνας που λέγαμε Chicken Man, ο οποίος είχε πάντα κοκόρια στο παρασκήνιο», είπε ο Balasubramaniyan. «Και υπάρχει μια κυρία που χρησιμοποίησε ένα μωρό που έκλαιγε στο παρασκήνιο για να πείσει ουσιαστικά τους πράκτορες του τηλεφωνικού κέντρου, ότι «ε, περνάω μια δύσκολη στιγμή» για να συμπονήσω».

Και μετά υπάρχουν οι άνδρες εγκληματίες που κυνηγούν τους τραπεζικούς λογαριασμούς των γυναικών.

«Χρησιμοποιούν την τεχνολογία για να αυξήσουν τη συχνότητα της φωνής τους, για να ακούγονται πιο θηλυκά», εξήγησε ο Balasubramaniyan. Αυτά μπορεί να είναι επιτυχή, αλλά «περιστασιακά, το λογισμικό χαλάει και ακούγονται σαν τον Alvin and the Chipmunks».

Φυσικά, η κλωνοποίηση φωνής είναι απλώς η τελευταία εξέλιξη σε αυτόν τον διαρκώς κλιμακούμενο πόλεμο. Οι εταιρείες ασφαλείας έχουν ήδη συλλάβει απατεώνες που χρησιμοποιούν συνθετικό ήχο σε τουλάχιστον μία επίθεση με ψαροντούφεκο.

«Με τον σωστό στόχο, η πληρωμή μπορεί να είναι τεράστια», είπε ο Balasubramaniyan. «Έτσι, είναι λογικό να αφιερώσουμε χρόνο για να δημιουργήσουμε μια συνθετική φωνή του κατάλληλου ατόμου».

Μπορεί κανείς να πει εάν μια φωνή είναι ψεύτικη;

Όταν πρόκειται να αναγνωρίσουμε εάν μια φωνή έχει πλαστογραφηθεί, υπάρχουν και καλά και κακά νέα. Το κακό είναι ότι οι κλώνοι φωνής γίνονται καλύτεροι κάθε μέρα. Τα συστήματα βαθιάς μάθησης γίνονται πιο έξυπνα και δημιουργούν πιο αυθεντικές φωνές που απαιτούν λιγότερο ήχο για να δημιουργηθούν.

Όπως μπορείτε να καταλάβετε από αυτό το κλιπ του Ο Πρόεδρος Ομπάμα λέει στον MC Ren να πάρει θέση, έχουμε ήδη φτάσει στο σημείο όπου ένα υψηλής πιστότητας, προσεκτικά κατασκευασμένο μοντέλο φωνής μπορεί να ακούγεται αρκετά πειστικό στο ανθρώπινο αυτί.

Όσο μεγαλύτερο είναι ένα ηχητικό κλιπ, τόσο πιο πιθανό είναι να παρατηρήσετε ότι κάτι δεν πάει καλά. Για μικρότερα κλιπ, ωστόσο, μπορεί να μην παρατηρήσετε ότι είναι συνθετικό – ειδικά αν δεν έχετε κανένα λόγο να αμφισβητήσετε τη νομιμότητά του.

Όσο πιο καθαρή είναι η ποιότητα του ήχου, τόσο πιο εύκολο είναι να παρατηρήσετε τα σημάδια ενός deepfake ήχου. Αν κάποιος μιλάει απευθείας σε μικρόφωνο ποιότητας στούντιο, θα μπορείτε να ακούτε προσεκτικά. Αλλά μια εγγραφή τηλεφωνικής κλήσης κακής ποιότητας ή μια συνομιλία που καταγράφεται σε μια φορητή συσκευή σε ένα θορυβώδες γκαράζ στάθμευσης θα είναι πολύ πιο δύσκολο να αξιολογηθεί.

Τα καλά νέα είναι ότι, ακόμα κι αν οι άνθρωποι δυσκολεύονται να διαχωρίσουν το αληθινό από το ψεύτικο, οι υπολογιστές δεν έχουν τους ίδιους περιορισμούς. Ευτυχώς, υπάρχουν ήδη εργαλεία φωνητικής επαλήθευσης. Το Pindrop έχει ένα σύστημα που αντιπαραθέτει τα συστήματα βαθιάς μάθησης. Χρησιμοποιεί και τα δύο για να ανακαλύψει εάν ένα δείγμα ήχου είναι το πρόσωπο που υποτίθεται ότι είναι. Ωστόσο, εξετάζει επίσης εάν ένας άνθρωπος μπορεί ακόμη και να κάνει όλους τους ήχους στο δείγμα.

Ανάλογα με την ποιότητα του ήχου, κάθε δευτερόλεπτο ομιλίας περιέχει από 8.000-50.000 δείγματα δεδομένων που μπορούν να αναλυθούν.

«Τα πράγματα που συνήθως αναζητούμε είναι περιορισμοί στην ομιλία λόγω της ανθρώπινης εξέλιξης», εξήγησε ο Balasubramaniyan.

Για παράδειγμα, δύο φωνητικοί ήχοι έχουν έναν ελάχιστο δυνατό διαχωρισμό μεταξύ τους. Αυτό συμβαίνει επειδή δεν είναι φυσικά δυνατό να τα πείτε πιο γρήγορα λόγω της ταχύτητας με την οποία οι μύες στο στόμα σας και οι φωνητικές χορδές μπορούν να επαναδιαμορφωθούν.

«Όταν κοιτάμε τον συνθετικό ήχο», είπε ο Μπαλασουμπραμανιάν, «βλέπουμε μερικές φορές πράγματα και λέμε, «αυτό δεν θα μπορούσε ποτέ να είχε δημιουργηθεί από άνθρωπο, επειδή το μόνο άτομο που θα μπορούσε να το δημιουργήσει πρέπει να έχει ένα λαιμό μήκους επτά ποδιών. ”

Υπάρχει επίσης μια κατηγορία ήχου που ονομάζεται “τριβές”. Σχηματίζονται όταν ο αέρας περνά μέσα από μια στενή στένωση στο λαιμό σας όταν προφέρετε γράμματα όπως f, s, v και z. Οι τριβές είναι ιδιαίτερα δύσκολο να κυριαρχήσουν τα συστήματα βαθιάς μάθησης επειδή το λογισμικό δυσκολεύεται να τα διαφοροποιήσει από το θόρυβο.

Έτσι, τουλάχιστον προς το παρόν, το λογισμικό κλωνοποίησης φωνής παραπαίει από το γεγονός ότι οι άνθρωποι είναι σακούλες με κρέας που ρέουν αέρα μέσα από τις τρύπες τους.