MidJourney εναντίον Stable Diffusion εναντίον Bing Image Creator

Η τεχνητή νοημοσύνη αλλάζει τον κόσμο της τέχνης με αξιοσημείωτους τρόπους. Μία από τις συναρπαστικές εφαρμογές της τεχνητής νοημοσύνης στον τομέα της τέχνης είναι μέσω της χρήσης παραγωγών περιγραφικής τέχνης. Αυτές οι γεννήτριες έχουν τη δυνατότητα να εξετάζουν και να ερμηνεύουν εικόνες και να δημιουργούν εντελώς νέα έργα τέχνης με βάση την ανάλυσή τους.

Σε αυτό το άρθρο, συζητάμε τρεις τέτοιες γεννήτριες τέχνης τεχνητής νοημοσύνης: MidJourney, Stable Diffusion και Microsoft Bing Image Creator, και ποια από τις τρεις είναι στην κορυφή όσον αφορά τη δημιουργία των καλύτερων αποτελεσμάτων με βάση τις προτροπές.

Πίνακας περιεχομένων

MidJourney

Το MidJourney, που ιδρύθηκε από τον David Holz, είναι μια γεννήτρια τέχνης AI που χρησιμοποιεί μηχανική εκμάθηση για να εντοπίσει μοτίβα και χαρακτηριστικά σε υπάρχοντα έργα τέχνης, τα οποία στη συνέχεια μπορούν να χρησιμοποιηθούν για τη δημιουργία νέων κομματιών.

  Ποια είναι η διαφορά μεταξύ του HBO Max, του HBO NOW και του HBO Go;

Το MidJourney εισήλθε σε open beta στις 12 Ιουλίου 2022. Πριν από την κυκλοφορία του MidJourney, ο Holz συνίδρυσε το Leap Motion, μια startup που μεταμόρφωσε τις διεπαφές χρήστη χρησιμοποιώντας τη λήψη βίντεο και τις χειρονομίες. Το 2019 πούλησε το Leap Motion στην Ultrahaptics.

Με το MidJourney να κερδίζει δημοτικότητα, ο Holz μοιράστηκε τις γνώσεις του για την τεχνολογία και την επιρροή της στην τέχνη και την κοινωνία. Ο Holz θεωρεί τους καλλιτέχνες ως πελάτες του MidJourney, όχι ως ανταγωνιστές, και πιστεύει ότι η πλατφόρμα μπορεί να διευκολύνει μεγαλύτερη δημιουργικότητα και πειραματισμό στη φάση του ιδεασμού.

Ωστόσο, υπάρχουν ανησυχίες σχετικά με πιθανή παραβίαση πνευματικών δικαιωμάτων από το εκπαιδευτικό σετ του MidJourney, το οποίο μπορεί να περιλαμβάνει έργα που προστατεύονται από πνευματικά δικαιώματα από άλλους καλλιτέχνες.

Ο Holz τονίζει ότι το MidJourney έχει σχεδιαστεί για να ενισχύει τις ανθρώπινες ικανότητες αντί να τις αντικαθιστά. Το παρομοιάζει με αυτοκίνητα, εξηγώντας ότι επειδή τα αυτοκίνητα είναι πιο γρήγορα από τους ανθρώπους, δεν σημαίνει ότι πρέπει να κόψουμε τα πόδια μας.

Χρησιμοποιώντας τη γενιά εικόνων AI του MidJourney, οι καλλιτέχνες μπορούν να εξερευνήσουν νέες δυνατότητες και να δημιουργήσουν πολλές ιδέες πριν δημιουργήσουν τα δικά τους έργα.

  Δημιουργήστε ένα σχέδιο έργου σε λίγα λεπτά με αυτά τα πρότυπα

Σταθερή Διάχυση

Το Stable Diffusion είναι ένα μοντέλο μηχανικής εκμάθησης ανοιχτού κώδικα που μπορεί να δημιουργήσει εικόνες από κείμενο, να τροποποιήσει εικόνες με βάση κείμενο ή να συμπληρώσει λεπτομέρειες σε εικόνες χαμηλής ανάλυσης ή χαμηλής λεπτομέρειας. Έχει εκπαιδευτεί σε δισεκατομμύρια εικόνες και μπορεί να παράγει αποτελέσματα που είναι συγκρίσιμα με αυτά που θα λαμβάνατε από το DALL-E 2 και το MidJourney.

Ο Emad Mostaque, ιδρυτής και διευθύνων σύμβουλος της Stability AI, είναι η εταιρεία που είναι υπεύθυνη για το Stable Diffusion. Το Stable Diffusion είναι ένα μοντέλο λανθάνουσας διάχυσης που αναπτύχθηκε από τον όμιλο CompVis στο LMU Munich και σχεδιάστηκε από τους Patrick Esser και Robin Rombach, οι οποίοι προηγουμένως δημιούργησαν την αρχιτεκτονική του μοντέλου λανθάνουσας διάχυσης που χρησιμοποιούσε η Stable Diffusion.

Μια συνεργασία μεταξύ των Stability AI, CompVis LMU, Runway, EleutherAI και LAION έκανε το Stable Diffusion διαθέσιμο στο κοινό.

Η σταθερή διάχυση μπορεί να αναπτυχθεί σε διάφορες πλατφόρμες, συμπεριλαμβανομένων των συσκευών Windows και Apple. Η χρήση της ανάπτυξης στη συσκευή σε μια εφαρμογή μπορεί να προστατεύσει το απόρρητο των χρηστών, το οποίο είναι προτιμότερο από μια προσέγγιση που βασίζεται σε διακομιστή.

Microsoft Bing Image Creator

Η Microsoft παρουσίασε ένα νέο εργαλείο που ονομάζεται Bing Image Creator, το οποίο δίνει τη δυνατότητα στους χρήστες να δημιουργούν τις δικές τους εικόνες απευθείας στο Microsoft Edge. Η εταιρεία κυκλοφόρησε μια σουίτα εργαλείων δημιουργών που έχουν σχεδιαστεί για να ενεργοποιούν τη δημιουργικότητα και την αυτοέκφραση. Το εργαλείο επιτρέπει στους χρήστες να δημιουργούν εξατομικευμένες εικόνες για να μοιράζονται τις ενημερώσεις της ζωής τους ή για οποιονδήποτε άλλο σκοπό χρειάζονται.

  Ένας πλήρης οδηγός με παραδείγματα κώδικα

Οι χρήστες μπορούν εύκολα να έχουν πρόσβαση στο Image Creator από την πλαϊνή γραμμή του Microsoft Edge. Η Microsoft έχει λάβει προληπτικά μέτρα για να διασφαλίσει ότι το εργαλείο χρησιμοποιείται με υπευθυνότητα και δεν διευκολύνει τη διάδοση προσβλητικού περιεχομένου.

Η εταιρεία έχει ορίσει μια πολιτική περιεχομένου που απαγορεύει τη χρήση του Image Creator για ορισμένες περιπτώσεις και οι χρήστες μπορούν να αναφέρουν τυχόν παραβιάσεις αυτής της πολιτικής. Επιπλέον, η Microsoft έχει εφαρμόσει τεχνολογία για την αντιμετώπιση πιθανών προκαταλήψεων που θα μπορούσαν να προκύψουν στην τεχνολογία παραγωγής εικόνας.

Σε αυτό το άρθρο, θα ξεκινήσουμε ένα ταξίδι για να αξιολογήσουμε τα αποτελέσματα κάθε περιγραφικής δημιουργίας εικόνων τεχνητής νοημοσύνης όταν μας ζητηθεί με πανομοιότυπα μηνύματα κειμένου.

Προτροπή 1: Σύγχρονος Άγιος Βασίλης σε ένα έλκηθρο που το σέρνουν τάρανδοι μια ζεστή, φωτεινή ηλιόλουστη μέρα σε έναν αυτοκινητόδρομο

Προτροπή 2: Μια κοντινή λήψη ενός ζώου με μεγάλα μάτια, που αποτυπώνει την αθωότητα και τη χαριτότητά του

Προτροπή 3: Ένας άνθρωπος αστροναύτης που παίζει προσγειώνοντας έναν νέο πλανήτη είναι ευπρόσδεκτος από εχθρικά εξωγήινα πλάσματα που τραβούν τα όπλα τους

Προτροπή 4: Σύγχρονη αφηρημένη τέχνη ενός βιβλίου εξώφυλλο ενός μυθιστορήματος που βασίζεται στη Νέα Υόρκη σε έντονα έντονα χρώματα

Προτροπή 5: Ένας άντρας αποφασίζει ανάμεσα σε δύο πιάτα – ένα με πίτσα και ένα με cheeseburger πάνω

Προτροπή 6: Ένας τραυματισμένος πολεμιστής καβαλάει το άλογό του σε ένα χιονισμένο βουνό με ένα σπαθί στο χέρι

Προτροπή 7: Μια αφηρημένη εικόνα που χρησιμοποιεί διαφορετικές αποχρώσεις που δείχνει την κίνηση και τη ροή του νερού

Προτροπή 8: Σολομός σε ένα ποτάμι με καταπράσινα δέντρα στο βάθος

Προτροπή 9: Ένα ποτήρι νερό σε ένα τραπέζι με ένα λεμόνι που στύβεται με ένα χέρι

Προτροπή 10: Άποψη του ορίζοντα σε μια έρημο από τη σκοπιά των ανθρώπων που οδηγούν έναν ελέφαντα σε αυτήν

Προτροπή 11: Ένα δάσος όπου το χαρτονόμισμα μεγαλώνει σε δέντρα και τα πουλιά είναι φτιαγμένα από νομίσματα

Προτροπή 12: Μπολ με ramen, cel σκίαση, βραδινός φωτισμός, φωτορεαλιστικός

Προτροπή 13: Ο Έλον Μασκ είναι φτωχός και άνεργος

Ετυμηγορία

Κατά την αξιολόγηση των αποτελεσμάτων των MidJourney, Stable Diffusion και Bing Image Creator, είναι προφανές ότι δεν υπάρχει οριστικός νικητής.

Κάθε γεννήτρια ερμηνεύει τις προτροπές με διακριτικό τρόπο, με ομοιότητες που εντοπίζονται στις εξόδους του Bing Image Creator και του MidJourney. Η σταθερή διάχυση είναι αποτελεσματική όταν οι προτροπές έχουν σαφείς περιγραφές αλλά συχνά παίρνουν τις λέξεις υπερβολικά κυριολεκτικά. Ενώ το MidJourney και το Bing Image Creator είναι γενικά επιτυχημένα, περιστασιακά παράγουν αποτελέσματα που δεν ανταποκρίνονται στις προτροπές.

Συγκεκριμένα, το Bing Image Creator επιδεικνύει προσοχή στη δημιουργία οποιωνδήποτε καταχρηστικών ή υποκινούμενων αποτελεσμάτων, εκδίδοντας ένα προειδοποιητικό μήνυμα όταν του ζητηθεί να δημιουργήσει μια εικόνα ενός φτωχού και άνεργου Έλον Μασκ. Η υιοθέτηση τέτοιων προστατευτικών μέτρων από τη Microsoft είναι αξιέπαινη.

Εν τω μεταξύ, η τεχνογνωσία του MidJourney στο νευρωνικό δίκτυο δημιούργησε μια εικόνα ενός άπορου και ταλαιπωρημένου Έλον Μασκ. Ως εκ τούτου, μπορεί να συναχθεί το συμπέρασμα ότι κάθε γεννήτρια θα εξυπηρετεί την αντίστοιχη βάση χρηστών της.