Γιατί το One Million Token Context του Gemini 1.5 αλλάζει το παιχνίδι

Βασικά Takeaways

  • Το Google Gemini 1.5 εισάγει ένα παράθυρο περιβάλλοντος ενός εκατομμυρίου διακριτικών, ξεπερνώντας ανταγωνιστές όπως ο Claude και το ChatGPT.
  • Ένα μεγαλύτερο παράθυρο περιβάλλοντος βελτιώνει την απόδοση ενός μοντέλου AI και μειώνει τα σφάλματα, αλλά μπορεί να μην εγγυάται τη συνολική επιτυχία.
  • Το μεγαλύτερο παράθυρο περιβάλλοντος του Gemini 1.5 θα μπορούσε να βελτιώσει σημαντικά την ακρίβεια, να μειώσει τα σφάλματα και να βελτιώσει την κατανόηση.

Το Google Gemini 1.5 έρχεται τώρα με ένα τεράστιο παράθυρο περιβάλλοντος ενός εκατομμυρίου διακριτικών, υποβαθμίζοντας τον άμεσο ανταγωνισμό του στο ChatGPT, τον Claude και άλλα chatbots AI.

Ακούγεται σαν μια τεράστια αναβάθμιση και θα μπορούσε να ξεχωρίσει το Gemini. Είναι λίγο δύσκολο να κατανοήσεις την πλήρη έκτασή του—αλλά το τεράστιο παράθυρο περιβάλλοντος του Gemini θα μπορούσε να αλλάξει το παιχνίδι.

Τι είναι ένα παράθυρο περιβάλλοντος;

Ενώ απαντούν στα ερωτήματά σας, όπως η εξήγηση μιας έννοιας ή η περίληψη ενός κειμένου, τα μοντέλα τεχνητής νοημοσύνης έχουν ένα όριο στο πόσα δεδομένα μπορούν να εξετάσουν για να δημιουργήσουν μια απάντηση. Το όριο στο μέγεθος κειμένου που μπορεί να εξετάσει ονομάζεται παράθυρο περιβάλλοντος.

Εδώ είναι ένας άλλος τρόπος για να το δούμε. Ας υποθέσουμε ότι πηγαίνετε σε ένα παντοπωλείο για να προμηθευτείτε είδη παντοπωλείου χωρίς τη λίστα με τα παντοπωλεία σας. Το όριο για το πόσα είδη παντοπωλείου θυμάστε όταν ψωνίζετε είναι το παράθυρο του πλαισίου σας. Όσο περισσότερα είδη παντοπωλείου μπορείτε να θυμάστε, τόσο μεγαλύτερες είναι οι πιθανότητες να μην χαλάσετε τα σχέδια αγορών σας. Ομοίως, όσο μεγαλύτερο είναι το παράθυρο περιβάλλοντος ενός μοντέλου AI, τόσο μεγαλύτερες είναι οι πιθανότητες να θυμηθεί το μοντέλο όλα όσα χρειάζεται για να σας προσφέρει τα καλύτερα αποτελέσματα.

  Διορθώστε ότι εκκρεμεί μια επισκευή συστήματος που απαιτεί επανεκκίνηση για να ολοκληρωθεί

Τη στιγμή της σύνταξης, το παράθυρο περιβάλλοντος 200k του Claude 2.1 της Anthropic είναι το μεγαλύτερο παράθυρο περιβάλλοντος από οποιοδήποτε γενικά διαθέσιμο μοντέλο AI. Ακολουθεί το GPT-4 Turbo με παράθυρο περιβάλλοντος 128k. Το Google Gemini 1.5 φέρνει ένα εκατομμύριο παράθυρο περιβάλλοντος, τέσσερις φορές μεγαλύτερο από οτιδήποτε άλλο στην αγορά. Αυτό οδηγεί στο μεγάλο ερώτημα: ποια είναι η μεγάλη υπόθεση με ένα παράθυρο περιβάλλοντος ενός εκατομμυρίου διακριτικών;

Γιατί το παράθυρο περιβάλλοντος του Gemini 1.5 είναι μεγάλη υπόθεση

Smartmockups

Για να το θέσουμε σε μια πιο ξεκάθαρη προοπτική, το παράθυρο περιβάλλοντος 200k του Claude AI σημαίνει ότι μπορεί να αφομοιώσει ένα βιβλίο περίπου 150.000 λέξεων και να δώσει απαντήσεις σε αυτό. Αυτό είναι τεράστιο. Αλλά το Gemini 1.5 της Google θα μπορούσε να αφομοιώσει 700.000 λέξεις κάθε φορά!

Όταν τροφοδοτείτε ένα μεγάλο μπλοκ κειμένου σε chatbots AI, όπως το ChatGPT ή το Gemini, επιχειρεί να αφομοιώσει όσο το δυνατόν μεγαλύτερο μέρος του κειμένου, αλλά το πόσο μπορεί να αφομοιώσει εξαρτάται από το παράθυρο του περιβάλλοντος. Έτσι, εάν έχετε μια συνομιλία που αποτελείται από 100.000 λέξεις σε ένα μοντέλο που μπορεί να χειριστεί μόνο 28.000 και στη συνέχεια αρχίσετε να κάνετε ερωτήσεις που απαιτούν από αυτό να έχει πλήρη γνώση της συνολικής αξίας 100.000 λέξεων της συνομιλίας, τη ρυθμίζετε να αποτύχει.

  11 φορητοί σταθμοί ηλεκτροπαραγωγής για σπίτι, κάμπινγκ ή οδικές εκδρομές

Φανταστείτε να παρακολουθείτε μόνο 20 λεπτά μιας ταινίας διάρκειας μιας ώρας αλλά να σας ζητείται να εξηγήσετε ολόκληρη την ταινία. Πόσο καλά θα ήταν τα αποτελέσματά σας; Είτε αρνείσαι να απαντήσεις είτε απλώς φτιάχνεις πράγματα, κάτι που ακριβώς θα έκανε ένα chatbot με τεχνητή νοημοσύνη, οδηγώντας σε παραισθήσεις AI.

Τώρα, αν σκέφτεστε ότι δεν χρειάστηκε ποτέ να τροφοδοτήσετε 100.000 λέξεις σε ένα chatbot, αυτό δεν είναι το όλο θέμα. Το παράθυρο περιβάλλοντος υπερβαίνει μόνο το κείμενο που τροφοδοτείτε ένα μοντέλο τεχνητής νοημοσύνης σε ένα μόνο μήνυμα. Τα μοντέλα τεχνητής νοημοσύνης λαμβάνουν υπόψη ολόκληρη τη συνομιλία που είχατε κατά τη διάρκεια μιας συνεδρίας συνομιλίας για να διασφαλίσουν ότι οι απαντήσεις τους είναι όσο το δυνατόν πιο σχετικές.

Έτσι, παρόλο που δεν το τροφοδοτείτε με ένα βιβλίο 100.000 λέξεων, οι συνεχόμενες συνομιλίες σας και οι απαντήσεις που παρέχει προσθέτουν στον υπολογισμό του παραθύρου περιβάλλοντος. Αναρωτιέστε γιατί το ChatGPT ή το Gemini της Google ξεχνάει συνέχεια τα πράγματα που του είπατε νωρίτερα σε μια συνομιλία; Πιθανότατα τελείωσε ο χώρος του παραθύρου περιβάλλοντος και άρχισε να ξεχνάει πράγματα.

Ένα μεγαλύτερο παράθυρο περιβάλλοντος είναι ιδιαίτερα σημαντικό για εργασίες που απαιτούν βαθιά κατανόηση του πλαισίου, όπως η σύνοψη μεγάλων άρθρων, η απάντηση σε σύνθετες ερωτήσεις ή η διατήρηση μιας συνεκτικής αφήγησης στο κείμενο που δημιουργείται. Θέλετε να γράψετε ένα μυθιστόρημα 50 χιλιάδων λέξεων που να έχει μια συνεπή αφήγηση; Θέλετε ένα μοντέλο που να μπορεί να “παρακολουθεί” και να απαντά σε ερωτήσεις σε ένα αρχείο βίντεο μιας ώρας; Χρειάζεστε ένα μεγαλύτερο παράθυρο περιβάλλοντος!

Εν ολίγοις, το μεγαλύτερο παράθυρο περιβάλλοντος του Gemini 1.5 μπορεί να βελτιώσει σημαντικά την απόδοση του μοντέλου AI του, μειώνοντας τις παραισθήσεις και αυξάνοντας σημαντικά την ακρίβεια και την ικανότητα να ακολουθεί κανείς καλύτερα τις οδηγίες.

  Πώς να ενεργοποιήσετε και να απενεργοποιήσετε τη λειτουργία πλήρους οθόνης στον Microsoft Edge

Το Gemini 1.5 θα ανταποκριθεί στις προσδοκίες;

Εάν όλα πάνε όπως έχουν προγραμματιστεί, το Gemini 1.5 θα μπορούσε ενδεχομένως να ξεπεράσει τα καλύτερα μοντέλα AI στην αγορά. Ωστόσο, λαμβάνοντας υπόψη τις πολλές αποτυχίες της Google στην κατασκευή ενός σταθερού μοντέλου τεχνητής νοημοσύνης, είναι σημαντικό να είμαστε προσεκτικοί. Η αύξηση του παραθύρου περιβάλλοντος ενός μοντέλου από μόνη της δεν βελτιώνει αυτόματα το μοντέλο.

Έχω χρησιμοποιήσει το παράθυρο περιβάλλοντος 200k του Claude 2.1 για μήνες από την κυκλοφορία του και ένα πράγμα είναι ξεκάθαρο για μένα – ένα μεγαλύτερο παράθυρο περιβάλλοντος μπορεί πράγματι να βελτιώσει την ευαισθησία περιβάλλοντος, αλλά τα προβλήματα με την απόδοση του βασικού μοντέλου μπορούν να καταστήσουν το ευρύτερο πλαίσιο πρόβλημα του τα δικά.

Θα μας αλλάξει το παιχνίδι το Google Gemini 1.5; Τα μέσα κοινωνικής δικτύωσης είναι επί του παρόντος γεμάτα με λαμπερές κριτικές για το Gemini 1.5 από χρήστες πρώιμης πρόσβασης. Ωστόσο, οι περισσότερες κριτικές 5 αστέρων προέρχονται από βιαστικές ή απλοποιημένες περιπτώσεις χρήσης. Ένα καλό μέρος για να ελέγξετε την απόδοση του Gemini 1.5 στη φύση βρίσκεται μέσα στο Google Τεχνική έκθεση Gemini 1.5 [PDF]. Η αναφορά δείχνει ότι ακόμη και κατά τη διάρκεια της «ελεγχόμενης δοκιμής», το μοντέλο δεν μπορούσε να ανακτήσει όλες τις μικροσκοπικές λεπτομέρειες των εγγράφων εντός του μεγέθους του παραθύρου περιβάλλοντος.

Ένα παράθυρο περιβάλλοντος ενός εκατομμυρίου συμβολικών είναι πράγματι ένα εντυπωσιακό τεχνικό επίτευγμα, αλλά χωρίς να μπορούμε να ανακτήσουμε τις λεπτομέρειες ενός εγγράφου με αξιοπιστία, τότε ένα μεγαλύτερο παράθυρο περιβάλλοντος έχει μικρή πρακτική αξία και θα μπορούσε ακόμη και να γίνει αιτία μείωσης της ακρίβειας και παραισθήσεων.