GPU της σειράς RTX 3000 της NVIDIA: Δείτε τι νέο υπάρχει

Την 1η Σεπτεμβρίου 2020, η NVIDIA αποκάλυψε τη νέα της σειρά gaming GPU: τη σειρά RTX 3000, βασισμένη στην αρχιτεκτονική τους Ampere. Θα συζητήσουμε τι νέο υπάρχει, το λογισμικό που υποστηρίζεται από AI που συνοδεύει και όλες τις λεπτομέρειες που κάνουν αυτή τη γενιά πραγματικά εκπληκτική.

Γνωρίστε τις GPU της σειράς RTX 3000

Η κύρια ανακοίνωση της NVIDIA ήταν οι γυαλιστερές νέες GPU της, όλες βασισμένες σε μια προσαρμοσμένη διαδικασία κατασκευής 8 nm, και όλες με σημαντικές επιταχύνσεις τόσο στην απόδοση ραστεροποίησης όσο και στην απόδοση ραδιενέργειας.

Στο χαμηλό άκρο της σύνθεσης, υπάρχει το RTX 3070, το οποίο κοστίζει 499 $. Είναι λίγο ακριβό για τη φθηνότερη κάρτα που παρουσίασε η NVIDIA στην αρχική ανακοίνωση, αλλά είναι απόλυτο κλέψιμο μόλις μάθετε ότι ξεπερνά την υπάρχουσα RTX 2080 Ti, μια κορυφαία κάρτα που πωλείται τακτικά για πάνω από 1400 $. Ωστόσο, μετά την ανακοίνωση της NVIDIA, η τιμή πώλησης τρίτων μειώθηκε, με έναν μεγάλο αριθμό από αυτούς να πωλούνται πανικόβλητοι στο eBay για κάτω από $600.

Δεν υπάρχουν σταθερά σημεία αναφοράς από την ανακοίνωση, επομένως δεν είναι σαφές εάν η κάρτα είναι πραγματικά αντικειμενικά «καλύτερη» από μια 2080 Ti ή αν η NVIDIA στρίβει λίγο το μάρκετινγκ. Τα benchmarks που εκτελούνταν ήταν στα 4K και πιθανότατα είχαν ενεργοποιημένο το RTX, κάτι που μπορεί να κάνει το χάσμα να φαίνεται μεγαλύτερο από ό,τι θα είναι σε καθαρά ραστεροποιημένα παιχνίδια, καθώς η σειρά 3000 που βασίζεται στο Ampere θα έχει διπλάσια απόδοση στην ανίχνευση ακτίνων από τον Turing. Όμως, καθώς η ανίχνευση ακτίνων είναι τώρα κάτι που δεν βλάπτει πολύ την απόδοση και υποστηρίζεται στην τελευταία γενιά κονσολών, είναι σημαντικό να λειτουργεί τόσο γρήγορα όσο η ναυαρχίδα της προηγούμενης γενιάς για σχεδόν το ένα τρίτο της τιμής.

Δεν είναι επίσης σαφές εάν η τιμή θα παραμείνει έτσι. Τα σχέδια τρίτων προσθέτουν τακτικά τουλάχιστον 50 $ στην τιμή και με το πόσο υψηλή θα είναι πιθανή η ζήτηση, δεν θα είναι περίεργο να το δούμε να πωλείται για 600 $ τον Οκτώβριο του 2020.

Ακριβώς από πάνω είναι το RTX 3080 στα 699 $, το οποίο θα πρέπει να είναι δύο φορές πιο γρήγορο από το RTX 2080 και να κυκλοφορεί περίπου 25-30% πιο γρήγορα από το 3080.

Στη συνέχεια, στο επάνω άκρο, η νέα ναυαρχίδα είναι η RTX 3090, που είναι κωμικά τεράστιο. Η NVIDIA γνωρίζει καλά και την ανέφερε ως “BFGPU”, το οποίο η εταιρεία λέει ότι σημαίνει “Big Ferocious GPU”.

  Πώς να σταματήσετε την αυτόματη εναλλαγή των AirPods μεταξύ iPhone και iPad

Η NVIDIA δεν επέδειξε άμεσες μετρήσεις απόδοσης, αλλά η εταιρεία έδειξε ότι τρέχει παιχνίδια 8K στα 60 FPS, κάτι που είναι πολύ εντυπωσιακό. Ομολογουμένως, η NVIDIA χρησιμοποιεί σχεδόν σίγουρα το DLSS για να πετύχει αυτό το σημείο, αλλά το gaming 8K είναι gaming 8K.

Φυσικά, θα υπάρξει τελικά μια 3060 και άλλες παραλλαγές καρτών πιο προσανατολισμένες στον προϋπολογισμό, αλλά αυτές συνήθως έρχονται αργότερα.

Για να δροσίσει πραγματικά τα πράγματα, η NVIDIA χρειαζόταν μια ανανεωμένη πιο δροσερή σχεδίαση. Το 3080 έχει ονομαστική ισχύ 320 watt, το οποίο είναι αρκετά υψηλό, επομένως η NVIDIA επέλεξε τη σχεδίαση διπλού ανεμιστήρα, αλλά αντί για τους δύο ανεμιστήρες vwinf που βρίσκονται στο κάτω μέρος, η NVIDIA έχει βάλει έναν ανεμιστήρα στο επάνω άκρο όπου συνήθως πηγαίνει η πίσω πλάκα. Ο ανεμιστήρας κατευθύνει τον αέρα προς τα πάνω προς το ψυγείο της CPU και το επάνω μέρος της θήκης.

Κρίνοντας από το πόση απόδοση μπορεί να επηρεάσει η κακή ροή αέρα σε μια θήκη, αυτό είναι απολύτως λογικό. Ωστόσο, η πλακέτα κυκλώματος είναι πολύ περιορισμένη εξαιτίας αυτού, γεγονός που πιθανότατα θα επηρεάσει τις τιμές πώλησης τρίτων.

DLSS: Ένα πλεονέκτημα λογισμικού

Η ανίχνευση ακτίνων δεν είναι το μόνο πλεονέκτημα αυτών των νέων καρτών. Πραγματικά, όλα είναι λίγο χακάρισμα—η σειρά RTX 2000 και η σειρά 3000 δεν είναι και τόσο καλύτερες στο να κάνουν την πραγματική ανίχνευση ακτίνων, σε σύγκριση με τις παλαιότερες γενιές καρτών. Η ανίχνευση μιας πλήρους σκηνής με ακτίνες σε λογισμικό 3D, όπως το Blender, συνήθως διαρκεί λίγα δευτερόλεπτα ή και λεπτά ανά καρέ, επομένως η βίαιη αναγκαστική λειτουργία σε λιγότερο από 10 χιλιοστά του δευτερολέπτου δεν γίνεται.

Φυσικά, υπάρχει αποκλειστικό υλικό για την εκτέλεση υπολογισμών ακτίνων, που ονομάζονται πυρήνες RT, αλλά σε μεγάλο βαθμό, η NVIDIA επέλεξε μια διαφορετική προσέγγιση. Η NVIDIA βελτίωσε τους αλγόριθμους εκκαθάρισης θορύβου, οι οποίοι επιτρέπουν στις GPU να αποδίδουν ένα πολύ φτηνό μεμονωμένο πέρασμα που φαίνεται τρομερό, και με κάποιο τρόπο —μέσω της μαγείας της τεχνητής νοημοσύνης— το μετατρέπουν σε κάτι που θέλει να δει ένας παίκτης. Όταν συνδυάζεται με παραδοσιακές τεχνικές που βασίζονται σε ραστεροποίηση, δημιουργεί μια ευχάριστη εμπειρία που ενισχύεται από εφέ ανίχνευσης ακτίνων.

Ωστόσο, για να γίνει αυτό γρήγορα, η NVIDIA έχει προσθέσει πυρήνες επεξεργασίας ειδικά για την τεχνητή νοημοσύνη που ονομάζονται πυρήνες Tensor. Αυτά επεξεργάζονται όλα τα μαθηματικά που απαιτούνται για την εκτέλεση μοντέλων μηχανικής εκμάθησης και το κάνουν πολύ γρήγορα. Είναι ένα σύνολο game-changer για AI στον χώρο του διακομιστή cloud, καθώς η τεχνητή νοημοσύνη χρησιμοποιείται εκτενώς από πολλές εταιρείες.

Πέρα από την αποθορυβοποίηση, η κύρια χρήση των πυρήνων Tensor για τους παίκτες ονομάζεται DLSS, ή σούπερ δειγματοληψία βαθιάς εκμάθησης. Παίρνει ένα πλαίσιο χαμηλής ποιότητας και το αναβαθμίζει σε πλήρη εγγενή ποιότητα. Αυτό ουσιαστικά σημαίνει ότι μπορείτε να παίξετε με ρυθμούς καρέ επιπέδου 1080p, ενώ βλέπετε μια εικόνα 4K.

  Πώς να διαγράψετε αντίγραφα ασφαλείας iPhone και iPad σε Mac

Αυτό βοηθά επίσης αρκετά με την απόδοση ανίχνευσης ακτίνων—σημεία αναφοράς από το PCMag εμφανίστε ένα RTX 2080 Super running Control σε εξαιρετική ποιότητα, με όλες τις ρυθμίσεις ανίχνευσης ακτίνων στο μέγιστο. Σε 4K, παλεύει με μόνο 19 FPS, αλλά με ενεργοποιημένο το DLSS, έχει πολύ καλύτερα 54 FPS. Το DLSS είναι δωρεάν απόδοση για τη NVIDIA, που έγινε δυνατή από τους πυρήνες Tensor στο Turing και στο Ampere. Κάθε παιχνίδι που το υποστηρίζει και είναι περιορισμένο σε GPU μπορεί να δει σοβαρές επιταχύνσεις μόνο από το λογισμικό.

Το DLSS δεν είναι νέο και ανακοινώθηκε ως χαρακτηριστικό όταν κυκλοφόρησε η σειρά RTX 2000 πριν από δύο χρόνια. Εκείνη την εποχή, υποστηριζόταν από πολύ λίγα παιχνίδια, καθώς απαιτούσε από τη NVIDIA να εκπαιδεύει και να συντονίζει ένα μοντέλο μηχανικής εκμάθησης για κάθε μεμονωμένο παιχνίδι.

Ωστόσο, σε αυτό το διάστημα, η NVIDIA το έχει ξαναγράψει εντελώς, ονομάζοντας τη νέα έκδοση DLSS 2.0. Είναι ένα API γενικής χρήσης, που σημαίνει ότι οποιοσδήποτε προγραμματιστής μπορεί να το εφαρμόσει και έχει ήδη γίνει αντιληπτό από τις περισσότερες μεγάλες εκδόσεις. Αντί να εργάζεται σε ένα πλαίσιο, λαμβάνει διανυσματικά δεδομένα κίνησης από το προηγούμενο πλαίσιο, παρόμοια με το TAA. Το αποτέλεσμα είναι πολύ πιο ευκρινές από το DLSS 1.0 και σε ορισμένες περιπτώσεις, στην πραγματικότητα φαίνεται καλύτερο και πιο ευκρινές ακόμη και από την εγγενή ανάλυση, επομένως δεν υπάρχει πολύς λόγος να μην το ενεργοποιήσετε.

Υπάρχει ένα αδιέξοδο—όταν αλλάζετε εντελώς σκηνές, όπως στα cutscenes, το DLSS 2.0 πρέπει να αποδίδει το πρώτο καρέ σε ποιότητα 50% ενώ περιμένει τα δεδομένα διανύσματος κίνησης. Αυτό μπορεί να οδηγήσει σε μια μικρή πτώση της ποιότητας για μερικά χιλιοστά του δευτερολέπτου. Όμως, το 99% όλων όσων κοιτάτε θα αποδοθούν σωστά και οι περισσότεροι άνθρωποι δεν το προσέχουν στην πράξη.

Ampere Architecture: Κατασκευάστηκε για AI

Το αμπέρ είναι γρήγορο. Σοβαρά γρήγορο, ειδικά στους υπολογισμούς AI. Ο πυρήνας RT είναι 1,7 φορές ταχύτερος από τον Turing και ο νέος πυρήνας Tensor είναι 2,7 φορές ταχύτερος από τον Turing. Ο συνδυασμός των δύο είναι ένα πραγματικό άλμα γενεών στην απόδοση ραδιενέργειας.

Νωρίτερα αυτόν τον Μάιο, Η NVIDIA κυκλοφόρησε την GPU Ampere A100, μια GPU κέντρου δεδομένων που έχει σχεδιαστεί για εκτέλεση AI. Με αυτό, περιέγραψαν πολλά για το τι κάνει το Ampere τόσο πιο γρήγορο. Για φόρτους εργασίας σε κέντρα δεδομένων και υπολογιστών υψηλής απόδοσης, το Ampere είναι γενικά περίπου 1,7 φορές ταχύτερο από το Turing. Για εκπαίδευση AI, είναι έως και 6 φορές πιο γρήγορη.

  Πώς να συνδυάσετε δύο ηχεία Amazon Echo Alexa για στερεοφωνικό ήχο

Με το Ampere, η NVIDIA χρησιμοποιεί μια νέα μορφή αριθμών που έχει σχεδιαστεί για να αντικαταστήσει το βιομηχανικό πρότυπο “Floating-Point 32” ή FP32, σε ορισμένους φόρτους εργασίας. Κάτω από την κουκούλα, κάθε αριθμός που επεξεργάζεται ο υπολογιστής σας καταλαμβάνει έναν προκαθορισμένο αριθμό bit στη μνήμη, είτε αυτός είναι 8 bit, 16 bit, 32, 64 ή ακόμα μεγαλύτερος. Οι αριθμοί που είναι μεγαλύτεροι είναι πιο δύσκολο να επεξεργαστούν, οπότε αν μπορείτε να χρησιμοποιήσετε μικρότερο μέγεθος, θα έχετε λιγότερα να τρυπήσετε.

Το FP32 αποθηκεύει έναν δεκαδικό αριθμό 32 bit και χρησιμοποιεί 8 bit για το εύρος του αριθμού (πόσο μεγάλο ή μικρό μπορεί να είναι) και 23 bit για την ακρίβεια. Ο ισχυρισμός της NVIDIA είναι ότι αυτά τα 23 bit ακριβείας δεν είναι απολύτως απαραίτητα για πολλούς φόρτους εργασίας AI και μπορείτε να έχετε παρόμοια αποτελέσματα και πολύ καλύτερη απόδοση από μόλις 10 από αυτά. Η μείωση του μεγέθους σε μόλις 19 bit, αντί για 32, κάνει μεγάλη διαφορά σε πολλούς υπολογισμούς.

Αυτή η νέα μορφή ονομάζεται Tensor Float 32 και οι πυρήνες Tensor στο A100 είναι βελτιστοποιημένοι για να χειρίζονται τη μορφή περίεργου μεγέθους. Αυτό είναι, πέρα ​​από τις συρρικνώσεις των ζευγαριών και την αύξηση του αριθμού των πυρήνων, πώς επιτυγχάνουν τη μαζική επιτάχυνση 6x στην εκπαίδευση τεχνητής νοημοσύνης.

Εκτός από τη νέα μορφή αριθμών, το Ampere βλέπει σημαντικές επιταχύνσεις απόδοσης σε συγκεκριμένους υπολογισμούς, όπως το FP32 και το FP64. Αυτά δεν μεταφράζονται άμεσα σε περισσότερα FPS για τον απλό άνθρωπο, αλλά αποτελούν μέρος αυτού που το κάνει σχεδόν τρεις φορές πιο γρήγορο συνολικά στις λειτουργίες Tensor.

Στη συνέχεια, για να επιταχύνουν ακόμη περισσότερο τους υπολογισμούς, εισήγαγαν την έννοια του λεπτόκοκκη δομημένη αραιότητα, που είναι μια πολύ φανταχτερή λέξη για μια αρκετά απλή έννοια. Τα νευρωνικά δίκτυα λειτουργούν με μεγάλες λίστες αριθμών, που ονομάζονται βάρη, που επηρεάζουν την τελική έξοδο. Όσο περισσότεροι αριθμοί πρέπει να τραγανιστούν, τόσο πιο αργά θα είναι.

Ωστόσο, δεν είναι όλοι αυτοί οι αριθμοί πραγματικά χρήσιμοι. Μερικά από αυτά είναι κυριολεκτικά απλώς μηδενικά και βασικά μπορούν να πεταχτούν έξω, κάτι που οδηγεί σε τεράστιες επιταχύνσεις όταν μπορείτε να τσακίσετε περισσότερους αριθμούς ταυτόχρονα. Η αραιότητα ουσιαστικά συμπιέζει τους αριθμούς, κάτι που απαιτεί λιγότερη προσπάθεια για να γίνουν υπολογισμοί. Ο νέος “Sparse Tensor Core” έχει κατασκευαστεί για να λειτουργεί σε συμπιεσμένα δεδομένα.

Παρά τις αλλαγές, η NVIDIA λέει ότι αυτό δεν πρέπει να επηρεάσει καθόλου την ακρίβεια των εκπαιδευμένων μοντέλων.

Για υπολογισμούς Sparse INT8, μια από τις μικρότερες μορφές αριθμών, η κορυφαία απόδοση μιας μεμονωμένης GPU A100 είναι πάνω από 1,25 PetaFLOP, ένας εκπληκτικά υψηλός αριθμός. Φυσικά, αυτό συμβαίνει μόνο όταν τσακίζετε ένα συγκεκριμένο είδος αριθμού, αλλά είναι ωστόσο εντυπωσιακό.