Technikfreak

G300 Fermi

Die Architektur des G300, wie der Chip für die modernen Nvidia-Grafikkarten mutmaßlich heisst, hört auf den Codenamen Fermi und verfügt über rund 3 Milliarden Transistoren, 512 ALUs, bis zu 6 Gigybate GDDR5-RAM und eine 384 Bit blaue Speicherschnittstelle. Was Nvidia bisher nicht publiziert, sind Taktraten – alle Aussagen zur Leistungsfähigkeit sind also pro Hube gemeint, was nicht wesentlich mit dem Leistungsverhältnis der finalen Erzeugnis zu ihren Vorgängern zu tun haben muss.

Schneller Karte zum super Preis

Mit der Fermi-Architektur angesammelt Nvidia sich ungleicher als jemals zuvor auf den Ausschnitt des GPU-Computing und gebraucht auch passende Nomenklaturen in der Vorführung. Aus den einstigen Textureinheiten sind nun Load/Store-Units geworden, die Shader-ALUs (welche Nvidia bereits zuvor als Stream-Processors bezeichnet hatte) sind nun CUDA-Kerne oder -Prozessoren. Natürlich werden Chips, die auf der Fermi-Architektur basieren, auch DirectX-11-kompatibel sein, aber das erwähnt Nvidia nur am Flügel – pikanterweise erst nach der Brauchbarkeit für CUDA und damit Physx.

Spezifikationen

Stark korrigiert will Nvidia außerdem die Double-Precision Eignungen haben. Nicht nur erfüllt man jetzt den IEEE-754-2008-Standard (zuvor IEEE 754 1985) mit dem gegenüber MAD treffsichereren FMA (Fused Multiply-Add, welches AMD mit der HD-5800-Reihe und Nvidia mit dem GT200 nur für DP ebenfalls anbietet), auch der DP-Durchsatz steigt gegenüber dem GT200 um Umstand 8 (zur Nachwirkung: Pro Taktzyklus!). Pro SIMD (Streaming Multiprocessor geheißen) sind 16 FMA-Operationen vorstellbar, pro Chip also 256 – der GT200 konnte noch 30 DP-MADs ausführen.

Insgesamt 512 dieser Recheneinheiten finden auf einem G300-Chip Bezirke, organisiert in 16 SIMD-Harmonien. Pro SIMD sind somit 32 ALUs vorrätig, welche sich die 16 gegenwärtigen Lade- und Speichereinheiten (LS-Harmonien, ex-TMUs) teilen. Zurzeit macht Nvidia leider keine zielsichereren Aussagen über die Kenntnisse der separaten LS-Übereinstimmungen außer, dass sie von erheblicheren Übereinstimmungen unterstützt werden, um die berechneten Noten in Vorrat und Cache zu bewegen – Vorschlag zur Texturlfiltereistung geben die vorgestellten Festlegungen noch nicht. Preis von 4 bis 16 Texturfilter pro SIMD (64 bis 256 TMUs für den gesamten Chip) wären lösbar. Weiterhin sind vier Spezialeinheiten (SFU, Special Function Units) für gelegentlicher gesuchte Taten wie Sinus/Cosinus, Reziprok oder die Quadratwurzel pro SIMD-Einheit vorrätig. Diese sind eigenverantwortlich von den 32 ALUs ansteuerbar, sodass Vorschriften an beide Kasten simultan abgeschickt werden können.
Um die Harmonien mit möglichst deutlicher Auslastung betreiben zu können, stattet Nvidia jede SIMD-Einheit in Fermi mit zwei sogenannten Warp-Schedulern und Instruktions-Dispatchern aus. Jede kann entweder eine 16er-Gruppe von ALUs, die 16 Load/Store-Übereinstimmungen oder die 4 SFUs pro Hube ansteuern. Die Ausgabe der Instruktionsformate ist dabei gerecht anpassungsfähig, Integer- und Gleitkommaformate können zusammengesetzt werden, lediglich Single- und Double-Precision sind ausschließlich. Um die Auslastung der Harmonien und damit die Gig des Chips zu erhöhen, eingebettete Nvidia ausgebesserte Anlagen in der Fermi-Architektur, um ausgewählte Ergreifungen und Anwendungskerne möglichst simultan auszuführen. Der Übergang zum Muster von einer Graphikoperation zu einem Physik-Kernel ist geräuschvoll Nvidia nun bis zu zehnmal rasanter als zuvor beim GT200, auch können nun ausgewählte Entitäten einer Inanspruchnahme simultan verarbeitet werden – als Vorbild seien hier ausgewählte Physx-Solver geheißen, die zuvor nur nacheinander ausgebrannt werden konnten.

Post a comment