Nvidia GeForce GTX 750 Ti: Maxwell ist da - mehr Power, weniger Durst

Da Nvidia seine Grafikarchitekturen jetzt mit Tegra im Hinterkopf entwickelt, hat die Effizienz Priorität bekommen. Kann die neue Maxwell-basierte Mainstream-Karte GeForce GTX 750 Ti beweisen, dass der Fokus auf Energieeffizienz den alten Ansatz schlägt...

Heutzutage mögen Gamer bullige Grafikarten. Dopple-Slot-Kühler und ausgefallene Lüfterabdeckungen sind typischerweise Features, die Eingeweihten beifälliges Grunzen und Nicken im "Hör mal wer da hämmert"-Stil entlocken. Schließlich benötigen hohe Framerates komplexe GPUs, was eine hohe Transistorzahl bedingt. Milliarden Transistoren, die an Battlefield 4 knabbern, produzieren wiederum ordentlich Abwärme und all diese Hitze muss natürlich irgendwie abgeführt werden. Also muss eine leistungsstarke Grafik einen massigen Kühler haben – logisch.

Kurze, "nackte" PCBs werden daher schnell als schwache Karten abgetan. Natürlich kann man keine spielbare Performance von einer Karte erwarten, die wie eine bessere Soundkarte aussieht, richtig? Das ist Mainstream-Hardware für Leute, die sich nichts aus hoher 3D-Power machen, ergo uninteressant.

Und dennoch präsentiert Nvidia seine GeForce GTX 750 Ti in Form einer nur 15 cm langen Karte ohne externe Stromanschlüsse und mit einem kleinen, angeflanschten Kühler im Orb-Stil – vielleicht, um allen etwas zu beweisen? Jedenfalls ist die neue Karte nur in etwa so groß wie die GeForce GTX 650 Ti. Aber ohne den großen Kühler sieht die 750 Ti geradezu zierlich aus.

Aber Nvidia behauptet, dass sein erstes auf der Maxwell-Architektur basierendes Produkt Gaming mit 1920 x 1080 Pixeln ermöglicht – selbst bei den neuesten Titeln und mit ziemlich fordernden Einstellungen. Könnte dies der Prius der Grafikkartenwelt sein?

Maxwell in der Mitte

Noch einmal: Die ist das erste Produkt, das auf Nvidias Maxwell-Architektur basiert, die im Laufe des Jahres 2014 langsam die existierenden Kepler-basierten Karten ablösen soll. Maxwell ist in zweierlei Hinsicht eine faszinierende Geschichte: Zum einen stellt sich die Frage, was diese Architektur für Nvidias künftige Design-Ansätze bedeutet, und zweitens weil Nvidia mehr Architekturdetails für sich behält als es normalerweise tut. Fangen wir mit dem Design an.

Im Dezember letzten Jahres bekamen unsere US-Kollegen im kalifornischen Santa Clara erstmals erste Informationen zu Nvidias Tegra-K1-SoC. Wir wussten damals schon, dass die Grafik-Engine des Tegra K1 auf Kepler basiert – letztlich ein einzelner SMX mit deutlichen Änderungen an den die verschiedenen Subsysteme verbindenden Strukturen mit dem Ziel, die Energieeffizienz zu verbessern. Aber Jonah Alben, Senior Vice President of GPU Engineering, machte auch klar, dass jede neue Grafikarchitektur ab Maxwell mit dem Fokus auf Mobile im Hinterkopf entwickelt werden würde. Nvidias Entwicklungsingenieure würde die Infrastruktur zwischen den GPU-Komponenten in Hinblick auf Performanceziele und Energiebudgets optimieren. Aber die Effizienz würde an allererster Stelle stehen.

Tegra K1: Woher er kam

Der Impuls für Maxwell erwuchs aus Nvidias Anstrengungen im Smartphone- und Tablet-Bereich. Wer mehr über diese Architektur erfahren will, sollte sich unseren Launch-Artikel Nvidia Tegra K1 im Detail: Die Power einer Xbox 360 in einem mobilen SoC? durchlesen.

Keine Frage – das sind gute Nachrichten für die Tegra-Familie, die weiterhin verzweifelt um einen größeren, nennenswerten Marktanteil kämpft. K1-basierte Geräte sind noch nicht einmal verfügbar und wir grübeln schon über Nvidias Behauptung, dass Maxwell im Vergleich zu Kepler die doppelte Performance pro Watt bieten soll, und über die Frage, was derart beträchtliche Verbesserungen für das mobile Gaming bedeuten würden.

Die erneuerte Betonung auf die Effizienz sollte  sich auch für den Desktop als gut erweisen – vorausgesetzt die überarbeitete Architektur skaliert von ein- über zwei- bis hin zu dreistelligen TDP-Zahlen.

Glücklicherweise braucht niemand lange auf eine Antwort zu warten. Die heute vorgestellte GeForce GTX 750 Ti sollte die Überlebensfähigkeit von Maxwell demonstrieren – zumindest auf einer 60-Watt-Karte. Laut Nvidia soll das effektivere Design nicht nur die Energieaufnahme massiv senken, sondern auch die Performance ein bisschen steigern – selbst bei einer GPU mit weniger CUDA-Kernen. Da Nvidia wusste, dass keine neue Prozesstechnik zur Verfügung stehen würde, hat die Firma ihre Verbesserungen an Maxwell auf Basis der 28-nm-Prozesstechnik entwickelt. Anders gesagt: Die Nvidia-Jungs mussten ihre GPUs cleverer arbeiten lassen, denn das einfache Hinzufügen weiterer Ressourcen ist diesmal keine Option.

Der Maxwell-Streaming-Multiprozessor

Vertreter des Unternehmens sagten uns, dass die größten Zuwächse von Maxwell einer Überarbeitung des Streaming-Multiprozessors geschuldet seien, der nun als SMM abgekürzt wird.

Unter Kepler beherbergte jeder SMX 192 CUDA-Kerne, vier Warp-Scheduler und eine 256 KByte große Register-Datei. Dazu kommen noch 64 KByte, die als Shared-Memory und L1-Cache genutzt werden, ein separater Textur-Cache, sowie ein einheitlicher Cache und 16 Textur-Einheiten. Die großen Sprünge in Sachen CUDA-Kernanzahl und Kontrolllogik halfen Nvidia dabei, den Verlust von Fermis doppelter Shader-Frequenz auszugleichen. Aber anscheinend war es auch schwierig, den SMX voll auszunutzen.

Maxwell versucht dieses Problem zu umgehen, indem der SMX in vier Blöcke – jeder mit eigenem Instruktionspuffer, Warp-Scheduler und einem Paar Dispatch-Units – aufgeteilt wurde. Die 256 KByte große Registerdatei von Kepler wurde in vier 64-KByte-Stücke aufgeteilt. Und die Blöcke haben jeweils 32 CUDA-Kerne, 128 pro SMM ergibt (also deutlich weniger als die 192 CUDA-Kerne pro SMX bei Kepler). Die 32 Load/Store- und Special-Function-Units der Kepler-Architektur findet man dagegen auch bei Maxwell. Die Double-Precision-Mathematik wurde dagegen auf 1:32 der FP32-Rate (Single-Precision) eingebremst – bei den Kepler-basierten Mainstream-GPUs lag das Verhältnis noch bei 1:24.

GM107 SMM (Left) Versus GK106 SMX (Right)
Per SM:
GM107
GK106Ratio
CUDA Cores
128
192
2/3x
Special Function Units
32
32
1x
Load/Store
32
32
1x
Texture Units
8
16
1/2x
Warp Schedulers
4
4
1x
Geometry Engines
1
1
1x

Jedes Paar von Blöcken ist mit 12 KByte Textur- und L1-Cache verbunden, was 24 KByte pro SMM ergibt. Block-Paare sind außerdem mit vier Textur-Einheiten assoziiert, der komplette SMM hat also acht. Das sind halb so viele wie in Keplers SMX. Und wenn man sich die obige Tabelle anschaut, dann könnte man meinen, dass GM107 hinter GK106 zurückfällt. Aber keine Panik bezüglich möglicher Engpässe. Denkt dran: Die Architektur ist darauf ausgelegt mit weniger Ressourcen mehr zu erledigen.

Zu guter Letzt gibt es da noch 64 KByte Shared-Memory für den SMM, das erstmals in Fermi auftauchte und über Kepler nun bei Maxwell gelandet ist, aber nicht mehr als L1-Cache für Rechenaufgaben aufgerufen wird. Dieser Speicher war in der Vergangenheit mal als 48 KByte Shared und 16 KByte L1-Cache konfiguriert, manchmal auch andersherum. Jetzt ist das nicht (mehr) nötig, die kompletten 64 KByte stehen als gemeinsam genutzter Adressraum für GPU-Compute-Aufgaben zur Verfügung.

Wie man sich leicht vorstellen kann, bedeutet der Verzicht auf 64 CUDA-Kerne und acht Textur-Einheiten beim SMM, dass jeder Block deutlich weniger Platz auf dem Die benötigt. Gleichzeitig behauptet Nvidia, dass rund 90 Prozent der Multiprozessor-Performance erhalten werden konnten, indem die Kerne fortwährend beschäftigt werden. Wer jetzt überlegt, was das wohl für ein Tablet bedeutet, ist nicht allein – das ging uns genauso. Aber in der Desktop-Welt bedeutet das einfach nur, dass Nvidia im Vergleich zu den Keplers SMXs bei Maxwell mehr SMMs auf die gleiche Fläche packen kann. Ein Beispiel: Die GeForce GTX 650 Ti hatte vier SMX-Blocks, während die GeForce GTX 750 Ti über fünf SMM-Blocks verfügt.

GM107 im Detail

Dies ist das erste Mal, das Nvidia eine neue Architektur anhand einer entschieden für den Mainstream-Bereich ausgelegten Grafikkarte vorstellt. Bei Fermi war es das Flaggschiff GF100. Bei Kepler läutete die beeindruckend schnelle GK104 die neue Architektur ein. Die GM107 als das neue Gesicht von Maxwell braucht aber einen anderen Ansatz. Das liegt natürlich daran, dass sich die Maxwell-basierte GeForce GTX 750 Ti in ein Portfolio einfügen muss, das von Kepler-Karten dominiert wird, anstatt einfach den Thron zu okkupieren.

Heute reden wir über eine voll aktivierte Implementierung der GM107, die aus fünf SMMs in einem einzelnen Graphics-Processing-Cluster mit eigener Raster-Engine besteht. GM107 kann einen sichtbaren Primitive pro Taktzyklus setzen und ordnet sich damit knapp hinter der GK106 mit ihren 1,25 Primitives/Takt ein – immerhin doppelt so viel wie die 0,5 Primitives/Takt der GK107.

Wie in früheren Nvidia-Architekturen ist die Anzahl der ROP-Partitionen und L2-Cache-Bereiche auch hier identisch. Und wie die GK106-GPU der GeForce GTX 650 Ti hat auch die GM107-GPU zwei Partitionen mit jeweils acht Einheiten, was in 16 32-Bit-Integer-Pixeln pro Takt resultiert. In Sachen L2-Cache-Kapazität gibt es allerdings deutliche Unterschiede. Bei der GK106 war jeder L2-Cache-Bereich 128 KByte groß, was bei Implementierungen mit zwei ROP-Partitionen insgesamt 256 KByte ergab. Bei GM107 reden wir über ein MByte pro L2-Cache-Bereich, also insgesamt zwei MByte für Load-, Store- und Textur-Anfragen. Dies soll laut Nvidia in einer deutlichen Entlastung des externen Speichers resultieren, was sich auch in merklichen Energieeinsparungen niederschlagen soll.

Die Speicherbandbreite nicht zu sehr zu belasten ist ein cleverer Ansatz, da GM107 nur ein Paar 64-Bit-Speicher-Controller mitbringt, an denen ein oder zwei GByte GDDR5-RAM hängen. Interessanterweise ist der Spitzendurchsatz genauso hoch wie der der GeForce GTX 650 Ti: 86,4 GByte/s. Der Speicher füttert zwar weniger CUDA-Kerne, aber diese werden effizienter verwaltet. Der große L2-Cache soll daher eine wichtige Rolle bei der Vermeidung eines Flaschenhalses spielen.

Neben den für Gaming und Rechenaufgaben reservierten GM107-Bereichen will Nvidia auch den Fixed-Function-Block NVEnc verbessert haben. Dieses Stückchen Silizium ist dafür verantwortlich, das ShadowPlay mit minimalen Performance-Einbußen Gameplay-Mitschnitte enkodieren kann und das das Streaming zur Shield-Konsole ermöglicht. Und es beschleunigt ein paar Transcoding-Apps, mit denen man große Filme schnell auf portable Geräte portiert bekommt. Wo Kepler H.264-basierte Inhalte noch mit etwa vierfacher Echtzeitgeschwindigkeit kodieren konnten, soll Maxwell mit sechs- bis achtfacher Geschwindigkeit glänzen. Die H.264-Dekodierungs-Performance soll bis acht- bis zehnmal schneller sein als zuvor.


GeForce GTX 650GeForce GTX 650 Ti
GeForce GTX 750 Ti
GeForce GTX 660
GPU
GK107
GK106
GM107
GK106
Architecture
Kepler
Kepler
Maxwell
Kepler
SMs
2
4
5
5
GPCs
1
2
1
3
Shader Cores
384
768640
960
Texture Units
32
64
40
80
ROP Units
16
1616
24
Process Node
28 nm
28 nm28 nm
28 nm
Core/Boost Clock
1058 MHz
925 MHz1020 /1085 MHz
980 / 1033 MHz
Memory Clock
1250 MHz
1350 MHz
1350 MHz
1502 MHz
Memory Bus
128-bit
128-bit128-bit
192-bit
Memory Bandwidth
80 GB/s
86.4 GB/s86.4 GB/s
144.2 GB/s
Graphics RAM (GDDR5)
1 or 2 GB
 1 or 2 GB
1 or 2 GB
2 GB
Power Connectors
1 x 6-pin1 x 6-pin
None
1 x 6-pin
Maximum TDP
64 W
110 W
60 W
140 W
Price
$130 (2 GB)
$150 (2 GB)$150 (2 GB)
$190 (2 GB)

Alles in allem verfügt die GM107-GPU über 1,87 Milliarden Transistoren auf einer Die-Fläche von 148 mm². Wenn man wieder mit der GeForce GTX 650 Ti vergleicht: Ihre GK106-GPU hatte 2,54 Milliarden Transistoren auf 221 mm². Bevor wir zu unseren Performance-Ergebnissen kommen muss man also schon mal zwangsläufig annehmen, dass es Nvidia mit der Betonung der Effizienz ernst ist. Immerhin soll das erste Maxwell-basierte Produkt eine GPU ersetzen, die bei gleicher Prozesstechnik deutlich mehr Transistoren auf einem größeren Die beherbergt und mehr CUDA-Kerne und Textur-Einheiten hat – und die Gesamtperformance soll trotzdem noch höher sein. Wir sind gespannt…

Alternativ kann man die GM107 natürlich auch mit der GK1070 (1,03 Mrd. Transistoren, 118 mm² Die-Fläche) vergleichen, wenn man lieber Karten mit ähnlicher TDP gegeneinanderstellen will. In diesem Vergleich ist die Maxwell-basierte GPU komplexer, größer, deutlich schneller und sollte trotzdem weniger Saft verbrauchen.

Erstelle einen neuen Thread im Artikel-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
28 Kommentare
    Dein Kommentar
  • monsterartikel - und das ist in jeder hinsicht positiv gemeint!!!

    Ich glaube Nvidia geht hier den richtigen weg richtung Wohnzimmertauglichkeit - bei meinen bescheidenen Ansprüchen rückt der Wohnzimmer-pc wieder ein stückchen weiter in Richtung - "jetzt zusammenstellen"

    Vielen Dank für die umfangreiche Arbeit @ TH-Team
    0
  • Immer wieder gern. ;)
    0
  • Hat unser Igor Gigabyte schon angestiftet die Windforce auf leise zu trimmen? *frechgrinz*
    0
  • Willste das BIOS? Ist schon in Massenproduktion :D
    0
  • warum frage ich eigentlich - aber immer wieder schön zu sehen, was die presse für den doofen heimanwender erreichen kann :D
    0
  • Maxwell? Smart :D
    0
  • Ich habe das Referenz-Teil mal probeweise in eine total verbastelte Dell-Kiste mit Uraltnetzteil gesteckt - bleibt saukühl und rennt. Für Upgrader ohne PCI-E Stecker eine gute Sache.
    0
  • Ich warte ja noch auf den Maxwell Ersatz für die 770. Da wirds dann richtig interessant
    0
  • So einen Artikel würde ich mir häufiger wünschen. All zu oft gibt es einen 1-3 Seiten Artikel und gut ist.Aber ist die Karte jetzt real eine 1-Slot oder doch eine 2-Slot Karte?Die Boardpartnerkarten sind ja 2-Slot und irgendwie sieht der Kühler der Referenzkarte auch ehr nach 2-Slot aus, auch wenn es keine 2te Slotblende gibt.Für den Einbau ist es ja ehr wichtiger, ob die Karte im Gehäuse 1 oder 2 Slots belegt, egal wieviele Blenden sie nun hat.Mal eine Frage an THG. Gibts eigentlich eine Liste von Mobos, die von ihrem Layout her wirklich SLI unterstützen? Meistens ist die Belegung ja PCIE16x, PCIE1x, PCIE16x usw.Gibts Boards, die nur jeden 3ten Slot als PCIE16x belegen? Dann hätte man a) genug Platz zwischen den Karten und könnte b) auch mal Karten mit 2,5 Slots als SLI verbauen.
    0
  • Diese Karten können kein SLI. Nvidia hat das definitiv per Treiber unterbunden :)
    Sonst würde doch keiner mehr eine 770 kaufen...

    So eine Liste gibt es leider nicht, aber die Shop-Bilder sollten schon weiterhelfen
    0
  • Wenn man sich Maxwell und Kepler hernimmt, dann erscheint Kepler plötzlich als "viel-hilf-viel"-Variante und Maxwell als filigrane Feinarbeit, bei der man alles auf Effizienz getrimmt hat.Die Leistungswerte für eine solch "schwach" ausgeführte Karte beeindrucken. Es zeigt aber auch, dass nackte Zahlen (Anzahl von Funktionseinheiten, etc) nur dann für Vergleiche taugen, wenn es sich um gleiche Technologien handelt.Nun bleibt wirklich abzuwarten, was ein "Titan-Nachfolger" auf dieser Technik, dann vermutlich gleichzeitig in kleinerer Strukturbreite, bieten wird.Schön zu sehen, dass es immernoch solche Entwicklungen gibt, die spürbare Schritte nach vorn bedeuten.---Bei den Kühllösungen der "Boardpartner" muss ich dermaßen die Augen verdrehen, dass sie mir fas aus den Augenhöhlen fallen. KEINER hat eine Kühllösung gestrickt, die die Abwärme aus dem Gehäuse pustet. Zotac ist ja noch am nächsten dran, aber hat es dann doch nicht zuende gedacht.Bei einer solch leicht zu kühlenden Karte, sollte das doch spielend und geräuscharm möglich sein.Schade auch, dann in diesem Preissegment lieber gebührenpflichtige HDMI-Anschlüsse verbaut werden, als DP-Stecker.Aber die Karte an sich klingt wirklich nach einem guten Gesamtpaket: Gute Leistung bei einem sparsamen Energieverbrauch und das ganze bei erträglicher Lautstärke gekühlt.Hoffentlich nimmt sich auch AMD bei den nächsten High-End-Karten daran ein Beispiel, dann kann die Entwicklung gerne so weitergehen: MEHR Leistung bei weniger Stromverbrauch, höhere Effizienz an jeder Ecke. Top!
    0
  • Das ist eine Consumer-Karte im unteren Preissegment. Wer hat da schon einen Monitor mit DisplayPort?
    0
  • Mal ne blöde Frage für mich als Stromunkundigen. Wie liefert der PCIE Slot 140 W Peak?
    0
  • Kondensatoren?
    0
  • Peaks < 10ms
    0
  • Das Einzige was noch stoehrt ist die Speicherbandbreite. Von der Rechenleistung her nimmt sie es in Spielen ja schon mit der GTX480 auf. Die Fuellrate reicht aber leider noch nicht :)
    0
  • Warten wir mal ab, wie die nächsten, größeren Karten auf Maxwell-Basis aussehen. Ich für meinen Teil bin gespannt. :D
    0
  • Auf jeden Fall - der Ansatz ist extrem vielversprechend - pixelheizkörper mal in pixelbeschleuniger zu verwandeln war lange überfällig ;)
    0
  • Hab auch schon geschaut weil ich mich über kurz noch entscheiden muss ob ich meine 650ti jetzt ersetze oder nicht. Denke ich warte noch ein weilchen und schaue was da noch kommt. Sieht zumindest sehr interessant aus. :D
    0
  • Verdammt interessante Karte, wollte schon lange meine HD 5750 gegen irgend etwas Sparsames ersetzen: Voilà!Es ist schon krass, wie wenig diese Karte verbraucht bei einer solchen Leistung.
    0