GTX 1070/1080 vs. GTX 980 Ti: Effizienzanalyse & Leistungsaufnahme

Nvidia konnte unserem deutschen Labor zum Launch der GeForce GTX 1070 kein Sample bereitstellen, hat dies aber mittlerweile nachgeholt. Wir wollen die fehlenden Tests nachliefern - und zusammen mit GTX 1080 und GTX 980 Ti noch deutlich tiefer graben.

Da mittlerweile auch Custom-Designs der Hersteller verfügbar sind, lassen wir in unserem Vergleich sogar fünf Karten gegeneinander antreten: Den Founders-Edition-Modellen der GeForce GTX 1070 und GeForce GTX 1080 stellen wir die MSI GeForce GTX 1070/1080 Gaming X 8G gegenüber und komplettieren dieses Pascal-Quartett mit einer MSI GeForce GTX 980 Ti Lightning, die noch auf Nvidias Maxwell-GPU basiert.

Zusammenhang von Takt, Leistungsaufnahme und Performance

Was wir vorhaben, bedeutet zwar eine Menge Arbeit in Form unzähliger Messreihen, lohnt sich aber. Wir messen die Leistungsaufnahme gestaffelt über einen sehr großen Taktfrequenzbereich, stellen die Gaming-Performance den jeweiligen Taktraten gegenüber und wissen am Ende mehr über die resultierende Effizienzkurve jeder einzelnen Karte und ob bzw. bis wohin sich sowohl Übertaktung als auch das Energiesparen überhaupt lohnen könnten.

Außerdem vergleichen wir in all diesen Rubriken auch taktbereinigt Maxwell und Pascal, was uns am Ende auf die verfügbare Shader-Leistung  jeder einzelnen Einheit (in Wechselwirkung mit der restlichen Architektur der GPU sowie der technischen Umsetzung der gesamten Grafikkarte) schließen lässt.

Natürlich folgen als Nebenwirkung zur Untersuchung der Leistungsaufnahme der Grafikkarten auch noch die Analysen ihrer jeweiligen Temperaturentwicklung und der damit verbundenen Geräuschentwicklung ihrer Kühllösungen.

Bevor wir jedoch genauer auf unsere Methoden und das Test-Setup eingehen, schnell alle fünf Karten noch einmal im tabellarischen Überblick:

GPU
Nvidia GeForce
GTX 1070
Founders Edition

MSI GeForce
GTX 1070
Gaming X 8G
Nvidia GeForce
GTX 1080
Founders Edition
MSI GeForce
GTX 1080
Gaming X 8G
MSI GeForce
GTX 980 Ti
Lightning 6GB

SMs
15
15
20
20

CUDA-Kerne
1920
1920
2560
2560
2816
Basistakt
1506 MHz
1607 MHz
1607 MHz
1709 MHz
1203 MHz
GPU-Boost-Takt
1683 MHz
1797 MHz
1733 MHz
1848 MHz
1304 MHz
GFLOPs (Basistakt)
5783
6171
8228
8750
6775
Textur-Einheiten
120
120
160
160
176
Textur-Füllrate
180.7 GT/s
192.8 GT/s
257,1 GT/s
273,4 GT/s
211,7 GT/s
Speichergröße
8 GByte
8 GByte8 GByte8 GByte6 GByte
Speicherbandbreite
256 GByte/s
259,5 GByte/s
320 GByte/s
323,6 GByte/s340,6 GByte/s
Speichertakt
2002 MHz
2027 MHz
2502 MHz2528 MHz
1774 MHz
ROPs
64
64
64
64
96
L2-Cache
2 MByte
2 MByte2 MByte2 MByte3 MByte
TDP
150 Watt
>190 Watt180 Watt>200 Watt>280 Watt
Transistoren
7,2 Mrd.7,2 Mrd.7,2 Mrd.
7,2 Mrd.
8 Mrd.
Die-Größe
314 mm²314 mm²314 mm²314 mm²601 mm²
Fertigunsprozess16nm16nm16nm
16nm28nm

Methodik und Benchmark-Auswahl

Um möglichst realitätsnah zu bleiben, betreiben wir diesmal alle Grafikkarten in einem geschlossenen Gehäuse (Nanoxia Deep Silence 5), dessen serienmäßige Front- und Hecklüfter wir auf niedrigster respektive mittlerer Stellung laufen lassen.

Die Messung der Leistungsaufnahme erfolgt analog zu dem üblichen Vorgehen, auch wenn die Positionierung der Stromzangenadapter und Spannungstastköpfe diesmal nicht ganz einfach war (nachzulesen in unserem Grundlagenartikel Grundlagen GPUs: Leistungsaufnahme, Netzteilkonflikte & andere Mythen).

Leistungsaufnahme
Messverfahren:
berührungslose Gleichstrommessung am PCIe-Slot (Riser-Card)
berührungslose Gleichstrommessung an der externen PCIe-Stromversorgung
direkte Spannungsmessung am Netzteil
Messgeräte:
2x Rohde & Schwarz HMO 3054
(500 MHz Mehrkanal-Oszillograph mit Speicherfunktion)
4x Rohde & Schwarz HZO50, Stromzangenadapter
(1 mA bis 30 A, 100 KHz, DC)
4x Rohde & Schwarz HZ355, Tastteiler (10:1, 500 MHz)
1x Rohde & Schwarz HMC 8012
(Digitalmultimeter mit Speicherfunktion)
1x Optris PI640, Infrarotkamera + PI Connect

Das nächste Problem betraf die Benchmark-Auswahl. Aufgrund der sehr aufwändigen und umfangreichen Messreihen mussten wir uns auf einen einzelnen Benchmark festlegen - und selbst das bedeutete am Ende noch fast sechs volle Arbeitstage.

Um wirklich repräsentativ zu bleiben, haben wir nach vielen Plausibilitätstests im Vorfeld auf Metro Last Light in der Ultra-HD Auflösung zurückgegriffen. Wir vermeiden damit eine CPU-Limitierung, umgehen ein mögliches Speicher-Limit und können die Grafikkarten doch vollends auslasten. Somit kommt die Leistungsaufnahme fast schon dem Worst-Case nahe, ohne jedoch gleichzeitig den Boost allzusehr zum Abriegeln und Heruntertakten zu zwingen.

Als Testsystem nutzen wir diesmal unsere im obengenannten Gehäuse eingebaute Workstation von Happyware, diesmal jedoch mit einem auf 4,5 GHz übertakteten Intel Core i7-6700K samt AiO-Kompaktwasserkühlung bestückt, was zu keiner Zeit die Messergebnisse negativ beeinflussen konnte.

Happyware Crossover Workstation
Testsystem:
Core i7-6700K @4,5 GHz
2x 8 GByte DDR4 @3400
Asus P10 WS
2x Samsung SM863 (3D V-NAND)
Seagate Constellation Server-HDD
Windows 10 Enterprise (TH2, alle Updates)
Treiber:
GeForce 368.39

So ausgerüstet stürzten wir uns in ein nahezu einwöchiges Abenteuer - mit den Pascal-Geschwistern und dem guten alten Onkel Maxwell als Reisebegleiter.

Erstelle einen neuen Thread im Artikel-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
32 Kommentare
Im Forum kommentieren
    Dein Kommentar
  • Herbert_1
    first
    -3
  • Jolly91
    Vielen Dank für den eindrucksvollen Bericht.
    1
  • Tesetilaro
    Vielen Dank - sieht wirklich aus, als hätte MSI mit der 1070 so richtig alles richtig gemacht - mal schaun was die mitbewerber sagen...

    aber aus meiner Sicht - wer jetzt noch eine 970 kauft, dem ist nicht mehr zu helfen ;)
    1
  • lowmotion
    Klar lohnt sich eine 970. Kommt auf den Preis an. Bei 249 Euro hast du vermutlich das P/L der 1070 übertroffen.
    0
  • Ironical
    "Die GeForce GTX 1080 läuft mit einer GDDRX5-Bleikugel am linken Fuß durch die Welt (oder war es der rechte?), während die GeForce GTX 1070 am Ende wohl sogar den höheren Speicherdurchsatz bietet."

    An was liegt das? Eigentlich müsste der GDDR5X Speicher ja schneller sein.
    Es müssen 2560 statt 1920 Shader Einheiten versorgt werden?
    Der 256-bit Memory Bus limitiert?
    0
  • Merlin1988
    Hat mir geholfen mich für die 1070 zu entscheiden. Danke
    0
  • FormatC
    Zitat:
    An was liegt das? Eigentlich müsste der GDDR5X Speicher ja schneller sein.
    Es müssen 2560 statt 1920 Shader Einheiten versorgt werden?
    Exakt. Es steht pro Shader-Einheit am Ende ein prozentual deutlich niedrigerer Durchsatz zur Verfügung. :)
    1
  • fffcmad
    Zitat:
    "Die GeForce GTX 1080 läuft mit einer GDDRX5-Bleikugel am linken Fuß durch die Welt (oder war es der rechte?), während die GeForce GTX 1070 am Ende wohl sogar den höheren Speicherdurchsatz bietet."

    An was liegt das? Eigentlich müsste der GDDR5X Speicher ja schneller sein.
    Es müssen 2560 statt 1920 Shader Einheiten versorgt werden?
    Der 256-bit Memory Bus limitiert?



    Der Chip ist durch die Speicherbandbreite allgemein beschraenkt. GDDR5x ist nur in der Theorie schneller als sein Vorlaeufer. Man versucht durch Multiplexing eine hohe Datenrate zu erzielen. Dummerweise verpufft diese theoretische Bandbreite sehr schnell. (Nicht alle uebermittelten Daten werden auch benoetigt) Die GPU der 1080 ist geschaetzt schnell genug fuer 4K. Der Speicher ist jedoch die Bremse. Das Modell, welches diese Bremse nicht hat laeuft mit HBM 2 und, kommt erst noch. Fuer den Preis haette die 1080 eigentlich als 384Bit-Version auf den Markt kommen muessen. Aber dann haette sie der kommenden Titan/ TI wohl die Vorraete weggefressen. Auch weil sie dann wohl die fast 60FPS bei 4K gepackt haette.

    Auch zeigt sich bei den Uebertaktermodellen der 1080 das der GDDR5 wohl schlecht zu uebertakten ist. Einige Modelle die ich gesehen habe belassen den Speichertakt deswegen wohl auf Standard. Schlechtes Zeichen. Hatte ich aber schon mal erwaehnt.
    0
  • Ironical
    quote]Exakt. Es steht pro Shader-Einheit am Ende ein prozentual deutlich niedrigerer Durchsatz zur Verfügung. :)
    Dann bin ich ja mal auf GP102 mit GDDR5X gespannt :)
    0
  • Ironical
    Zitat:
    Zitat:
    "Die GeForce GTX 1080 läuft mit einer GDDRX5-Bleikugel am linken Fuß durch die Welt (oder war es der rechte?), während die GeForce GTX 1070 am Ende wohl sogar den höheren Speicherdurchsatz bietet."

    An was liegt das? Eigentlich müsste der GDDR5X Speicher ja schneller sein.
    Es müssen 2560 statt 1920 Shader Einheiten versorgt werden?
    Der 256-bit Memory Bus limitiert?



    Der Chip ist durch die Speicherbandbreite allgemein beschraenkt. GDDR5x ist nur in der Theorie schneller als sein Vorlaeufer. Man versucht durch Multiplexing eine hohe Datenrate zu erzielen. Dummerweise verpufft diese theoretische Bandbreite sehr schnell. (Nicht alle uebermittelten Daten werden auch benoetigt) Die GPU der 1080 ist geschaetzt schnell genug fuer 4K. Der Speicher ist jedoch die Bremse. Das Modell, welches diese Bremse nicht hat laeuft mit HBM 2 und, kommt erst noch. Fuer den Preis haette die 1080 eigentlich als 384Bit-Version auf den Markt kommen muessen. Aber dann haette sie der kommenden Titan/ TI wohl die Vorraete weggefressen. Auch weil sie dann wohl die fast 60FPS bei 4K gepackt haette.

    Auch zeigt sich bei den Uebertaktermodellen der 1080 das der GDDR5 wohl schlecht zu uebertakten ist. Einige Modelle die ich gesehen habe belassen den Speichertakt deswegen wohl auf Standard. Schlechtes Zeichen. Hatte ich aber schon mal erwaehnt.


    Naja auf 5500 MHz sollte ja laut diversen Tests funktionieren, das wären immerhin 10%. In der Vergangenheit haben die Partnerkarten auch selten von Anfang an an der Taktschraube vom VRAM gedreht. Zotac war da ja immer relativ offensiv und deren AMP Extreme 1080 wird ja immerhin standardmäßig mit 5400MHz ausgeliefert.

    ABer ich denke zu diesem Thema wird man noch einige Tests lesen können in den kommenden Wochen.
    0
  • fffcmad
    10% sind jetzt nicht wirklich viel. GDDR5x nutzt einen 16n Prefetch. Wir koennen die 5000Mhz also getrost durch 16 teilen, um den realen takt fuer die reine Datenuebertragung zu haben. Da sind wir bei 312,5 realen MHz. 10% mehr ist da wirklich nicht viel. Der Speicher ist da schon am Limit. intern muss er ja mit dem 16 fachen takt arbeiten, um den 16n Prefetch zu ermoeglichen. Das da schnell Sense ist, ist verstaendlich. Nvidia scheint da auch die kleinste variante zu verbauen, wenn ich mich jetzt nciht vertue. Es muesste sich um die GDDR5X variante mit 1,250GHz handeln. http://wccftech.com/jedec-publishes-gddr5x-specification-double-bandwidth/

    Wenn ich hier falsch liege sagt mir Bescheid, ich habe beim schnellen Rechnen nciht genau gegruebelt obs stimmt.
    0
  • Jolly91
    Die 1070 kratzt ab und zu an der 300W Marke und hält sich meistens bei 250W auf, die 980 Ti will auf 400W rauf. Da sieht man relativ gut den Fertigungsunterschied. Aber ob´s ein Argument ist auf die 1070 zu wechseln um u.a. 2gb mehr Speicher zu haben sei dahingestellt. Da müsste die 1070 noch ein paar Zehnerl günstiger werden.
    0
  • Tesetilaro
    die Frage ist doch, von wo kommt man, wo will man hin und wie oft möchte man wechseln...

    wenn man jetzt eine 670 / 770 / R9 280+ hat ist das aus meiner Sicht eine Überlegung wert, wenn eh ein Monitor mit mehr als FullHD ins Haus steht - und das ist jetzr nur ein Bruchteil der denkbaren Aufrüst scenarien...
    0
  • Jolly91
    Am Ende ist es so ählich wie damals von der 780ti zur 980. Weniger Verbrauch, gleiche Leistung.
    0
  • FormatC
    Richtig :)
    0
  • moeppel
    Zitat:
    Zitat:
    An was liegt das? Eigentlich müsste der GDDR5X Speicher ja schneller sein.
    Es müssen 2560 statt 1920 Shader Einheiten versorgt werden?
    Exakt. Es steht pro Shader-Einheit am Ende ein prozentual deutlich niedrigerer Durchsatz zur Verfügung. :)


    Wobei ich da nicht in erster Linie GDDR5X die Schuld geben würde (auch wenn HBM(2) sicherlich höhere Anbindungen hat ;) ) als viel mehr das die Karte absichtlich mit 256bit kastriert wurde.
    0
  • Chemidemi
    Vielen Dank für den schönen Test.

    Hätte da mal eine Frage zur Shader Performance Per Clock.
    Wenn ich es richtig verstehe ist die Shader Performance der 980 Ti und der 1070 identisch, da letztere bei gleichen Takt mit der 1070 auf einer Linie liegt. Aber warum zeigt die 1080 eine deutlich schlechtere Shader Performance? Sie sollte ja anscheind auf die gleichen Shader wie die 1070 und ergo die 980 Ti zurückgreifen können.
    0
  • FormatC
    Steht als Vermutung im Test. Ich halte den zu geringen Speicherdurchsatz pro Shader durchaus für bedenklich. Sowohl die 980 Ti als auch die 1070 sind davon ja weniger betroffen. Die 1080 tritt sich quasi selbst auf die Füße, egal ob als FE oder Custom. Das ist reproduzierbar.
    0
  • Chemidemi
    Also doch der Speicherdurchsatz. Dabei wurde GDDR5X doch so hochgelobt und galt als unverzichtbar für eine höhere Performance. Aber warum verpufft die theoretische Mehrleistung so stark? ffcmad hat es ja schon angesprochen, aber würde eine größeres Speicherinterface denn den nominellen Vorteil des GDDR5X Speichers nicht verpuffen lassen oder liegt es generell am Takt des Speichers?
    0
  • FormatC
    Naja, also so dolle ist die Mehrleistung ja nun auch nicht. Man hat ja nur den X-Einsteiger-RAM verbaut :)
    0