Nvidia GeForce GTX 1080 Founders Edition: Pascal im Test

Simultaneous Multi-Projection und Async Compute

Die SMP-Engine (Simultaneous Multi-Projection)

Etliche GP104-Aspekte beeinflussen die Performance jedes Games, das wir heute testen – die erhöhte Kernanzahl, die Taktfrequenz und die Integration von zehn GBit/s schnellem GDDR5X. Andere Features können derzeit noch nicht demonstriert werden, dürften aber zukünftig große Auswirkungen zeigen. Solche Aspekte sind in einem Test immer sehr schwer einzustufen. Nichtsdestotrotz bringt die Pascal-Architektur verschiedene Funktionen mit, von denen wir gar nicht abwarten können, dass sie von am Markt verfügbaren Spielen genutzt werden.

Das erste, weiter oben bereits erwähnte Feature nennt Nvidia 'Simultaneous Multi-Projection Engine' (SMP). Dabei handelt es sich um einen Hardware-Block, der zu den PolyMorph-Engines der GP104 hinzugefügt wurde. Dieser Logikschaltkreis schnappt sich die Geometriedaten und verarbeitet sie für bis zu 16 Projektionen (Viewports) von einem einzelnen Sichtpunkt aus. Oder er erzeugt einen Versatz des Sichtpunkts für Stereo-Anwendungen und repliziert dabei die Geometrie bis zu 32 mal in Hardware – und zwar ohne den heftigen Performance-Overhead, der auftreten würde, wenn man den gleichen Effekt ohne SMP zu erzielen versuchen würde.

Aber gehen wir mal einen Schritt zurück und geben dem Ganzen etwas Kontext: Unser US-Kollege Chris zockt und arbeitet fast ausschließlich an drei Monitoren in einer Surround-Konfiguration. Wie bei vielen Nutzern solcher Setups sind Chris' Monitore nach innen geneigt, um den Schreibtisch – übertrieben gesagt – zu „umfassen“. Das macht schon allein aus Office-Produktivitätsgründen Sinn. Games wissen das jedoch nicht. Eine Straße, die alle Displays durchläuft, hat an jedem Rahmen einen Knick – und ein runder Tisch im Peripheriebereich der Anzeige erscheint verzogen.

Um das Bild bei Chris' Konfiguration korrekt darzustellen, bräuchte man eine Projektion geradeaus, eine zweite Projektion nach schräg links (so wie in einem Panorama-Cockpit eines Flugzeugs) und schließlich eine dritte Projektion, die schräg nach rechts orientiert ist. Die vorher abknickende Straße könnte so begradigt werden und man hätte zudem ein deutlich weiteres Sichtfeld. Die ganze Szene muss natürlich immer noch berechnet werden, aber man spart sich den beim dreifachen Rendern der Szene entstehenden Setup-, Treiber- und GPU-Frontend-Overhead.

Damit das klappt, muss eine Anwendung breite FOV-Settings unterstützen und SMP-API-Calls nutzen. Im Klartext: Spieleentwickler müssen das neue Feature annehmen und umsetzen, bevor man es als Endkunde nutzen kann. Wir können nicht exakt abschätzen, wie viel Zeit, Energie und Anstrengungen darauf verwendet werden wird, die (noch) recht kleine Zielgruppe der Surround-Gamer zufriedenzustellen. Aber es gibt andere Anwendungen, bei denen eine sofortige Implementierung Sinn macht.

Schauen wir uns mal die Virtual Reality an: Hier braucht man bereits eine Projektion pro Auge. Momentan rendern Games eine Szene einfach zweimal (je einmal pro Schirm/Auge), was all die oben erwähnten Ineffizienzen mit sich bringt. Aber da SMP ein Paar Projektionszentren unterstützt, können beide dank eines Features namens 'Single Pass Stereo' in einem einzelnen Durchgang gerendert werden. Die Vertex-Berechnung geschieht nur ein einziges mal und SMP schickt zwei Positionen zurück, die mit dem linken und rechten Auge korrespondieren. SMP kann außerdem zusätzliche Projektionen verwenden um ein Feature zu aktivieren, das als 'Lens Matched Shading' bezeichnet wird.

Kurz zusammengefasst versucht Lens Matched Shading VR-Berechnungen effizienter zu machen, indem ein Großteil der Arbeit vermieden wird, der normalerweise beim Rendern einer traditionellen, planaren Projektion anfallen würde – und zwar bevor die Projektion gebeugt wird, um sie an die Verzerrung der HMD-Linsen anzupassen (wodurch Pixel an den Stellen verschwendet werden, an denen die Beugung am stärksten ausgeprägt ist).

Indem SMP genutzt wird, um die Displayregion in Quadranten einzuteilen, kann dieser Vorgang deutlich verbessert werden. Anstatt eine quadratische Projektion zu rendern und diese dann zu manipulieren, erstellt die GPU Bilder, die bereits dem Ergebnis des Verzerrungsfilters der Linsen entsprechen. So wird verhindert, dass mehr Pixel generiert werden als nötig. Und so lange Entwickler die Mindestanforderungen der Sampling-Rate eines HMD pro Auge erreichen oder übertreffen, soll man keinen qualitativen Unterschied feststellen können. Nvidia bereitet nach eigener Aussage die Freigabe eines SDK vor; man wird also abwarten müssen, wie gut diese Features dann letztendlich unterstützt werden.

Wenn man Single Pass Stereo Lens Matched Shading kombiniert, soll laut Nvidia im Vergleich zu einer GPU ohne SMP die doppelte Performance in VR-Anwendungen drin sein. Ein Teil entstammt Verbesserungen des Pixeldurchsatzes: Unter Nutzung von Lens Matched Shading, um die Arbeit an Pixeln zu vermeiden, die nicht gerendert werden müssen, verringert Nvidias konservative Voreinstellung eine 4,2-MPix/s-Arbeitslast (Oculus Rift) auf 2,8 MPix/s und setzt damit einen ordentlichen Teil GPU-Shading-Performance frei – eine GPU ohne SMP müsste im Vergleich die anderthalbfache Leistung erbringen. Anschließend wird die Geometrie dank Single Pass Stereo nur ein einziges mal berechnet und auf beide Linsen verteilt (eine GPU ohne SMP müsste diese Berechnung für jedes Auge einzeln durchführen), so dass effektiv die Hälfte der Geometrieberechnungen im Vergleich zum aktuellen Ansatz wegfällt.

Wer von Jen-Hsuns Folie „2x Perf and 3x Efficiency Vs. Titan X” während des GTX-1080-Livestreams beeindruckt war, weiß nun, wie diese Zahlen zustande kamen.

Asynchronous Compute

Die Pascal-Architektur beinhaltet außerdem einige Änderungen bezüglich Asynchronous Compute - und das passiert aus mehreren Gründen (DirectX 12, VR und AMDs diesbezüglicher Vorsprung in Sachen Architektur) zu einem sehr passenden Zeitpunkt.

Mit seiner Maxwell-Architektur unterstützte Nvidia eine statische Partitionierung der GPU, um überlappenden Grafik- und Compute-Workloads gerecht zu werden. Theoretisch war dies ein guter Weg, um die Nutzung zu maximieren – zumindest solange beide Segmente aktiv waren. Wenn man 75 Prozent der GPU für Grafikberechnungen reserviert und dieses Segment dann Däumchen dreht, weil es darauf wartet, dass die Compute-Seite fertig wird, „verbrennt“ man jedweden theoretischen Vorsprung, der beim gleichzeitigem Ablauf beider Aufgaben drin wäre. Pascal adressiert dieses Problem mit einer Art dynamischem Lastverteilung. GPU-Ressourcen können immer noch zugewiesen werden - aber wenn der Treiber entscheidet, dass eine Sektion nicht voll genutzt wird, darf die andere übernehmen und fertig werden, so dass es keine negative Beeinträchtigung der Performance durch Verzögerungen gibt.

Nvidia hat außerdem die Preemption-Kompetenzen von Pascal verbessert – also seine Fähigkeit, eine Aufgabe zu unterbrechen, um eine andere, zeitkritische Aufgabe mit sehr niedriger Latenz anzugehen. Wir ihr wisst, sind GPUs hoch parallelisierte Gebilde mit großen Puffern, die diese gleichartigen, dicht an dicht sitzenden Ressourcen beschäftigt halten sollen. Ein Shader im Leerlauf nützt niemandem was – also packt man Arbeit in eine Warteschlange, um sie möglichst schnell durch die Grafik-Pipeline zu schicken. Aber nicht alles, was eine GPU so erledigt – vor allem heutzutage – ist so tolerant bezüglich Verzögerungen.

Ein perfektes Beispiel dafür ist das 'Asynchronous Timewarp'-Feature (ATW), das Oculus für den Launch seiner Rift aktiviert hat. Für den Fall, dass die Grafikkarte nicht alle 11 Millisekunden ein frisches Frame auf einem 90-Hz-Display ausgeben kann, generiert ATW unter Nutzung der aktuellsten Arbeit des Rendering-Threads ein Zwischenbild, das noch entsprechend der Kopfposition korrigiert wird. Allerdings muss dieses Feature genug Zeit haben, um eine Timewarp-Frame zu erzeugen – und leider ist die Grafikvorhersage nicht wirklich feinkörnig.

Die Fermi-, Kepler- und Maxwell-Architekturen unterstützen lediglich die Draw-Level-Preemption – sie können also nur bei Draw Calls schalten und halten so ATW potenziell auf. Preemption-Anfragen müssen daher konsequent sehr früh gestellt werden, um rechtzeitig Kontrolle über die GPU zu garantieren, damit noch vor dem Display-Refresh ein Timewarp-Frame ausgegeben werden kann. Das ist wiederum in sich die Quadratur des Kreises – denn ATW soll seine Arbeit ja so spät wie möglich tun; letztlich will man ja ein „echtes“ frisches Frame.

Pascal implementiert nun zusätzlich eine deutlich feinere Pixel-Level-Preemption für Grafik – GP104 kann jederzeit seine Arbeit auf dem Pixel-Level stoppen, den Status der Pipeline sichern und den Kontext wechseln. Anstelle der Vorhersage im Millisekundenbereich, über die Oculus schreibt, will Nvidia mit weniger als 100 Mikrosekunden arbeiten.

Die Maxwell-Architektur unterstützte bereits das Äquivalent von Pixel-Level-Preemption auf der Compute-Seite, indem Thread-Level-Granularität aktiviert wurde. Pascal hat diese Funktion natürlich ebenfalls an Bord, erweitert sie aber um Instruction-Level-Vorhersagen in CUDA-Compute-Aufgaben. Nvidias Treiber beinhalten diese Funktion derzeit zwar noch nicht, aber das Feature sollte zusammen mit der Pixel-Level-Vorhersage in Kürze über den Treiber vollumfänglich zugänglich sein.

Erstelle einen neuen Thread im Artikel-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
106 Kommentare
Im Forum kommentieren
    Dein Kommentar
  • moeppel
    Solide Leistung und gute Wahl für 2560*1440. Für 4K tauglich halte ich sie dann immer noch nicht, auch wenn die Richtung erkennbar ist.

    Bei dem Preispunkt vorerst allerdings äußerst uninteressant. Belibt noch abzuwarten, wie viel Luft nach oben ist bei den OC Modellen und wo diese sich preislich einrichten werden.

    Bei DX12 sieht es dann tatsächlich nach einem Nvidia Brute-Force Versuch aus, als tatsächlichen Architekturverbesserungen.

    800€ ist nicht wenig, noch viel weniger, wenn man weiß, dass der große Pascal noch gar nicht das Licht der Welt erblickt hat ;)
    0
  • FormatC
    UVP ;)
    0
  • ybox720
    SLI darf noch keiner machen?
    0
  • moeppel
    Zitat:
    UVP ;)


    Ich sehe das Problem darin, dass Boardhersteller den Founder-Märchenpreis als Grundlage nehmen können, da diese das Referenzdesign ohne Weiteres links liegen lassen dürften ;)

    Letztlich wäre ich nicht überrascht, wenn es sich hier nur um einen Money-Grab handelt, der in einigen Monaten belächelt wird (siehe Titan-Karten).

    Ich warte nun geduldig bis diese Performance in die gehobene Mittelklasse bzw. Oberklasse Einzug findet. Die 1070, so nehme ich an, wird sich irgendwo bei der 980Ti einordnen - oder drunter.

    In einigen Wochen sind wir schlauer. :D
    0
  • ybox720
    Ich finde übrigens den "Founder Preis" garnicht so Märchen... Momentan bekommt man gehörig mehrleistung gegenüber einer TI. Somit ist sie auch teurer. Wird sich sicher noch einpendeln. Fast Sync find ich auch interessant.
    0
  • Plitz
    Zitat:
    SLI darf noch keiner machen?

    SLI kann noch keiner machen, da jeder nur eine Karte bekommen hat ;)
    0
  • gst
    Exaktamundo. ;)
    0
  • amd64
    Wie gewohnt, super Artikel!

    "Wir sehen jedoch auch, dass noch eine weitere Phase auf der Verschaltung möglich gewesen wäre, der Platz für die Bauelemente jedoch frei gelassen wurde."

    Da werden sich die Board Partner sicherlich breit machen, oder? :D
    0
  • ybox720
    Zitat:
    Zitat:
    SLI darf noch keiner machen?

    SLI kann noch keiner machen, da jeder nur eine Karte bekommen hat ;)

    "Ja, hallo bin ich hier bei der Computerbase-Redaktion? Hier Tomshardware. Ihr habt doch auch so eine GTX 1080 bekommen. Könnten wir da nicht..." Ok, ich weiß, die Brücke fehlt.
    1
  • Plitz
    Nu kennt man die NDA Bestimmungen nicht. Vielleicht war es ja so geregelt, dass man die Karte an niemanden externen weitergeben darf, was ja auch gut nachvollziehbar ist.
    0
  • Anonymous
    Die Karte selbst leistet gute Arbeit.

    Sie verbraucht so viel wie ihr Vorgänger (GTX 980), leistet aber 60-70% mehr und schlägt damit die Referenz GTX 980 Ti um bis zu 30%. Die Dinger werden aber 700€ aufwärts kosten, an der Stelle kann man nur noch Linus Torvalds zitieren. Zum Vergleich: Die schon überteuerte GTX 980 wurde "nur" bei ~500€ angesiedelt. Man nutzt jeden Leistungsschub, um einfach das Preisniveau in die Höhe zu katapultieren.

    Das nur TSMC schuld daran sein soll, wage ich zu bezweifeln, schließlich ist die Ausbeute vom neuen Prozess gar nicht schlecht. Die Preise steigen und steigen und steigen...sagte ich schon, dass sie nur steigen?

    Man sollte nicht vergessen, dass der Vor-Vor-Vorgänger, die GTX 560 Ti - knapp 200€ zu Buche geschlagen hatte...
    0
  • moeppel
    Anonymous sagte:
    Die Karte selbst leistet gute Arbeit.

    Sie verbraucht so viel wie ihr Vorgänger (GTX 980), leistet aber 60-70% mehr und schlägt damit die Referenz GTX 980 Ti um bis zu 30%. Die Dinger werden aber 700€ aufwärts kosten, an der Stelle kann man nur noch Linus Torvalds zitieren. Zum Vergleich: Die schon überteuerte GTX 980 wurde "nur" bei ~500€ angesiedelt. Man nutzt jeden Leistungsschub, um einfach das Preisniveau in die Höhe zu katapultieren.

    Das nur TSMC schuld daran sein soll, wage ich zu bezweifeln, schließlich ist die Ausbeute vom neuen Prozess gar nicht schlecht. Die Preise steigen und steigen und steigen...sagte ich schon, dass sie nur steigen?

    Man sollte nicht vergessen, dass der Vor-Vor-Vorgänger, die GTX 560 Ti - knapp 200€ zu Buche geschlagen hatte...


    Das wahrlich Makabere daran ist aber noch, dass Leute es hinnehmen, da die Produkte in Relation zueinander positioniert werden, statt wie es eigentlich sein müsste, sein Portfolio rundum zu erneuern nach so einem Sprung. Der Node Shrink ist längst überfällig, man ist über 5 Jahre auf 28nm rumgeeiert. Alles was keine 1070/1080/Polaris ist, gehört zum Altmetall. Dinosaurier einer Ära, die längst hätte verschwinden müssen.

    Aus Optimierungssicht hatte es aber sicher Vorteile, so lange auf 28nm gefangen zu sein.

    Die 20-30% Mehrleistung ist das mindesten, was ich von einem fast 50% Shrink erwarten würde.

    Mich würde es nicht verwundern, wenn wir die 1080 binnen 12 Monaten in der Mittelklasse sehen, sobald sie den Fertigungsprozess unter Kontrolle habe und die Speichertechnologien und Engpässe verfügbar sind. Zumindest glaube ich nicht, dass die Hersteller es nicht könnten, wenn sie wollten.

    Ich befürchte, dass die 1070 u.U so kastriert wird, dass Leistung einer 980 in die gehobene Mittelklasse gedrückt wird. Aufgrund des einfachen GDDR5 Speicher mit Nvidias oftmal recht spärlich gewähltem (bzw. nicht skalierenden) Speicherbus bleibt sie vermutlich weiter unter ihrem (theoretischen) Potential. Lässt dann aber Raum, um ein 'Ti' dran zu hängen, sofern die Konkurenz was aus dem Hut zaubern sollte.

    Der Geduldige wird belohnt werden, hoffe ich :D
    0
  • Derfnam
    Sehr enttäuschend. Gut, dass ich sowas erst in wenigstens 5 Jahren brauchen werde, dann ist das die neue Fußhupe :D
    0
  • FormatC
    Schöne Fußhupe. Miep, miep... :)

    Ich habe in diesem Stil noch 'ne Fermi 480 OC mit Accelero, eine 580 Lightning, eine 680 Lightning, eine 780 GHz Edition, eine 980 Strix und dann eben auch die 1080 zum rumhupen.
    0
  • Derfnam
    Und die 5 Jahre alte 580 ist die (nicht mehr ganz so) neue 750 Ti und ich zahl nie mehr als 150.- für ne Karte. Paßt scho.
    0
  • Chemidemi
    Ich Tippe mal aufgrund des Aufbaues der GPU wird sich ein Vergleich in FHD wohl nicht lohnen oder? Wird sich wohl ähnlich wie bei den Fury-Karten Verhalten die erst ab WQHD ihre stärke ausspielen konnten.
    0
  • FormatC
    Falsch, die GTX 1080 rennt fast permanent ins CPU Limit. Ich habe sogar einen *piep*950X bis auf 4.*piep* GHz geprügelt und es hat noch fast linear mit dem CPU-Takt skaliert Für Full-HD reichen auch kleine Karten.
    0
  • Chemidemi
    Ah das erklärt die amüsanten Ergebnisse anderer Seiten und das Geheule der dortigen Leser. ^^
    Danke für die Antwort und sehr schicker Test.
    Ich Tippe mal die Preise werden sich wohl noch nach unten korrigieren so in den 600 € Bereich und dann mit der Ti unter 600 € in etwa? Oder ist dies eher unrealistisch?
    0
  • FormatC
    Wir haben 1080p bewusst weggelassen, weil der Skylake sogar mit OC nur noch limitiert.
    Jetzt muss erst mal Intel liefern, ich hätte gern 30% auf den aktuellen i7 6700K. :)


    Wo lag die 980 vor 2 Wochen und wo nach dem Launch? Diese Spanne sollte auch hier realistisch sein, falls AMD liefern kann. Wenn nicht, vergiss es.
    0
  • Chemidemi
    Ich würde sagen sie ist etwa 50-100 € gefallen, also wäre man im Bereich zwischen 650-750 €. Naja wenn man die Leistung und vorallem die neuen Funktionen mit einbezieht ist das durchaus gerechtfertigt. Dazu der neue Speicher, welcher erst kürzlich in die Maßen Produktion ging. Aber das vergessen leider sehr viele und sehen nur Balken in einem Diagramm wo die versprochene Leistungsverdoppelung nicht immer sichtbar ist. Diese liegt halt an anderer Stelle und die Entwicklung der ganzen Funktionen wird wohl auch ein Großteil der Entwicklungskosten ausgemacht haben schätze ich.
    0