AMD Radeon Vega Frontier Edition im Test: Wandern zwischen den Welten

Details zu Architektur und HBM2-Speicher

Mit Vega bietet AMD nun eine neue GPU-Generation an, in die über 200 Änderungen und Verbesserungen bei der Umgestaltung der Architektur geflossen sein sollen. Auch wenn es am Ende wohl eher auf eine Art neue GCN-Generation hinausläuft: AMD betont, dass es sich um eine komplett neu geschaffene Lösung handelt.

HBM2 als skalierbare Speicherarchitektur

Als ersten Anhaltspunkt für Vegas Architekturänderung führt man seitens AMD den Speicher und die gesamte, dazugehörige Infrastruktur ins Feld. Grund genug für diesen Fokus ist der stetig wachsende Speicherbedarf. Sowohl AMD und Nvidia arbeiten beide separat an Möglichkeiten, um den Host-Prozessor-Overhead reduzieren, sowie den Durchsatz zu maximieren und auf diese Weise Engpässe beim Zugriff auf die GPU zu minimieren – insbesondere diejenigen, die angesichts der umfangreichen Datenmengen immer wieder auftreten können.

Es kommt somit darauf an, noch mehr Speicherkapazitäten noch näher an die GPU zu bringen und dabei die Kosten nicht explodieren zu lassen. Wie es scheint, hat AMD Vega mit einer deutlich flexibleren Speicherhierarchie einen großen Schritt näher an dieses wichtige Ziel gebracht. Mit HBM2 nutzt Vega dfür eine interessante, neue Komponente und man nennt diese Ansammlung von On-Package-Speicher, den man früher ziemlich unspektakulär auch schon als Frame-Buffer bezeichnete, nunmehr glanzvoll "High Bandwidth Cache".

Bereits bei HBM (und Fiji) hatte AMD die Vision, den leistungsfähigsten Speicher so nah wie nur möglich an die GPU zu bringen. Das schließt auch den Arbeits- und Datenspeicher des gesamten Systems ein. Und auch wenn dies deutlich langsamere Technologien in diese Infrastruktur miteinschließt, sollte man HBM2 als konsequente Fortschreibung des eingeschlagenen Weges sehen. Denn eine bis zu achtfache Erhöhung der Kapazität eines jeden Stapels im direkten Vergleich zur ersten Generation ist durchaus ein beachtlicher Fortschritt, zumal auch die Verdopplung der Bandbreite pro Pin den maximal möglichen Durchsatz des Ganzen deutlich vergrößern hilft.

Das könnte die größten Auswirkungen auf die Gaming-Performance haben, sofern es sich auf das eigentliche Speichersubsystem bezieht. AMD gibt zudem dem neuen "High Bandwidth Cache"-Controller (HBCC), der mehr als der bisherige Speicher-Controller leisten muss, immerhin virtuell adressierbare 512 Terabyte für extrem große Datenmengen mit auf den Weg. Nur nutzen muss man es dann natürlich auch. Vega ist Dank HBCC jedoch in der Lage, mittels verschiedener programmierbarer Techniken Speicherseiten noch feiner abgestuft zu bewegen. So kann eine erhaltene Datenanforderung über den DMA-Transfer asynchron realisiert werden, während die GPU bereits zu einem anderen Thread gewechselt ist, um dort unterbrechungsfrei weiterarbeiten zu können.

Damit erhält der Controller die Daten faktisch "on-demand", er kann sie aber auch vorausschauend zurückliefern. Dazu kommt, dass im HBM abgelegte Informationen im Systemspeicher wie ein zusätzlicher Cache einfach repliziert werden können oder aber der HBCC - was noch deutlich wichtiger scheint - mit einer einzigen Instanz auskommt, um Platz sparen und den Overhead reduzieren zu können.

Neue programmierbare Geometrie-Pipeline

Erinnern wir uns kurz zurück: Die erste Hawaii-GPU auf der Radeon R9 290 X brachte seinerzeit einige durchaus bemerkenswerten Verbesserungen im Vergleich zur Tahiti-GPU auf der Radeon HD 7970 mit. Eine davon betraf ein verbessertes Frontend mit nunmehr vier statt zwei Geometrie-Einheiten, von denen jede einzelne wiederum jeweils einen Geometry-Assembler, einen Vertex-Assembler und eine Tessellation-Einheit besaß. 

Die darauffolgende Fiji-GPU als Radeon R9 Fury X setzte dann zwar erneut auf diese bereits von Hawaii bekannte Konfiguration, brachte aber dafür einige andere Neuerungen - beispielsweise eine deutlich gesteigerte Tessellation-Performance - mit. Aktuell nutzt die Ellesmere-GPU (Radeon RX 480) eine neue Handvoll Techniken, um aus der gleichen Konstellation mit den vier Geometrieeinheiten durch diverse Filteralgorithmen bzw. das Verwerfen unnötiger Polygone einen Leistungsvorteil herauszuarbeiten.

AMD versprach uns bereits letztes Jahr, dass Vega nunmehr in der Lage sein soll, in der Spitze immerhin bis 11 statt der maximal vier Polygone per Taktzyklus abarbeiten zu können, was dem bis zu 2,75-fachen entspricht. Dies ist die Folge dessen, was AMD als "New Primitive Shader Stage" in die Geometrie-Pipeline eingefügt hat. Anstelle der in der Hardware fest verankerten, dadurch jedoch unflexiblen Funktionen nutzt man jetzt ein flexibel ausgelegtes Shader-Array für die Verarbeitung der anfallenden Polygone.

Vergleichen kann man dies am ehesten mit der Funktionalität eines Compute-Shaders für die Verarbeitung der Geometrieaufgaben - leicht und programmierbar sowie mit der Fähigkeit ausgestattet, nicht benötigte Polygone mit einer hohen Rate auch verwerfen zu können. Natürlich enthält diese Shader-Funktionalität auch vieles von dem, was auch DirectX mit seinen Vertex-, Hüllkurven-, Domain- und Geometrie-Shader-Stufen anbietet, aber man möchte flexibler sein, in welcher Reihenfolge und Priorität die eigentliche Abarbeitung erfolgt.

Das Frontend profitiert auch von einem verbesserten "Workgroup Distributor", dem es gelingen soll, das Load-Balancing rund um die nunmehr programmierbare Hardware möglichst optimal zu gewährleiten.

Die Vega-NCU (Next-Generation Compute Unit)

Mit seinen mittlerweile umfangreich am Markt vertretenen Pascal-basierten GPUs bedient Nvidia derzeit jedes Segment. Der größte und teuerste GP100-Prozessor bietet eine FP32-Spitzenleistung von bis zu 10,6 TFLOPS (bei maximalem Boost-Takt). Ein 1:2-Verhältnis der FP64-Kerne ergibt somit eine Spitzenleistung bei doppelter Genauigkeit von bis zu 5,3 TFLOPS. Die Unterstützung von FP16 (Half-Precision) beim Berechnen und Speichern ermöglicht dann bis zu 21,2 TFLOPS.

Die für den normalen Heimanwendermarkt konzipierten GP102- und GP104-GPUs bieten zwar immer noch die für Ihre Shader-Anzahl äquivalente FP32-Performance, aber sowohl die FP64- als auch die FP16-Performance werden künstlich beschnitten, sodass diese deutlich günstigeren Karten nicht sonderlich gut für bestimmte wissenschaftliche Berechnungen geeignet sind.

Im Gegensatz dazu ist AMD mit Vega und insbesondere der Frontier Edition bestrebt, auch außerhalb der vorgestellten MI-Karten die volle Rechenleistung an den Endkunden weiterzugeben und somit gegenüber den Mitbewerberkarten einen gewissen Mehrwert für normale Endanwender zu schaffen. Zumindest als Marketing-Ansatz ergibt dies sogar einen Sinn, denn man ist sich sicher, damit eine komplett neue Zielgruppe zu erreichen.

Der CU-Block mit seinen 64 zu IEEE 754-2008 kompatiblen Shadern bleibt als solcher bestehen - nur, dass AMD ihn jetzt NCU (Next-Generation Compute Unit) nennt, der auch die Unterstützung für neue Datentypen beinhaltet. Logischerweise ergeben dann diese 64 Shader samt Ihrer Maximalleistung von zwei Gleitkomma-Operationen pro Zyklus ein Maximum von 128 32-Bit-Operationen pro Takt.

Nutzt man mit F16 gepackte Berechnungen, ergeben sich daraus bereits bis zu 256 16-Bit-Operationen pro Takt.  AMD schlussfolgert daraus, dass es unter optimalen Voraussetzungen sogar bis zu 512 8-Bit-Operationen pro Taktzyklus sein könnten. Auch bei FP64 (Double Precision) scheint AMD kein Problem zu haben, die volle, unbeschnittene Leistung auf die Allgemeinheit loszulassen.

Der Anstoß für diese Flexibilität dürfte wohl aus der Konsolenwelt gekommen sein. Immerhin wissen wir ja, dass Sonys PlayStation 4 Pro bis zu 8,4 TFLOPS bei der FP16-Performance erreichen kann, also das Zweifache ihrer Leistung bei 32-Bit-Operationen. Oder vielleicht sind auch AMDs Bestrebungen, im Bereich des Machine Learning und Training mit Produkten wie der MI25 Fuß zu fassen, der eigentliche Auslöser.

Unter Umständen ist es am Ende sogar beides, um auch in Bereichen außerhalb von Nvidias aktueller Marktpräsenz zu wildern. In beiden Fällen können neue Konsolen, ganze Rechenzentren und natürlich auch PC-Gamer sowie semi-professionelle Anwender im gleichen Maße profitieren. Neben dem Umstand, dass die NCUs auch für höhere Taktraten optimiert worden sind, setzt gleichzeitig auch auf größere Anweisungspuffer (Instruction Buffer), um die Recheneinheiten über die gesamte Zeit möglichst gut auslasten zu können.

Next-Generation Pixel Engine und Warten auf ein Wunder

Kommen wir nun zu dem, was AMD als "Draw Stream Binning Rasterizer" bezeichnet und das als Ergänzung des traditionellen ROP in der Lage sein soll, die Performance zu steigern, sowie trotzdem gleichzeitig auch noch Energie zu sparen.

Allerdings steht an dieser Stelle auch noch das größte Fragezeichen im Raum, denn in bereits erfolgten Benchmarks zu diesen Karten, konnten die Kollegen der verschiedensten Publikationen noch keine wirklich bahnbrechenden Verbesserungen feststellen. Deshalb vermutet man, dass diese Funktionalität später erst per Treiber verfügbar gemacht werden könnte und man die Vega Frontier Edition derzeit quasi im "Kompatibilitäts-Modus" betreibt.

BIOS, Update, Treiber oder doch nichts - alles ist möglich und wir können uns an dieser Stelle aus genau diesem Grund fairerweise auch noch kein Urteil bilden bzw. erlauben. Doch zurück zum Thema.

So soll es ein spezieller Cache auf dem Chip ermöglichen, dass der Rasterizer die Daten für sich überschneidende Polygone nur einmal bearbeiten muss und all jene Pixel weglässt, die in der fertigen Szene sowieso nicht sichtbar wären.

Der zweite Punkt ist der, dass AMD seine Cache-Hierarchie generell und grundlegend so geändert hat, dass die Back-Ends für das Rendering nun direkt am L2-Cache angebunden sind.

In den Architekturen vor Vega besaß AMD weder für nicht-kohärente Pixel noch die Texturen einen passenden Speicherzugriff, der es den einzelnen Pipelinestufen ermöglicht hätte, diese über einen gemeinsam genutzten Punkt zu synchronisieren. So wurde beispielsweise eine Textur, die als Resultat einer Szene für die spätere Verwendung gerendert wurde, wieder den ganzen Weg zurück bis hin zum Grafikspeicher außerhalb des Grafikchips geschickt, bevor sie dann erneut aufgerufen werden konnte. Dies alles umgeht AMD nun mit dem kohärenten Zugriff, welcher - so sagt es jedenfalls AMD - immer dann eine enorme Performance-Steigerung bieten soll, wenn beispielsweise Deffered Shading zum Einsatz kommt.

Erstelle einen neuen Thread im Artikel-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
20 Kommentare
Im Forum kommentieren
    Dein Kommentar
  • ampre
    Interessant in 3d CAD ist man auf P6000 Niveau aber bei Games verliert man. Wie kann das sein?
  • foldinghomalone
    Wurde doch mehrfach erwähnt. (Noch) schlechte / nicht optimierte Treiber fürs Gaming.
  • Lumpus_Aldente
    Zum Thema Mining wäre ein kleiner Testrun interessant wieviel MH/S möglich
  • FormatC
    Nun ja, komplett falsche Zielgruppe. Und: Mining ist mausetot.
  • kleinstblauwal
    Der geneigte Suchmaschinennutzer wird bestimmt eine Angabe zu den MH/s bei anderen Quellen finden. Gut, dass hier keine Werbung für gemacht wird. Ohne, dass ich den Wert jetzt kenne, in Relation zum Kaufpreis ist er aber viel zu gering, hoffentlich ist es bei den Radeon RX Vega auch so, aufgrund der Verwendung des HBM2 sind die verfügbaren Stückzahlen wahrscheinlich eh nicht so groß, auch ohne dass Miner den Mark leer kaufen.
  • amd64
    Ziemlich ernüchternde Ergebnisse, aber es hatte sich ja bereits angekündigt.
    Ich bin vor allem auf den Preis gespannt, den AMD für die teuerere HBM Lösung mit annähernd GTX1080 Leistung aufruft (Vega RX).
  • foldinghomalone
    Naja, wieso Mining mausetot sein soll, würde ich schon gern wissen...
  • MyRunner
    Anonymous sagte:
    Naja, wieso Mining mausetot sein soll, würde ich schon gern wissen...


    Wahrscheinlich, weil die Kurse eingebrochen sind und es sich fuer den Normalo-Miner kaum noch lohnt, zwischen Aufwand und Gewinn.

    https://www.heise.de/newsticker/meldung/Innerhalb-von-vier-Wochen-Ethereum-Kurs-bricht-um-50-Prozent-ein-3769015.html
  • foldinghomalone
    Und heute steigen sie wieder und morgen fallen sie wieder.
    Die Normalos sind sowieso nur die geringste Anzahl an Minern.
    Und die Miningfarmen werden sicherlich nicht so schnell aufhören zu minen, solange die Difficulty nicht zu hoch ist (und dann wird auf andere Coins gewechselt). Die minen sowieso auch wenn der Kurs niedrig ist und hoffen auf eine Preisexplosion.

    Und auch für Häuslebesitzer mit ausreichend dimensionierte PV-Anlage dürfte minen tagsüber wg. fehlenden/geringen Stromkosten immer noch lukrativ sein.
  • msroadkill612
    This review opens my eyes.

    All the press have to say is what a failure FE is. Keeping debate games centric is convenient for Nvidea PR.

    As the author says, a work gpu that is also an OK gamer after work, is indeed very appealing, just as ryzen cpu is to gamers who work with PCs.

    1500usd vs 5000usd for 90% of the workstation performance, on the FE beta version of a new generation gpu architecture, which promises to improve greatly.

    FE sure looks temptingly cost effective. It sure beats $5k for a work gpu & $1k for a gaming gpu from nvidia.
  • msroadkill612
    Excuse me if i missed reference to it in the story, but in a workstation context, i would think vegaS feature of 256GB+ of gpu memory/cache/workspace, has important possibilities (and caveats), in many niches?

    I refer to the raid0 nvme ssd ports on the vegaS Infinity Fabric. I would guess it now provides about 6GBps of sequential bandwidth. Slow by comparison with dram, but its undreamt of storage speeds until recently.

    Combined with AMDs excellent "memory extender toolkit" (HBCC, fabric,predictive fetch algoriths based on usage patterns), it can provide a better way than paging job segments in and out of restricted memory workspace.
  • Plitz
    Diese Kryptowährungen haben ja noch mehr an sich, als nur den reinen Kurs. Je mehr von ihnen berechnet wurden, umso schwieriger und langwieriger wird es einen Weiteren zu errechnen. Es ist also nicht nur der Gegenwert an sich der stetig fällt, sondern du musst immer mehr Aufwand betreiben um diese Währung überhaupt erst zu bekommen. Für den Besitzer fallen sie nur durch den Kurs, aber für den Hersteller fallen sie durch Kurs und Aufwand einfach doppelt.
  • FormatC
    Schneeballsystem und reine Spekulationsgewinne. Selbst zu Minen ist sinnlos, das Kaufen und Verkaufen ist mit etwas Glück deutlich gewinnbringender, wenn man es wie eine Aktienspekulation betrachtet.
  • amd64
    Ist auch wurscht, da der Ethereum Hype eh vorerst vorüber ist und die Vega FE P/L technisch beim minern ziemlich schlecht abschnitten.

    Viel wichtiger ist die Frage: "Kommt der Wundertreiber mit der Vega RX?" :D
  • FormatC
    Hmmm. Ich darf ja nix spoilern. Warte halt mal noch ein paar Tage...

    Warum muss ich bei Wunder-Treibern immer an Wunderwaffen denken? :D
  • Gammablitz
    Mit steigender Komplexität, sprich geringerer Ausbeute, müsste rein theoretisch allerdings auch wieder der Kurs steigen, da das geringere Angebot zu einem höheren Wert führt. Am Anfang sind die Kursschwankungen aber voraussehbar sehr stark.
    Wie FormatC schon sagte, das ist alles Spekulation, die wissen doch selbst nicht, was diese Cryptowährungen wert sind, also wetten sie am Ende einfach. Das Zeug ist so viel wert, wie die Leute denken, dass es wert ist.

    Ich persönlich frage mich allerdings doch, was eigentlich den Wert dieser Währungen ausmacht. Sie müssen ja für irgendwas verwendet werden können und der einzige Bereich in dem es Sinn macht sie einzusetzen sind dann eher kriminelle Machenschaften, wenn es um Anonymität geht ;D
  • foldinghomalone
    Anonymous sagte:
    ...Sie müssen ja für irgendwas verwendet werden können und der einzige Bereich in dem es Sinn macht sie einzusetzen sind dann eher kriminelle Machenschaften, wenn es um Anonymität geht ;D

    Genau. Aus diesem Grund gleich noch Bargeld verbieten, weil dadurch die meisten kriminellen Machenschaften vertuscht werden.
  • Gammablitz
    Anonymous sagte:
    Genau. Aus diesem Grund gleich noch Bargeld verbieten, weil dadurch die meisten kriminellen Machenschaften vertuscht werden.

    Sicher und jedem noch zwangsweise einen RFID-Chip einsetzen, damit auch ja nichts schiefgehen kann.
  • Plitz
    Anonymous sagte:
    Mit steigender Komplexität, sprich geringerer Ausbeute, müsste rein theoretisch allerdings auch wieder der Kurs steigen, da das geringere Angebot zu einem höheren Wert führt. Am Anfang sind die Kursschwankungen aber voraussehbar sehr stark.
    Wie FormatC schon sagte, das ist alles Spekulation, die wissen doch selbst nicht, was diese Cryptowährungen wert sind, also wetten sie am Ende einfach. Das Zeug ist so viel wert, wie die Leute denken, dass es wert ist.


    Das Problem ist, dass das Angebot ja nicht geringer wird. Es werden immer mehr Bitcoins, sie gehen ja nicht verloren oder verschwinden (außer man verliert seine "Wallet"). Wir bekommen also immer mehr Bitcoins, während die Nachfrage nicht wirklich steigt.
  • Gammablitz
    Anonymous sagte:
    Das Problem ist, dass das Angebot ja nicht geringer wird. Es werden immer mehr Bitcoins, sie gehen ja nicht verloren oder verschwinden (außer man verliert seine "Wallet"). Wir bekommen also immer mehr Bitcoins, während die Nachfrage nicht wirklich steigt.

    Der Anstieg des Angebots wird geringer. Bei gleichbleibender Nachfrage steigt also der Wert pro Token, sprich der Kurs.
    Mit steigendem Kurs steigt erst mal die Nachfrage. Sobald die Leute dann ihren Profit mitnehmen und verkaufen wollen, sinkt er wieder, was dann wieder zu einer steigenden Nachfrage führt, usw.

    Wobei das eh alles nur schnöde Theorie ist, am Ende ist es eben wie FormatC schon meinte ein Schneeballsystem.
    Es wird einfach nur gewettet.