AMDs HBM: Mehr Performance bei geringerer Energieaufnahme

AMD hat endlich den Vorhang über der neuen Speichertechnologie High Bandwidth Memory (HBM) gelüftet. Sie verspricht deutlich höhere Bandbreite bei niedrigerem Platzbedarf und geringerer Energieaufnahme.

Die Gerüchte um eine neue Speicherarchitektur in der kommenden Grafikkartengeneration von AMD brodeln schon eine ganze Weile. Es war von einem 3D-Ansatz im Speicherdesign die Rede - allerdings war nicht völlig klar, was genau das bedeutet. Wenigstens war dies bis jetzt der Fall.

AMD behauptet, Speicher herstellen zu wollen, der eine höhere Bandbreite als GDDR5 hat, deutlich energieeffizienter als alles bisher dagewesene sein soll und dabei auch noch weniger Platz als bisher brauchen soll.

Obwohl wir immer noch nicht wissen, wann mit HBM-Speicher bestückte Karten auf den Markt kommen werden und die Firma noch nicht sonderlich ins Detail geht, wissen wir dennoch, dass die erste Generation von High Bandwidth Memory (HBM) erstmalig in Grafikarten für Endanwender zum Einsatz kommen wird, bevor auch andere Geräten an die Reihe kommen. AMD sieht viele zukünftige Einsatzgebiete für HBM - angefangen bei rechenintensiven Aufgaben bis hin zu APUs.

AMD begann vor sieben Jahren mit diesem Projekt. Als die Ingenieure sich das erste Mal an das Projekt begaben und über potenzielle Probleme nachdachten, war es offensichtlich, dass die Bandbreite pro Watt schnell zum Problem werden könnte. Da der Bedarf an Bandbreite immer weiter steigt, war der traditionelle Ansatz, mehr auf einem Die unterzubringen. DRAM hat diesen Luxus nicht und doch steigt der Bandbreitenbedarf mit immer schnelleren CPUs und GPUs. Um mitzuhalten brauchte GDDR5 beispielsweise mehr Strom - und ab einem gewissen Punkt ist dies nicht mehr tragfähig.

HBM wurde entwickelt, um dieses Problem zu lösen. Um das Problem von allen Seiten aus anzugehen, entwickelte die Firma ein sogenanntes 3D-Design und stapelte vier Speicherchips auf einem einzigen logischen Die. Dieser logische Die wird dann auf einem Interposer aus Silizium untergebracht, der selbst keine aktiven Transistoren hat. GPU, CPU oder SoC sind ebenfalls direkt mit dem Interposer verbunden, der wiederum mit dem Substrat des Packages verbunden ist.

Weil dies ein völlig neuer Ansatz ist, wurden für die gestapelten Speicherchips gänzlich neue Verbindungen entwickelt, die "through-silicon vias" (TSVs) und "Ubumps" genannt wurden. Diese TSVs erlauben vertikale Verbindungen von einem Chip zum nächsten und dienen auch der Verbindung des SoC bzw. der GPU mit dem Interposer.

Auf diese Weise gestapelte Speicherchips benötigen deutlich weniger Platz. Während bei bisherigen Grafikkarten Speicherchips die GPU umzingelten, bräuchte eine HBM-Konfiguration gerade einmal vier Speicher-Chips, die zudem direkt in den Ecken angebracht wären. Bei diesem Ansatz müssen die Daten eine deutlich geringere Strecke zurücklegen, um den Prozessor zu erreichen. Allerdings sind es nicht nur weniger Chips - die HBM-Stapel haben auch deutlich weniger Oberfläche als GDDR5-Module. Ein einziger 1-GByte-Stapel hat eine Kantenlänge von nur 5 x 7 Millimetern, wohingegen die gleiche Menge GDDR5-Speicher eine Fläche von 28 x 24 Millimeter belegt.

High Bandwidth Memory stellt sozusagen die Uhr zurück. Seit Jahren musste für mehr Datendurchsatz die Taktrate hochgeschraubt werden. Die Breite des Busses von HBM verhindert diesen Bedarf. GDDR5 läuft auf einem 32-Bit-Bus mit bis zu 1750 MHz, was einen Datendurchsatz von sieben GByte/s ergibt. Die effektive Bandbreite kann 28 GByte/s pro Chip erreichen.

HBM hat eine Busbreite von 1024 Bit und eine deutlich geringere Taktrate von 500 MHz (1 GByte/s) - die Bandbreite erreicht Werte zwischen 100 und 125 GByte/s pro Stapel. Dabei erhöht sich die effektive Bandbreite von 10,66 GByte/s pro Watt auf über 35 GByte/s pro Watt.

Diese Zahlen stammen von der ersten Generation und AMD verspricht dramatische Leistungssteigerungen für die zweite Generation. Es wird erwartet, dass sich bis dahin die Geschwindigkeit verdoppeln und die Kapazität vervierfachen wird.

Eine Vervierfachung der Kapazität klingt erst einmal enorm. Allerdings liegt das Maximum der ersten Generation auch "nur" bei einem Gigabyte pro Stapel - und mehr als vier Stapel sind derzeit nicht möglich. Das bedeutet, dass die erste Generation an Grafikkarten einen maximal vier Gigabyte großen Frame Buffer haben kann. Das klingt nach einem potenziellen Problem, aber Joe Macri, AMDs Product CTO für HBM, zerstreut diese Bedenken. Er glaubt fest daran, dass dies kein Problem darstellt und von den Ingenieuren gelöst werden wird.

Wenn die Geschwindigkeit gesteigert werden sollte, gab es bisher keine andere Möglichkeit, als die Größe des Frame Buffers zu erhöhen. Bisher hatten an diesem Problem noch keine Ingenieure gearbeitet. Aber dank der Skalierbarkeit von HBM konnte AMD nun einige schlaue Köpfe daran setzen, den Umgang mit Speicher effizienter zu gestalten. Die Firma scheint jedenfalls zuversichtlich zu sein, dass die "nur" vier Gigabyte HBM mit den größeren Speichermengen mithalten können, die momentan beliebt sind.

Es ist aber nur eine Frage der Zeit, bis wir AMDs Behauptungen überprüfen können. AMDs neue GPUs werden kurzfristig erwartet und jetzt, da AMD den Mantel des Schweigens über dieser neuen Technologie gelüftet hat, dürfte der Erscheinungstermin nicht mehr fern sein. Und wenn AMDs Behauptungen einen wahren Kern haben, könnte die Performance von GPUs im kommenden Jahr deutlich steigen.

Erstelle einen neuen Thread im Artikel-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
10 Kommentare
Im Forum kommentieren
    Dein Kommentar
  • Derfnam
    Kann mir mal wer die Hochstapelei, die denn doch niedrigeren Platzbedarf hat, etwas plausibler erklären als mit Schaubildern, die das genaue Gegenteil vermitteln?
    0
  • Tesetilaro
    ganz einfach, aktuell werden verschiedene Chip-Schichten recht aufwendig gestapelt und "umständlich" miteinander verbunden...
    Das ist erstens fehleranfällig, zweitens raumfordernd, drittens nicht sonderlich effektiv... und viertens bei DRAM eher unüblich...

    gestapelt wird schon länger bei flash aber wire bonded - da kommt auch der ansatz der durchkontaktierung her - also löcher im chip vorzusehen um die einzelnen chips wie bei einer pcb durch zu kontaktieren... amd hat das wohl endlich für dram auf die reihe bekommen... ganz vereinfach kannst Du dir vorstellen - alte stapelmethode - reihenschaltung, also wird eine chipschicht nach der anderen angebunden... bei der neuen methode quasi parallel...
    bandbreite geht rauf = schick...

    sind wir wieder beim berühmten bahnhofsvergleich... mehr schienen, heißt mehr züge pro zeit werden abgefertigt ;)
    0
  • Derfnam
    Jaja, Bahnhof verstehen, got it, aber das beantwortet meine Frage nicht.
    Meine Deutung ist ja ganz einfach: der niedrigere Platzbedarf ist ein deutlich kleinerer/enorm geschrumpfter, hat also mit niedrig gar nix zu tun und der Autor hat sprachlich ins Badezimmerporzellan gegriffen.
    0
  • suckerchen
    1GB GDDR5 braucht 28mm x 24mm = 672 mm2 Fläche, wohingegen 1GB HBM 5mm x 7 mm = 35 mm2 benötigt, also bloss 5% von GDDR5. Siehe auch 4. Bild, dort ist es anschaulich illustriert. Das sieht man ja auch auf den Bildern von Graka Reviews wenn der Lüfter abmontiert wird. Dort sind dann die Speicherchips rund um die GPU verteilt, mit HBM wird der Platzbedarf auf dem PCB massiv niedriger, ergo auch die Grösse des PCB.
    0
  • Tesetilaro
    jetzt weiß ich was du meinst - ja die HMB stpal sind mitnichten niedriger... und der Platzbedarf ist geringer - nicht niedriger - und ja das war der griff in die porzellanabteilung...

    grundsätzlich ist die idee aber bestechend einfach und elegant mit dem interposer... und ein stacking für DRAM chips war längst überfällig - vor DDR3L aufgrund des stromhungers nicht darstellbar ;) offensichtlich eins der probleme, das AMD in de Griff bekommen hat - mit Hilfe der chip lieferanten für die rams...
    0
  • derGhostrider
    Kann mir mal jemand mit einer einfachen mathematischen Aufgabe weiterhelfen:

    Die Oberfläche wird auf 5% reduziert, bei gleicher Bandbreite wird der Stromverbrauch allerdings nur grob auf 30% reduziert. (10,66 GB/s / 1 W -> 35 GB/s / 1 W => 3,28 W / 35 GB/s vs 1 W / 35 GB/s.)
    Das heißt für mich, grob überschlagen, dass pro Fläche die 6-fache Wäremenge abgeführt werden müsste. (Stromverbrauch = Abwärme. 0,3 / 0,05 = 6)

    Da jedoch nicht nur die gleiche Bandbreite erreicht werden soll, sondern eben mehr, steigt die Abwärme (pro Fläche) bei extrem kleiner Fläche noch stärker an.

    Und das soll funktionieren? Wie kühlt man die Stapel denn angemessen?
    0
  • Tesetilaro
    in dem man die stapel in die normale aktivkühlung sauber mit einbindet... wenn die clever waren - was ich grad nicht nachgelesen habe - basiert das ganze auf lddr3 oder ddr4 und ist in rchtung verlustleistung optimiert - meint weniger abwärme im vergleich zu aufgenommenen leistung ;)
    0
  • derGhostrider
    Bei aktuellen Grakas werden die RAMs doch auch schon i.d.R. mitgekühlt.
    Optimierung hin oder her: Der Faktor 6 ist bereits unter Berücksichtigung der Optimierung berechnet. Ansonsten wäre es ein Faktor 20!
    Die Leistungsdichte ist extrem. Ich frage mich weiterhin, ob das so gut zu kühlen ist. Vor allem, wenn man bedenkt, dass unmittelbar daneben eine GPU sitzt, die ebenfalls locker 100 W in Wärme umwandelt.
    0
  • Tesetilaro
    ja, aber durch kontakt zu nem angeposteten alu kühlkörper, bestefalls mit nem windigen wärmeleitpad... ich meine ordentliche anbindung an den teil mit den heatpipes ;)

    aber die werden das mit sicherheit bedacht haben - da mache ich mir keinen kopp...
    0
  • 7664stefan
    Kühlung (stelle ich mir auch schwierig vor) und Performance...bald wissen wir's ja. :)
    0