Anmelden mit
Registrieren | Anmelden

Der CPU-Teil: Die neuen Piledriver-Kerne

Testbericht AMD A10-4600M: Trinity gibt sein Debüt, mobil
Von , Don Woligroski

Eine APU ist die Verschmelzung von x86-Kernen und einer Grafikeinheit. Beginnen wir unsere Betrachtung mit einem Blick auf den Teil des Trinity-Dies, der traditionell CPU genannt wird.

Als Llano vergangenes Jahr vorgestellt wurde, war allen Beteiligten klar, dass die altgediente Stars-Architektur damit ihren letzten Auftritt absolvieren würde. AMDs weitere Zukunftspläne stützten sich komplett auf Bulldozer, einer Architektur die erst im Oktober letzten Jahres im Desktop-Bereich erscheinen sollte.

Bei Trinity haben wir es mit der umgekehrten Situation zu tun, denn dieses Mal stellt AMD seine neueste Prozessorarchitektur in einer APU vor – und dazu noch in deren Mobilvariante. Piledriver, wie dieser überarbeitete Kern heißt, ist eine Weiterentwicklung des grundlegenden Bulldozer-Designs, das erst im Laufe des Jahres als Desktop-Version erscheinen wird.

Doch wo liegen nun die Hauptunterschiede zwischen den Husky-Cores der Llano-Architektur und den Trinity-Modulen auf Piledriver-Basis? Das liefert uns bereits das erste Stichwort, denn wo der Llano-Quad-Core vier einzelne Prozessorkerne nach klassischer Bauart einsetzt, enthalten die Trinity-Chips zwei Bulldozer-Module. Jedes Modul umfasst seinerseits zwei Integer-Kerne. Diese teilen sich allerdings viele der Ressourcen, die in traditionellen Mehrkern-Implementierungen pro Kern je einmal vorhanden sind. Dazu gehören die Fetch- und Decode-Abschnitte der Pipeline sowie die FPU-Einheiten und der L2-Cache. Mehr Details zu AMDs Bulldozer-Architektur kann man im Launchartikel AMD FX-8150 im Test: Der Bulldozer rückt an nachlesen.

Der offensichtlichste Unterschied zwischen AMDs Desktop-Prozessoren der FX-Familie und dem CPU-Teil von Trinity findet sich beim Cache. Während auch die beiden Module der Trinity-APU je 2 MB L2-Cache mitbringen, fehlt der gemeinsame 8 MB große L3-Cache. Damit haben wir die gleiche Konfiguration wie bei Llano: 4 MB L2-Cache und kein L3-Cache.

AMDs Ingenieure betonten, dass eines der vorrangigen Design-Ziele bei Piledriver eine gegenüber Bulldozer verbesserte Pro-MHz-Leistung (IPC) war. Das hatte man uns schon beim ersten Briefing zu Bulldozer gesagt; insofern war das keine Überraschung. Beim FX konnten wir beobachten, dass diese neue Architektur sich in der Pro-Takt-Leistung gegenüber ihrer Vorgängerarchitektur deutlich verschlechtert hatte – ein wunder Punkt, an dem dringende Nacharbeiten nötig waren. Anstatt aber nach einer großen Rundumschlag-Lösung zu suchen, verfolgten AMDs Ingenieure mehrere Ansätze, die zusammen eine Verbesserung bei der IPC-Performance ergeben.

Folgende Verbesserungen sind in die Piledriver-Kerne eingeflossen:

Die Sprungvorhersage ist umfangreich überarbeitet worden und in zwei Ebenen aufgeteilt. Wenn das Ziel höchste Performance lautet, ist es unabdingbar, die Instruktions-Pipeline so gut wie möglich auszulasten. AMD nannte keine weiteren Details, machte aber sehr deutlich, dass die Sprungvorhersageeinheit eine sehr wichtige Rolle spielt.

Zusätzlich vergrößerten die Ingenieure das Befehlsfenster um zu erlauben, dass größeren Gruppen von Befehlen gleichzeitig abgearbeitet werden können. Das verbessert die Performance und hilft gleichzeitig, Programmcode auf Betriebssystemebene effizienter zu verarbeiten. Außerdem hat der Piledriver-Kern neue Befehle gelernt. Dazu gehören Fused Multiply-Add (FMA3) und Floating Point 16-Bit Convert (F16C). Die Bulldozer-Architektur kannte schon in ihrer ersten Ausgabe FMA4, und mit FMA3 kommt nun eine Fähigkeit hinzu, die Intel in seiner nächsten Prozessorgeneration einführen wird. Laut AMD erhöht der neue Befehl die Ausführungsgeschwindigkeit von Befehlen, was zu schnelleren Ergebnissen bei Fließkomma- und Ganzzahldivisionen führt. Auch Calls und Returns werden beschleunigt, was besonders wichtig ist, um Subroutinen schnell aufzurufen und wieder zu verlassen. Auch die Page Translation wurde überarbeitet und optimiert.

Der Speicher ist ein weiteres wichtiges Subsystem, das sich stark auf die Performance auswirken kann, und bei Bulldozer zeigte sich schnell, dass die Zugriffszeiten einen weiteren Schwachpunkt darstellten. Laut AMD hat man bei Trinity viel Zeit darin investiert, den L2-Cache und den Prefetcher zu überarbeiten, was bei Speicherzugriffen zu geringeren Zugriffszeiten führen soll. Die Flussvorhersage (Stream Prediction) soll gegenüber der letzten APU-Generation ebenfalls weitreichende Verbesserungen erfahren haben.

Auch die Load/Store-Einheit wurde als Ansatzpunkt für die Verkürzung von Zugriffszeiten ausgemacht, und so wurde store-to-load reordering durch nachfolgende Lesezugriffe verbessert, was Compileranfragen besser vorhersagen und damit die Ladezeiten verringern kann. Der Translation Lookaside Buffer (TLB) für den L1-Cache fällt mit 64 Einträgen doppelt so groß aus um eine Erhöhung von Latenzzeiten auszuschließen, denn ein größerer TLB erlaubt eine effizientere Struktur. Zu guter Letzt sind sowohl die Ganzzahl- als auch Fließkomma-Scheduler verbessert worden, um alle verfügbaren Hardware-Einheiten der Piledriver-Architektur besser zu nutzen.

Zusammen mit der höheren Taktrate, auf die wir gleich noch zu sprechen kommen, soll der A10-5800K auf Trinity-Basis 26 Prozent schneller als sein Llano-Vorgänger A8-3850 auf dem Desktop sein, während die Notebook-Variante A10-4600M seinem Vorgänger A8-3500M sogar 29 Prozent voraus sein soll.

Das wäre in der Tat ein ziemlicher Fortschritt, und wir werden diese Zahlen beim Testen im Hinterkopf behalten. Vorher werfen wir noch einen Blick auf den Grafikteil von Trinity

Ihre Reaktion auf diesen Artikel