Anmelden mit
Registrieren | Anmelden

Der CPU-Teil: Die neuen Piledriver-Kerne

Testbericht AMD A10-4600M: Trinity gibt sein Debüt, mobil
Von , Don Woligroski

Eine APU ist die Verschmelzung von x86-Kernen und einer Grafikeinheit. Beginnen wir unsere Betrachtung mit einem Blick auf den Teil des Trinity-Dies, der traditionell CPU genannt wird.

Als Llano vergangenes Jahr vorgestellt wurde, war allen Beteiligten klar, dass die altgediente Stars-Architektur damit ihren letzten Auftritt absolvieren würde. AMDs weitere Zukunftspläne stützten sich komplett auf Bulldozer, einer Architektur die erst im Oktober letzten Jahres im Desktop-Bereich erscheinen sollte.

Bei Trinity haben wir es mit der umgekehrten Situation zu tun, denn dieses Mal stellt AMD seine neueste Prozessorarchitektur in einer APU vor – und dazu noch in deren Mobilvariante. Piledriver, wie dieser überarbeitete Kern heißt, ist eine Weiterentwicklung des grundlegenden Bulldozer-Designs, das erst im Laufe des Jahres als Desktop-Version erscheinen wird.

Doch wo liegen nun die Hauptunterschiede zwischen den Husky-Cores der Llano-Architektur und den Trinity-Modulen auf Piledriver-Basis? Das liefert uns bereits das erste Stichwort, denn wo der Llano-Quad-Core vier einzelne Prozessorkerne nach klassischer Bauart einsetzt, enthalten die Trinity-Chips zwei Bulldozer-Module. Jedes Modul umfasst seinerseits zwei Integer-Kerne. Diese teilen sich allerdings viele der Ressourcen, die in traditionellen Mehrkern-Implementierungen pro Kern je einmal vorhanden sind. Dazu gehören die Fetch- und Decode-Abschnitte der Pipeline sowie die FPU-Einheiten und der L2-Cache. Mehr Details zu AMDs Bulldozer-Architektur kann man im Launchartikel AMD FX-8150 im Test: Der Bulldozer rückt an nachlesen.

Der offensichtlichste Unterschied zwischen AMDs Desktop-Prozessoren der FX-Familie und dem CPU-Teil von Trinity findet sich beim Cache. Während auch die beiden Module der Trinity-APU je 2 MB L2-Cache mitbringen, fehlt der gemeinsame 8 MB große L3-Cache. Damit haben wir die gleiche Konfiguration wie bei Llano: 4 MB L2-Cache und kein L3-Cache.

AMDs Ingenieure betonten, dass eines der vorrangigen Design-Ziele bei Piledriver eine gegenüber Bulldozer verbesserte Pro-MHz-Leistung (IPC) war. Das hatte man uns schon beim ersten Briefing zu Bulldozer gesagt; insofern war das keine Überraschung. Beim FX konnten wir beobachten, dass diese neue Architektur sich in der Pro-Takt-Leistung gegenüber ihrer Vorgängerarchitektur deutlich verschlechtert hatte – ein wunder Punkt, an dem dringende Nacharbeiten nötig waren. Anstatt aber nach einer großen Rundumschlag-Lösung zu suchen, verfolgten AMDs Ingenieure mehrere Ansätze, die zusammen eine Verbesserung bei der IPC-Performance ergeben.

Folgende Verbesserungen sind in die Piledriver-Kerne eingeflossen:

Die Sprungvorhersage ist umfangreich überarbeitet worden und in zwei Ebenen aufgeteilt. Wenn das Ziel höchste Performance lautet, ist es unabdingbar, die Instruktions-Pipeline so gut wie möglich auszulasten. AMD nannte keine weiteren Details, machte aber sehr deutlich, dass die Sprungvorhersageeinheit eine sehr wichtige Rolle spielt.

Zusätzlich vergrößerten die Ingenieure das Befehlsfenster um zu erlauben, dass größeren Gruppen von Befehlen gleichzeitig abgearbeitet werden können. Das verbessert die Performance und hilft gleichzeitig, Programmcode auf Betriebssystemebene effizienter zu verarbeiten. Außerdem hat der Piledriver-Kern neue Befehle gelernt. Dazu gehören Fused Multiply-Add (FMA3) und Floating Point 16-Bit Convert (F16C). Die Bulldozer-Architektur kannte schon in ihrer ersten Ausgabe FMA4, und mit FMA3 kommt nun eine Fähigkeit hinzu, die Intel in seiner nächsten Prozessorgeneration einführen wird. Laut AMD erhöht der neue Befehl die Ausführungsgeschwindigkeit von Befehlen, was zu schnelleren Ergebnissen bei Fließkomma- und Ganzzahldivisionen führt. Auch Calls und Returns werden beschleunigt, was besonders wichtig ist, um Subroutinen schnell aufzurufen und wieder zu verlassen. Auch die Page Translation wurde überarbeitet und optimiert.

Der Speicher ist ein weiteres wichtiges Subsystem, das sich stark auf die Performance auswirken kann, und bei Bulldozer zeigte sich schnell, dass die Zugriffszeiten einen weiteren Schwachpunkt darstellten. Laut AMD hat man bei Trinity viel Zeit darin investiert, den L2-Cache und den Prefetcher zu überarbeiten, was bei Speicherzugriffen zu geringeren Zugriffszeiten führen soll. Die Flussvorhersage (Stream Prediction) soll gegenüber der letzten APU-Generation ebenfalls weitreichende Verbesserungen erfahren haben.

Auch die Load/Store-Einheit wurde als Ansatzpunkt für die Verkürzung von Zugriffszeiten ausgemacht, und so wurde store-to-load reordering durch nachfolgende Lesezugriffe verbessert, was Compileranfragen besser vorhersagen und damit die Ladezeiten verringern kann. Der Translation Lookaside Buffer (TLB) für den L1-Cache fällt mit 64 Einträgen doppelt so groß aus um eine Erhöhung von Latenzzeiten auszuschließen, denn ein größerer TLB erlaubt eine effizientere Struktur. Zu guter Letzt sind sowohl die Ganzzahl- als auch Fließkomma-Scheduler verbessert worden, um alle verfügbaren Hardware-Einheiten der Piledriver-Architektur besser zu nutzen.

Zusammen mit der höheren Taktrate, auf die wir gleich noch zu sprechen kommen, soll der A10-5800K auf Trinity-Basis 26 Prozent schneller als sein Llano-Vorgänger A8-3850 auf dem Desktop sein, während die Notebook-Variante A10-4600M seinem Vorgänger A8-3500M sogar 29 Prozent voraus sein soll.

Das wäre in der Tat ein ziemlicher Fortschritt, und wir werden diese Zahlen beim Testen im Hinterkopf behalten. Vorher werfen wir noch einen Blick auf den Grafikteil von Trinity

Alle 9 Kommentare anzeigen.
Sortieren nach: Neueste zuerst | Älteste zuerst
  • noskill , 21. Mai 2012 08:57
    Sehr guter Test und im Gegensatz zu Computerbase habt ihr sogar nach wissenschaftlichen Grundsätzen getestet indem ihr gleiche Bedingungen hergestellt habt, damit man die Ergebnisse auch vergleichen kann.
    Bei Llano-Laptops gibt es in der Tat bei vielen 1600 DDR3 Riegeln Probleme, die mit vollen Takt laufen zu lassen, da muss man dann Kingston PnP 1600-DDR3 Riegel nehmen oder man nimmt halt nur 1333er.
    Das liegt an den verwendeten Motherboards und ihrem BIOS.
  • pescA , 21. Mai 2012 09:19
    Das klingt doch schon sehr vielversprechend. Bevor ich zu einer Bewertung von Trinity komme, ein paar Überlegungen zur Leistungsaufnahme im Spiel:

    Llano (45W TDP): 47,0W
    Hier scheint die GPU zwar ausgelastet zu werden, der CPU Teil jedoch nicht.

    Trinity (35W TDP): 43,6W
    Hier scheint tatsächlich ein Großteil der TDP für die GPU zur Verfügung zu stehen.

    Intel (35W TDP): 55,8W
    Was ist da los? 20W für die Platform erscheit mir ne ganze Menge!

    ---

    Trinity ist in vielerlei Hinsicht AMDs erste APU. Dies wird finde ich beim Speicher am deutlichsten. Ein Nachteil von APUs ist ja, dass die GPU auf den RAM zugreifen muss und keinen eigenen Speicher hat. AMD macht daraus einen Vorteil, indem die CPU, die GPU auf der APU und eine diskrete GPU alle auf diesen Speicher zugreifen können. Zum einen senkt dies die Stromaufnahme, da nicht alles über die CPU läuft. Zum anderen kann dies bei OpenCL-Anwendungen die Performance deutlich erhöhen, da die Daten nicht von einem Speicher in den nächsten kopiert werden müssen.

    Ansonsten ist Trinity konsequent auf Energiesparen getrimmt, was ich sehr gut finde. Die Leistung von mobilen CPUs reicht ja heutzutage wirklich für alles aus, vgl. euren Kommentar im Fazit zur gefühlten Geschwindigkeit. Die GPU Leistung wurde erheblich gesteigert und liegt knapp vor der HD4000 [1]. Gleichzeitig wurde die TDP um 10W gesenkt. Sogar ein 17W Modell kommt. Zudem kann LPDDR3-1600 eingesetzt werden.

    Insgesamt macht Trinity seine (ihre?) Arbeit derzeit ganz gut. Sollten nun Anwendungen kommen, welche OpenCL usw. ins tägliche Leben bringen, sollte sogar Ivy geschalgen werden. Sandy hat AMD mMn mit Trinity geschalgen. Eine gut genügene CPU Leistung und brachiale GPU Leistung bei gleicher Leistungsaufnahme und geringerem/vergleichbaren Preis.

    [1] http://www.anandtech.com/show/5831/amd-trinity-review-a10-4600m-a-new-hope/6
  • benkraft , 21. Mai 2012 11:22
    So sehr ich mich freue, Ergebnisse von anderen Seiten hier zu sehen, muss ich doch eins zu bedenken geben:
    Die reine Leistung mag bei Intels HD 4000 erst einmal gut aussehen. Die Frage ist aber, ob Intel dieses Mal die Treiber besser hinbekommt. Ich erinnere an die Texturfehler (und Inkompatibilitäten) bei der HD 3000 - oder zuletzt bei der GMA 3650 im Atom D2700... Solange die Software also nicht mitspielt, kann AMD auch bei einem hypothetischen Gleichstand erst einmal noch beruhigt sein. Und im GPU-Bereich hat AMD einfach mehr Erfahrung.
  • FormatC , 21. Mai 2012 12:20
    Batman wurde von Anand nicht im DirectX11-Mode getestet, ein wenig irritierend.
  • pescA , 21. Mai 2012 12:38
    Zitat :
    So sehr ich mich freue, Ergebnisse von anderen Seiten hier zu sehen

    'tschuldigung :)  Aber dass Trinity den HD3000 alt aussehen lässt, war ja klar. Ich wollte nur zeigen, dass dies auch beim HD4000er nicht besser wird.
    Hinzu kommt die Treiberproblematik. Zudem wurde hier mit einem i7 (45W TDP) verglichen, in den 35W Versionen kommen bestimmt GPUs mit einem geringeren Takt zum Einsatz. Dann liegt Trinity deutlich vorn.
  • benkraft , 21. Mai 2012 14:27
    @pescA - Okay, dann sind wir ja einer Meinung. :)  (Und sorry - bei erster Lesung hatte ich deinen Beitrag irgendwie sehr anders verstanden... )
  • noskill , 21. Mai 2012 20:37
    @pescA

    Der A8-3500m hat auch eine TDP von 35W.
    Deswegen wird das mit dem RAM auch nicht gehen, soweit ich weiß können die 35W Modelle von Llano kein DDR3-1600.
  • titanfx , 23. Mai 2012 11:42
    AMD täte gut daran, ganz schnell die Piledriver CPU auch sofort für Desktop verfügbar zu machen bzw kurzfristig zu launchen.
  • scouty@guest , 8. Juni 2012 10:52
    Ich liebäugele ja schon länger einen neuen, sparsamen und kompakten Rechner für Büroanwendungen und Bildbearbeitung zu bauen. Ich verwende zur RAW-bearbeitung freie Konverter unter Linux.
    Alleine die Verwendung von Linux bei meinem betagten Thinkpad T60 (CoreDuo 1.83, 3GB) bringt enorme Geschwindigkeitsvorteile gegenüber WinXP bei der Bearbeitung von größeren RAW Dateien.
    So, da ich auch gelegentlich auch etwas Spiele, meist etwas betagter Klassiker wie BF1942 oder ein paar Ego-Shooter aus der Linuxwelt, wurde ich auf die LIANO Serie Aufmerksam.
    Nun meine kleine Frage: Lohnt es sich für mich, auf die neuen Trinitys zu warten oder sollte ich im Bezug auf die Bildbearbeitung auf die i5 umschwenken?
Ihre Reaktion auf diesen Artikel