Server-CPUs im Test: Broadwell-EP vs. Haswell-E(P) vs. Skylake

Um die Zeit bis zum Broadwell-E zu überbrücken, haben wir die Gelegenheit genutzt, um zusammen mit dem Hamburger Server-Hersteller Happyware ausgewählte Prozessoren in einer Art Crossover-Test zu benchmarken und die Ergebnisse miteinander zu vergleichen.

Nachdem unsere Schwester-Seite in den USA unlängst bereits Broadwell-EP (jedoch unter anderen Prämissen) getestet hatte, ziehen wir nun mit dem 8-Kern-Xeon ES-2620 v4 nach und vergleichen ihn mit dem Xeon ES-2620 v3 (Haswell-EP) als direktem Vorgängermodell, dem E3-1280 v5 (Skylake), sowie einem Core i7-5960X als Consumer-CPU aus dem Enthusiasten-Bereich.

Aktuelle Broadwell-EP-Xeons hat man als Redaktion nicht mal einfach so auf Lager und auch der direkte Generationsvergleich solcher Server-CPUs mit den Vorgängermodellen dürfte eher schwierig werden.  Deshalb haben wir zusammen mit der Happyware GmbH ein Server-Rack genutzt, auf dem die gleichen Benchmarks abliefen wie auf den beiden zusäzlichen Vergleichsplattformen.

Um einigermaßen vergleichbar zu bleiben, nutzen wir von dem ansonsten mit zwei CPUs bestückten Supermicro X10DRL-CT nur einen der beiden Prozessoren. Als Testsuite kommt SiSoft Sandra 2016 SP1 zum Einsatz, um auf allen Plattformen identische Testprogramme laufen lassen zu können. Grafische Aufgaben müssen auf dem Serverboard ja technisch bedingt ausfallen. Deshalb beschränken wir uns ausschließlich auf synthetische Leistungsbenchmarks.

Zunächst wird es interessant sein, wie sich der Broadwell-EP im Vergleich zum direkten Vorgänger schlagen kann, der zwar mit zwei Kernen weniger, dafür aber mit etwas mehr Takt antritt. In der Theorie sieht es für den Broadwell-EP, der im neuen 14nm FinFet-Verfahren produziert wird, ja erst einmal gar nicht schlecht aus. Der Sockel FCLGA 2011 bleibt gleich, dafür ändert sich aber vieles andere. Der von uns getestete E5-2620 v4 nutzt mit der LLC-Variante (Low Core Count) die kleinste der drei verfügbaren Die-Größen von Broadwell-EP.

Neben dem verbesserten Boost-Mode für AVX-Code bietet Broadwell-EP größere Translation Buffer, mehr OOO-Einträge (Out-Of-Order), eine verbesserte Sprungvorhersage und geringere Latenzen bei der Divider-Einheit sowie bei Vektor-Multiplikationen, die nunmehr in drei (vorher fünf) Taktzyklen erfolgen.

Darüber hinaus sorgt die neue Resource Director Technology dafür, dass die dritte Cache-Stufe per Resource Monitoring ID angesprochen und auch partitioniert werden kann, sowie eine Priorisierung der Blöcke erfolgt. Die Speichercontroller besitzen zudem eine ähnliche Steuerfunktion, was zu einer besseren Ausnutzung der Transfer-Rate führen soll. Außerdem unterstützen sie nunmehr auch DDR4-2133 statt nur DDR4-1866.

Eine weitere Verbesserung bei Broadwell-EP sind die feiner gestaffelten Turbo-Frequenzen bei den AVX-Berechnungen. Die Belastung der Kerne liegt deutlich höher als bei herkömmlichem Code, was stets zu einer Drosselung führt. An Stelle einer pauschalen Drosselung der gesamten CPU kann dies Code-abhängig nunmehr pro Kern erfolgen.

Aus dem Workstation-Bereich gesellt sich ein neuer Xeon E3-1280 v5 (Skylake) hinzu, den wir auf einem Asus P10S WS mit passendem DDR4-2133 ECC-RAM betreiben. Wie auch der Skylake unterstützt der Xeon E5-2620 v4 Intels neues Speed-Shifting, wodurch die CPU weitgehend selbst und eben nicht wie bisher das Betriebssystem über die einzelnen Taktraten entscheidet.

Der vierte im Bunde ist Intels Enthusiasten-CPU Core i7-5960X, den wir unübertaktet auf einem MSI X99S XPower AC und ebenfalls mit DDR4-2133 betreiben, um beim Speicher möglichst ähnliche Rahmenbedingungen zu schaffen, auch wenn sich der RAM ein wenig unterscheidet. So sind auf der Workstation Kingston 4 x 4 GB KVR21E15S8/4 unbuffered ECC, im Server stecken 8 x 8 GB Micron 18ASF1G72PZ-2G1A2 registered ECC und im Gaming 4 x 8 GB System Corsair Dominator.

Um alles im Blick zu behalten gibt es hier noch einmal die Tabelle mit den getesteten CPUs und Ihren Spezifikationen:


E5-2620 v4E5-2620 v3E3-1280 v5
Core i7-5960X
Architektur
Broadwell-EP
Haswell-EP
Skylake
Haswell-E
Intel® Smart Cache20 MB15MB
8MB
20 MB
Kerne
8
6
4
8
Threads
16
12
8
16
Grundtakt
2,1 GHz
2,4 GHz
3,7 GHz
3,0 GHz
Turbotakt
3,0 GHz
3,2 GHz
4,0 GHz
3,5 GHz
TDP
85 Watt
85 Watt
80 Watt
140 Watt
BefehlssatzerweiterungAVX 2.0AVX 2.0SSE4.1/4.2
AVX 2.0
SSE4.2,
AVX 2.0
AES
Lithographie14 nm22nm
14nm
22nm
SpeichertypenDDR4 1600/1866/2133DDR4 1600/1866DDR4-1866/2133
DDR3L-1333/1600
DDR4 1333/
1600/2133
Max. Speicherkanäle4
4
2
4
Max. Speicherbandbreite68,3 GB/s59 GB/s34,1 GB/s68 GB/s
ECC-Support
Ja
Ja
Ja
Nein
PCI-Express-Lanes40
40
16
40
TCASE max.
74°C72.6°C
k.A.
66.8°C
Sockel
FCLGA 2011FCLGA 2011FCLGA 1151LGA2011-v3
Erstelle einen neuen Thread im Artikel-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
14 Kommentare
Im Forum kommentieren
    Dein Kommentar
  • besterino
    Danke für den Artikel!

    Und ich will eine Workstation mit 2 dieser "gerumorten" 5GHz Monster sehen! :D
    0
  • FormatC
    Wollen und haben können sind immer irgendwie wie Ferrari angucken und mit dem Moped nach Hause fahren :P
    2
  • Plitz
    Danke für den Test. Kann Broadwell-E gar nicht mehr erwarten :) Einschätzungen? Kommt er gegen Ende Juni?
    0
  • FormatC
    Computex :)

    Unter uns: nettes Teil. Mit Suchtgarantie.
    0
  • TenDance
    Der Skylake 1280 ist ja auch "nur" ein i7-6700 ohne GPU, soweit ich weiß. In der Tabelle attestiert ihr dem Quadcore 16 threads, das macht mich jetzt etwas neugierig ;)
    Der Test zeigt einmal mehr wie sehr es mich wurmt dass wir jetzt erst Broadwell-E bekommen. Klar, was Leistung pro Watt anbelangt ist das ein schöner Schritt, unter Wasser wird man da auch einige Richtung 5 GHz bekommen und auch ein Octa mit 4,5 GHz wird brachial. Dennoch, wenn man sieht wie gut der Skylake mithalten kann und dass er z.T. 25% Mehrleistung pro thread rausholt... Skylake ist einfach besser als sein Ruf. Nur leider wollten die Leute nach Jahren der Stagnation eher was in Richtung +50% IPC sehen, was ihm zum Verhängnis wurde.
    0
  • JaqobJ
    Mir fehlt in diesem Vergleich zumindest ein Hinweis auf den Reg. ECC RAM beim Xeon E5 Prozessor.

    Dieser ist durch die Fehlerkorrektur um einiges langsamer als der NON ECC bzw. ECC unbuffered RAM. Ich hätte mir deshalb gewünscht, dass dies zumindest also Setup-Unterschied erwähnt wird.
    0
  • FormatC
    Auf der Workstation ist KVR21E15S8/4 verbaut, der ist in der Tat unbuffered. Im Server stecken Micron 18ASF1G72PZ-2G1A2, die sind registered. Und Consumer, naja... die üblichen Verdächtigen eben. :D

    Danke für den Tipp, ich habs auf der ersten Seite unten oberhalb der Tabelle noch einmal aufgelistet.
    0
  • slsflocke
    Danke für den Test ... nettes Zwischenspiel beim warten auf meine dual 2620v4 ...
    Die Matrix-Multiplikation scheint ein Problem mit 8 Kernen zu haben.
    0
  • derGhostrider
    Zitat:
    Dieser ist durch die Fehlerkorrektur um einiges langsamer als der NON ECC bzw. ECC unbuffered RAM.

    Der Unterschied ist nicht so dramatisch, wie Du meinst. Ich nutze seit langer Zeit nur noch ECC REG, teilweise ist es in Benchmarks gar nicht nachzuvollziehen, dass man ECC REG verwendet. Und trotzdem hat man ein Plus an Datensicherheit.

    ---

    Zum Test:

    Schade, dass die CPUs nicht identische Kernzahlen und Taktraten hatten. Das hätte mir persönlich mehr gebracht als "Vergleich der Architekturen". Hier ist für meinen Geschmack viel durcheinander, da der deutlich höhere Takt des E3 für eine deutlich höhere single-core-Leistung sorgt und je nach Test sich die unterschiedlichen Stärken und Schwächen der CPUs überlagern und somit nicht mehr klar einzeln erkennbar sind.
    Das soll nicht heißen, dass diese "Gesamtergebnisse" nicht ebenso wichtig sind! Ich hätte mich darüber gefreut, wenn auch mal auf allen CPUs bei "n Kernen" mit "x GHz" getestet worden wäre. Kann man ja inzwischen recht problemlos im BIOS einstellen (wobei unglücklich gewählte Kernzahlen die Ringe intern vielleicht ungleichmäßig auslasten und dann zu Nachteilen führen können)

    Kleiner Hinweis: Viele der neuen Xeons (nicht dieser!) unterstützen sogar 2400er Speicher, nicht nur 2133er.
    Der schnellste 8-Kerner ist um etwas mehr als 50% höher getaktet. Basistakt also 3,2 GHz anstatt 2,1 GHz. Dazu 5 MB mehr Cache, schnellerer QPI-Link und 2400er Speicher.
    Nachteile: rund 1600 USD Aufpreis und eine TDP von 135 W.
    0
  • FormatC
    Problem:
    Der 5960X lässt sich nicht soweit runtertakten, der 2180V5 leider auch nicht. Da hätte ich andere Xeons gebraucht, gabs aber nicht. Ich hatte nur etwas mehr als einen Tag für alles - kaum Zeit für Experimente. :(
    0
  • derGhostrider
    Ein Tag ist echt "etwas knapp". Schade.
    0
  • FormatC
    Ach naja, das lässt sich eigentlicg ganz gut skalieren, wenn man sich die 1T Benchmarks anschaut.
    0
  • Nico Hoffmann
    Hi,
    super Artikel! Für mich ein sehr informativer Artikel. Zusammen mit dem Artikel http://*********.de/prozessor/ konnte ich mit diesem Beitrag mein Wissen über Prozessoren hervorragend vertiefen. :)
    LG
    0
  • derGhostrider
    Anonymous sagte:
    Hi,
    super Artikel! Für mich ein sehr informativer Artikel. Zusammen mit dem Artikel http://meine.webseite.habe.ich.hier.verlinkt.de/klick-mich-bitte-an konnte ich mit diesem Beitrag mein Wissen über Prozessoren hervorragend vertiefen. :)
    LG

    1. Werbung
    2. Zitat aus der verlinkten Seite, das die Qualität dieser unterstreicht:
    Zitat:
    Sehr gute Prozessoren verfügen über ein Level 3 Cache. Man nennt einen solchen Prozessor auch Mehrkernprozessor.

    Mensch, und ich dachte, dass Mehrkernprozessoren mehrere Kerne hätten. Ich Dummerchen! :sarcastic:
    0