TIM-Gate, VRM-Desaster oder einfach zu viel Polemik? Skylake-X und mögliche Mängel bei X299-Mainboards

Packen wir alles an Emotionen einmal kurz beseite und dafür allein die Fakten auf den Tisch. Throttelnde CPUs, Kühlungsnotstand an allen Fronten, viele Irrungen und Wirrungen, sowie die finale Frage nach dem Grund. Doch schuld sind ja eh immer die anderen

Was gab es nicht in den letzten Wochen an Rauschen im Blätter- und Videowald. Da war stellenweise sogar von einem VRM-Desaster oder einem TIM-Gate (Wärmeleitpaste statt Lot) die Rede, doch wenn man alles einmal genau und abgekärt betrachtet, ist das Ganze nichts anderes als eine ellenlange kausale Kette, bei der eine extrem hitzköpfige CPU den eigentlichen Ausgangspunkt markiert. Doch was schreiben wir eine, es sind ja im Prinzip sogar gleich derer drei. Aber immer schön der Reihe nach, denn wir versuchen es nämlich auch so leicht verständlich wie möglich zu halten.

Eine kurze Bestandsaufnahme am Anfang kann nicht schaden, sodass wir einfach einmal kurz die zwei der Kernpunkte zusammenfassen, die in den aktuellen Diskussionen immer wieder hochschwappen und nach denen wir dann auch unseren Test gegliedert haben:

(1) Skylake-X ist bereits im Normalbetrieb Out-of-the Box kaum kühlbar, da die Leistungsaufnahme in einzelnen Situationen bereits extrem hoch ist und die Wärmeleitpaste zusätzlich eine optimale und zweckmäßige Wärmeabfuhr verhindert.

(2) Es besteht kaum noch Übertaktungsspielraum für den Normalanwender und viele Mainboards sollen durch Konstruktionsmängel, wie z.B. unzureichende Kühlung der externen Spannungswandler, bereits von sich aus die CPU unangemessen limitieren. Extremübertakter können mit der aktuellen Hardware kaum noch etwas anfangen.

Das Ganze ist dann meist gewürzt mit viel zu viel Polemik, die aber dem bzw. vielleicht sogar den eigentlichen Problemen der potentiellen Käufer kaum gerecht wird.

Testaufbau und Mess-Methoden

Deshalb schnappen wir uns eines der einfacheren Mainboards für den Sockel 2066, bauen einen neuen Benchtable für den vertikalen Betrieb und testen, was dran ist (oder vielleicht auch nicht). Wir werden einserseits auf die Sensorwerte der jeweiligen Bereiche, sowie deren Herkunft eingehen und andererseits durch unsere berührungslosen Messungen mit der Infrarot-Wärmebildkamera die Erwärmung der Platine im Bereich um Sockel und Spannungswandler auf Plausibilität prüfen.

Zusätzlich können wir damit sogar die Auf- und Durchwärmung dokumentieren, sowie den Vorgang in speziellen Zeitraffer-Videos darstellen. Denn uns interessiert ja auch, ob nicht vielleicht auch noch andere Komponenten durch die entstehenden Hotspots bzw. die Wärmeübertragung im Mainboard negativ beeinflusst werden könnten.

Für das sichere Auslesen der Sensoren und den möglichst reibungslosen Betrieb des Testaufbaus nutzen wir natürlich das aktuellste BIOS für unser Mainboard, sowie HWinfo in der derzeit neuesten Beta-Version ab v5.53-3190 (beim Download auf Beta-Version klicken!).

[Update vom 11.07.2017] Nach genauerer Nachkontrolle, der Rückfrage mit dem Hersteller und auch Hinweisen aus dem Forum haben wir nachfolgend einige Details korrigiert bzw. vertieft.

Das Board verfügt über insgesamt 5 + 1 Phasen für die CPU-Spannungsversorgung, die von einem IR35201 von International Rectifier bereitgestellt und gesteuert werden. Dieser mehrphasige Buck Controller unterstützt Intels VR12 und ganz offensichtlich auch VR13. Wer für Vccin mehr Spannungswandler-Kreise anhand der Spulen vermutet, liegt völlig richtig, denn durch das sogenannte Doubling kann man bei fünf Phasen gleich zwei Kreise pro Phase realisieren und somit auch die einzelnen VRM entlasten und die Hotspots flächenmäßig entzerren. Auf diesen Chip, sowie dessen abgreifbaren Daten wie Spannungen und Ströme, kommen wir später noch einmal zurück.

Als Spannungswandler dient pro Regelkreis jeweils ein IR3555 von International Rectifier. Diese hochintegrierten Power-Stage-Chips vereinen jeweils die notwenigen Gate-Treiber, synchrone MOSFETs für die High- und Low-Side, sowie die Schottky-Diode in einem Package. Sie besitzen zusätzlich, im Gegensatz zu dem meisten der üblichen MOSFETs, auch noch integrierte analoge Temperatursensoren. Doch wie kann man dann die Temperaturen dieser Spannungswandler sonst noch exakt ermitteln, wenn man nicht gerade eine passende IR-Kamera nutzen kann?

MSI verwendet auf dem getesteten Mainboard den Nuvoton NC6795D als sogenannten Super-IO-Chip, der eine Vielzahl von Sensorwerten erfassen und bereitstellen kann. Dazu gehört auch der Temperaturwert der Spannungswandler, den man mittels eines mittig zwischen den Power-Stage-Chips platzierten Thermistors ermittelt (Bild unten). Wir haben deshalb den Messpunkt für unsere Video-Erfassung rückseitig genau unterhalb dieses Thermistors gewählt.

Darüber hinaus prüfen wir auch noch die Temperaturen der Spulen und Kondesatoren dieser Spannungswandlerkreise, sowie im weiteren Verlauf die Platinentemperaturen bis hin zur CPU.

Zwangsweises Heruntertakten und Notabschaltung

Um die weiteren Tests, sowie die aufgetretenen und in Foren oft viel zu polemisch diskutierten Probleme besser verstehen zu können, müssen wir wissen, dass die Mainboardhersteller einige Sicherheitsmechnismen verwenden. Dazu gehört zum Beispiel auch, dass unser Testboard die Skylake-X bei exakt 105°C gemessener Temperatur am Thermistor (HWinfo unter Zeile MOS, Nuvoton NCT6795D) auf 1,2 GHz heruntertaktet und diesen Zustand so lange erhält, bis die Temperatur auf unter 90°C gesunken ist. Dann erst wieder gibt es Vollgas.

Das ergibt durchaus einen Sinn, wenn man weiß, dass zwar der Flammpunkt für das verwendete Platinenmaterial (FR4) deutlich höher liegt, die Empfehlungen für eine Maximaltemperatur im Dauerbetrieb jedoch nur bei Werten zwischen 95 und 105°C liegen, weil besonders Multilayer-Platinen sonst vom Dry-Out (Austrocknen), Bending und möglichen Haarrissen der Leiterbahnen betroffen sein könnten. Das ist zu begrüßen, denn Grafikkartenhersteller haben in dieser Problemzone meist die (unnötig) besseren Nerven.

Wer Intels Extreme Tuning Utility (XTU) nutzt, bekommt dieses Heruntertakten als Thermal Throttling: Yes in Gelb angezeigt. Doch was ist dort mit Statusanzeigen wie z.B. Motherboard VR throttling?

[Update vom 11.07.2017] Auch an dieser Stelle müssen wir noch eine kleine Ergänzung einfügen, welche die von HWInfo ausgelesenen Werte betrifft. Was nämlich weit weniger bekannt ist: auch der  IR35201 liefert Temperaturwerte zurück. Diese Werte für VR T1 und VR T2 sind deutlich höher und auf den ersten Blick auch erst einmal ziemlich widersprüchlich zu denen des externen Sensors.

Es lag zunächst auf der Hand, dass hier wie so oft nur eine Art Chiptemperatur des Controllers ausgegeben wird. Das entspräche dann in etwa dem, was man z.B. bei Grafikkarten mit diesen PWM-Controllern in diversen Tools dann angeblich als Spannungswandler-Temperaturen  VRM1 und VRM2 angezeigt bekam (meist setzten AMD-Karten auf diese Controller). Da maß sich der Chip nämlich faktisch fast immer selbst.

Bei der hier auftretenden Kombination von IR35201 und den IR3555 ist jedoch davon auszugehen, dass auch die vom IR3555 ausgegebeben und im Verhältnis zur Temperatur im Inneren stehenden Spannungswerte, verwendetet werden

Für diese Werte setzt man eine Obergrenze von 125°C, bevor im XTU gelb vor Motherboard VR throttling: yes gewarnt und die CPU ebenfalls auf 1,2 GHz heruntergetaktet wird. Ab 135°C wird das Mainboard sogar ohne Vorwarnung einfach abgeschaltet, weil die erzeugten Spannungen sonst außerhalb der Spezifikationen gefährlich abdriften und die Hardware schädigen könnten.

Weree exemplarisch für einen CPU-KernWeree exemplarisch für einen CPU-Kern

Doch auch die CPU schützt sich selbst. Basierend auf verschiedenen integrierten digitalen Temperatur-Sensoren (DTS), werden die Temperaturen der Rechenkerne und des Packages ermittelt. Hierbei handelt es sich um Rechenwerte, deren Genauigkeit mit steigender Temperatur zunimmt. Alles unter 40°C kann man eigentlich vergessen, ab ca. 80°C, also dem Bereich, wo es dann darauf ankommt, wird es schon recht exakt. Wir sehen aber auch, dass sowohl die Temperaturen der Kerne, als auch die des Packages zu einer thermisch bedingten Drosselung des Taktes führen können.

Gerade die Package-Temperaturen beinhalten auch die Verlustleistung der IVR, also der in der CPU integrierten Spannungswandler für die Bereitstellung der einzelnen Teilspannungen einer CPU. Hier kann es, vor allem bei hoher Übertaktung und manueller Spannungsanhebung, schnell zu unerwarteten Limit-Überschreitungen kommen, die nicht jedes Tool gleich sicher erfassen kann. Dann throttelt die CPU, ohne dass der Nutzer die Ursache sehen kann. Zu den IVR gibt es aber gleich noch mehr. Zunächst jedoch fassen wir noch einmal zusammen:

Merkblatt #1
Eine Taktverringerung der CPU kann sowohl von zu hohen Kern- bzw. Package-Temperaturen innerhalb der CPU ausgelöst werden (was am bekanntesten ist), als auch vom Super-IO Chip wegen der zu hohen VRM-Temperaturen bzw. dem PWM-Controller wegen zu hoher, eigener Chiptemperatur und der Gefahren einer instabilen Spannungsversorgung. Dass der PWM-Controller aber VRM-Temperaturen liefern kann, ist eine Urban Legend.

Das Testsystem im Detail

Wir haben alle benutzen Hardwarekomponenten, Messgeräte und Tools noch einmal tabellarisch zusammengefasst:

Testsystem und Messgeräte
Hardware:

Intel Core i9-7900X
MSI X299 Gaming Pro Carbon AC
4x 4 GB G.Skill RipJaws IV DDR4-2600
Nvidia Quadro P6000 (Workstation)

1x 1 TByte Toshiba OCZ RD400 (M.2, System SSD)
2x 960 GByte Toshiba OCZ TR150 (Storage, Images)
Be Quiet Dark Power Pro 11, 850-Watt-Netzteil
Windows 10 Pro (Creators Update)
Kühlung:
Alphacool Eiszeit 2000 Chiller + Alphacool Eisblock XPX
Alphacool Eisbär 240 (AiO)
Noctua NH-D15 (Luft)
Thermal Grizzly Kryonaut (für Kühlerwechsel)
Monitor:
Eizo EV3237-BK
Leistungsaufnahme:
Direkte Gleichstrommessung über Shunts (Spannunsgabfall)
Direkte Gleichspannungsmessung an den Messpunkten
Berührungslose Gleichstrommessung am EPS-Versorgungsanschluss

2x Rohde & Schwarz HMO 3054, 500 MHz Mehrkanal-Oszillograph mit Speicherfunktion
4x Rohde & Schwarz HZO50, Stromzangenadapter (1 mA bis 30 A, 100 KHz, DC)
4x Rohde & Schwarz HZ355, Tastteiler (10:1, 500 MHz)
1x Rohde & Schwarz HMC 8012, Digitalmultimeter mit Speicherfunktion
Thermografie:
Optris PI640, Infrarotkamera
PI Connect Auswertungssoftware mit Profilen
Standbilder und radiometrische Videos
Erstelle einen neuen Thread im Artikel-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
62 Kommentare
Im Forum kommentieren
    Dein Kommentar
  • drno
    Der Autor bekommt von mir 100 von 100 möglichen Points. ;-)
    Kollege Igor hat die Themen konkret heraus gearbeitet.
    Für mich einer der aktuell besten Artikel.
    Die beschriebenen Inhalte sehe ich genauso.
    Hat Intel ne neue Prozzenarchitektur in der Pipeline?

    Sind wir derzeit nicht ähnlich der damaligen Netburst Situation vor bummelig 10 Jahren? Heißt die intelliegente Lösung nun, in der nächsten Runde verlöten wir den Chip wieder und alles ist schick, dann müßte man aber die Fertigung - auch für die BGA's der Notebooks wahrscheinlich gleich mit umstellen.

    Mein Fazit, in Anlehnung an einen alten Übertakter-Spruch:
    Kauf dir nix, was du nicht kühlen kannst.
    2
  • lowmotion
    Die Frage ist, ob die 200-300 Euro Boards dann überhaupt zu etwas taugen? Werden die Hersteller auf Weihnachten hin reagieren? Wird Intel reagieren?

    Ist die Lösung nun ein teures Board und eine geköpfte CPU? Oder direkt ein Wasserblock auf die VRMs?
    0
  • LokusKnall
    Igor danke für den Artikel, ich find ihn 1A.

    Die Mainboardhersteller hätten natürlich alle mindestens 297W + Reserve als Maßstab nehmen können, da bin ich total bei dir.
    Aber die Erkenntnis bzw. Entscheidung die Mainboards nur so potent zu bauen wie eine gute AiO es schafft die CPU zu kühlen, kann ich auch verstehen.
    Klar Specs sind Specs aber wer nutzt schon täglich oder sogar 24/7 einen Chiller, die Anzahl ist wohl sehr gering.

    Ich fänd es nochnichtmal großartig seltsam wenn Skylake-X zuerst schwächer werden sollte bzw. die Mainboardhersteller nur z.B. 140WTDP mit 190A max. von Intel gehört hätten, daraufhin Mainboards entwickelt haben, und später Intel gebeten hätten auf TIM zu wechseln damit Enduser Kevin nicht mal ebenso das Mainboard schrotten kann.
    Typscher Fall von: "Viel versprochen und dann kaputtgespart"

    @DRNO
    Intel hat mal was von mehr IPC und mehr Emulation weniger Fixed Function etc. mit neuer microarch gesprochen, ich glaube es ging um "ice lake"
    0
  • FormatC
    Noch einmal:
    Wer die CPU nutzt, wie von Intel verkauft, wird mit den meisten Mainboards auf der sicheren Seite sein. Das, was ungeköpft noch mit einer Custom-Kühlung ohn CPU-Throttling möglich ist, schafft das hier gestete Board auch noch locker. Nur beim Überschreiten der (kurzzeitig erlaubten) Grenzwerte in den Specs wird es eng. Nur sind 10 Minuten auch noch deutlich mehr als "kurzeitig". Der Ball liegt eindeutig bei Intel.
    0
  • kleinstblauwal
    Da muss sich Übertakter Kevin mit noch ein paar mehr Kelvins rumschlagen. Aber es dreht ein bisschen die Verhätnisse rum, wenn man beim Übertakten nicht mehr nur die CPUs grillen kann, sondern auch die Mainboards. Wenn man (un)geschickt ist, findet man einen Punkt, wo die VRMs schön bei 100-104 °C vor sich hin schmort, aber immer unter den magischen 105 °C bleibt, bei denen ein paar Gänge zurück geschaltet wird.

    Manche spekulieren ja, dass bei den Varianten mit 12 bis 18 Cores dann Lot verwendet wird, aber wenn man bei Intel die gleichen Prämissen wie bei 8 und 10 Kernen anwendet, dann erst recht nicht. die werden auch nur auf 300 W laufen, aber auf niedrigeren und effizienteren Taktraten und da sich die Abwärme auf eine größere Die Fläche verteilt sind die dann vielleicht sogar kühler.
    0
  • der8auer
    Igor wieso setzt du dir das Limit bei 250 W? Du schreibst etwas von innerhalb Specs bewegen, aber wie passt das mit OC zusammen? Ab genau diesem Punkt fangen die ganzen Probleme doch erst an. Kannst du hier auch sehen z.B. http://www.overclock.net/t/1632665/intel-x299-socket-2066-vrm-thread/140#post_26207921

    Es wird wieder eine große Anzahl an Enthusiasten geben die ihre CPU köpfen werden uns sind dann sehr schnell an diesem Limit. Ich verstehe ja deinen Ansatz, dass es im Normalbetrieb nicht erreicht wird, aber darum geht es nicht. Wenn Hersteller mit Overclocking ohne Limit werben dann muss auch geliefert werden.

    Die Videos mit der Wärmebildkamera finde ich aber super.
    1
  • Tesetilaro
    Sorry, aber was ist denn "eine große Anzahl" - 1000? 10000? - ich finde man muß für die millionen Spieler da draussen, die Ihre CPU eben im Werkszustand betreiben und ggf. mal schaun ob OC was bringt, die Kirche im Dorf lassen.
    2
  • der8auer
    Naja wir haben tausende Delid Die Mates verkauft und verkaufen bei Caseking auch CPUs die bereits geköpft sind inkl. Garantie und die Stückzahlen dort sind auch entsprechend. Also man kann das nicht mehr als Nische bezeichnen.
    0
  • drno
    Eine durchaus hilfreiche Diskussion, die dem Leser = Kaufinteressenten klar aufzeigt, was er vom X299 Chipset erwarten kann - und auch was nicht.
    Der Knüppel liegt beim Hund - und an der Shopkasse wird abgestimmt.
    0
  • LokusKnall
    Igor ich sehe das genau wie du, nur komm ich nicht über die Beweggründe für die TIM hinweg, ich suche einen wirklichen Grund dafür.

    Um das deutlicher zu machen formuliere ich das mal als Frage:
    "Falls Lot statt TIM eingesetzt würde, wäre dann nicht die Möglichket für Enduser Kevin viel größer so weit zu OCen bis durch die Bank wirklich jedes Board außerhalb der Specs agiert?"
    Könnte da nicht das TIM wie eine gewollte Hürde wirken um die Mainboards zu schützen, vor zu schnell fahrlässigen Usern?
    0
  • LokusKnall
    evtl. will intel auch zu den noch kommenden i9 mit noch mehr Kernen, die dann evtl. verlötet sind künstlich über die TIM einen Qualitäts und Leistungsunterschied schaffen.
    Also geschafft haben sie auf jeden Fall "Etwas" und gut toll ist das so nicht.
    0
  • Epsylon
    Anonymous sagte:
    Igor ich sehe das genau wie du, nur komm ich nicht über die Beweggründe für die TIM hinweg, ich suche einen wirklichen Grund dafür.

    Um das deutlicher zu machen formuliere ich das mal als Frage:
    "Falls Lot statt TIM eingesetzt würde, wäre dann nicht die Möglichket für Enduser Kevin viel größer so weit zu OCen bis durch die Bank wirklich jedes Board außerhalb der Specs agiert?"
    Könnte da nicht das TIM wie eine gewollte Hürde wirken um die Mainboards zu schützen, vor zu schnell fahrlässigen Usern?


    Das ist mit Sicherheit nicht die Intention, die Hersteller freuen sich doch wenn die Endkunde ihre Hardware Schrottet und neue kaufen muss.
    0
  • LokusKnall
    @ DER8AUER
    http://www.tomshardware.de/performance-benchmarks-ubertaktung-leistungsaufnahme-kuhlung,testberichte-242365-11.html
    Sobald man sich jedoch oberhalb der 300-Watt Grenze bewegt, die man sogar mit einfacheren Renderprogrammen bereits ab ca. 4.6 bzw. 4.7 GHz und den dafür nötigen Spannungen erreichen kann (je nach Chipgüte), geht auch mit dem Chiller kaum noch etwas. Bei den von uns erreichten Maximalwerten von etwas über 300 Watt läuft die CPU bereits permanent ist thermische Limit von 100°C, kurz darauf kommt es dann zur folgerichtigen Abschaltung.
    0
  • drno
    Glücklichweise müssen wir uns keinen Kopf um die Fertigungsprobleme von Intel machen. Wahrscheinlich ist es so, daß man mindestens bis zum nächsten Shrink in gewohnter Weise hinkommen wollte und jetzt - Ryzen bedingt - selbst den Speed - mehr als eigentlich angedacht - raufsetzen mußte. Denke ich mal.
    0
  • LokusKnall
    Ich glaube ich sehe das richtig wenn ich sage ein geköpfter CPU ist durch den selbigen Umstand dann off-spec, oder?

    @EPSYLON das wäre ja so als wenn ein Hersteller der mit OC wirbt, das versagen seiner Bauteile durch Taktgier entgegenkäme.
    Oder ein Hersteller sagen würde nein dieses nach oben-offene Bauteil bitte nicht OC obwohl des Teile des Produktnamens schon als inklusive erscheinen lassen.
    *völlig absurd* oder?
    0
  • der8auer
    Anonymous sagte:
    @ DER8AUER
    http://www.tomshardware.de/performance-benchmarks-ubertaktung-leistungsaufnahme-kuhlung,testberichte-242365-11.html
    Sobald man sich jedoch oberhalb der 300-Watt Grenze bewegt, die man sogar mit einfacheren Renderprogrammen bereits ab ca. 4.6 bzw. 4.7 GHz und den dafür nötigen Spannungen erreichen kann (je nach Chipgüte), geht auch mit dem Chiller kaum noch etwas. Bei den von uns erreichten Maximalwerten von etwas über 300 Watt läuft die CPU bereits permanent ist thermische Limit von 100°C, kurz darauf kommt es dann zur folgerichtigen Abschaltung.


    Abschaltung (Rechner geht aus) wäre aber OCP des Boards. Wenn die CPU ihr thermisches Limit erreicht dann taktet sich die CPU einfach nur runter und senkt die Spannung.
    0
  • Tesetilaro
    Anonymous sagte:
    Naja wir haben tausende Delid Die Mates verkauft und verkaufen bei Caseking auch CPUs die bereits geköpft sind inkl. Garantie und die Stückzahlen dort sind auch entsprechend. Also man kann das nicht mehr als Nische bezeichnen.


    Nimm mir das nicht übel, aber wenn wir mal Steam anschauen, ca. 4,5 % der Leute haben eine CPU die mit mehr als 3,7 GHz läuft... wenn wir jetzt weiter davon ausgehen, das nur die hälfte davon übertaktet, was sicher schon hoch gegriffen ist - dann sprechen wir von roughly 2 % - also einer von 50 gamern, die auch noch steam nutzen...

    Also 2 % ist aber sowas von eine Randgruppe - ohne das irgendwie negativ zu meinen. immerhin kommt ja noch die Konsolengruppe dazu...

    Mag ja eine Milchmädchenrechnung sein und ich glaube auch sofort, das du tausende DieMates verkaufst, aber selbst mit den geköpften CPUs dazu gerechnet bleibt dass eine Randgruppe, wie Autotuning, jeder kennt es, keiner macht es *g*
    0
  • Plitz
    Da muss man aber zur Steam Hardware Survey sagen, dass diese nur den Base Clock ausliest! Turbo wird nicht berücksichtigt und OC auch nicht.
    0
  • Tesetilaro
    oh, danke für den hinweis - hatte mich schon gewundert... wird aber vermutlich nicht sooo viel an meiner Schätzung ändern...
    0
  • Jolly91
    Am Ende schickt Intel die 18 Kerner raus und der Ball liegt wieder bei den Mainboardherstellern. Schaut man sich das MSI Board an, hat man nicht mal eine Headpipe die links und rechts nach unten weggeht. Würde man jetzt das so wie bei einem ASUS Rampage IV Extreme designen, könnten die VRM deutlich entlastet werden da die Wärmeaufnahme deutlich gesteigert werden kann.

    Gigabyte hatte damals zur LGA-775 (P45) Zeiten Kühltürme auf dem Board für die Northbridge verbaut. Sowas wäre sicherlich sinnvoll. Siehe das Gigabyte EP45-Extreme.
    0