Tesla V100: Erste Volta-GPU leistet 120 TFLOPS

Mit der Tesla V100 hat Nvidia nicht nur die erste Volta-GPU, sondern auch den größten Grafikchip vorgestellt, der bisher produziert wurde: Für die 21 Milliarden Transistoren steht eine Fläche von 815 mm2 zur Verfügung. Der auf der GPU Technologie Conference (GTC) vorgestellte Chip zeichnet sich außerdem durch eine gänzlich neue Form von Kernen, den Tensor-Kernen, aus. Diese sind für die Optimierung des maschinellen Lernens gedacht und sollen eine Reihe von FP16- und FP32-Rechenoperationen beschleunigen. Die theoretische Rechenleistung der GPU liegt bei 120 TFLOPS.

Für den Aufbau der GV100 setzt Nvidia auf sechs Graphics Processing Cluster, die jeweils 14 Volta Streaming Multiprocessor mitbringen. Jeder dieser Streaming Multiprocesseor bringt 64 CUDA-Kerne für FP32-Operationen mit, sodass insgesamt 5376 CUDA-Kerne zur Verfügung stehen. Bei der Tesla V100 werden vier Streaming Multiprocessors deaktiviert, sodass hier 5120 CUDA-Kerne genutzt werden können.

Damit setzt Nvidia erstmals auf zwei Karten für diesen Hochleistungsbereich. Während es sich bei der kleineren Ausführung um eine Single-Slot-Kate handelt, die mit einer thermischen Verlustleistung von 150 Watt aufwartet, werden von der zweiten Variante zwei Slots beschlagen. Die TDP wird in diesem Fall mit 300 Watt angegeben.

Weitere Details hat der Hersteller an dieser Stelle zunächst nicht verlautbart, es kann jedoch davon ausgegangen werden, dass sich die beiden Volta-Karten auch hinsichtlich der Taktgeschwindigkeiten deutlich voneinander unterscheiden.

Eigenschaften
Tesla K40 Tesla M40 Tesla P100 Tesla V100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal) GV100 (Volta)
Streaming Multiprocessors (SM) 15 24 56 80
Texture Processor Cluster 15 24 28 40
CUDA-Kerne FP32 / SM 192 128 64 64
CUDA-Kerne FP32 / GPU 2880 3072 3584 5120
CUDA-Kerne FP64 / SM 64 4 32 32
CUDA-Kerne FP64 / GPU 960 96 1792 2560
CUDA-Kerne Tensor / SM NA NA NA 8
CUDA-Kerne Tensor / GPU NA NA NA 640
Taktfrequenz Boost 810/875 MHz 1114 MHz 1480 MHz 1455 MHz
Theoretische Rechenleistung FP32 (TFLOPS) 5,04 6,8 10,6 15
Theoretische Rechenleistung FP64 (TFLOPS) 1,68 2,1 5,3 7,5
Theoretische Rechenleistung TensorOp (TFLOPS) NA NA NA 120
Texture-Einheiten 240 192 224 320
Speicher-Interface GDDR5 384 bits GDDR5 384 bits HBM2 4096 bits HBM2 4096 bits
VRAM jusqu’à 12 Go jusqu’à 24 Go 16 Go 16 Go
L2-Cache 1536 Ko 3072 Ko 4096 Ko 6144 Ko
Shared Memory
16 Ko/32 Ko/48 Ko 96 Ko 64 Ko bis zu 96 Ko
TDP 235 W 250 W 300 W 300 W
Transistorenanzahl 7.1 milliards 8 milliards 15.3 milliards 21.1 milliards
GPU-Fläche
551 mm² 601 mm² 610 mm² 815 mm²
Strukturbreite 28 nm 28 nm 16 nm FinFET+ 12 nm FFN
Erstelle einen neuen Thread im News-Forum über dieses Thema
Dieser Thread ist für Kommentare geschlossen
2 Kommentare
Im Forum kommentieren
    Dein Kommentar
  • besterino
    Die zwei Karten haben ganz unterschiedliche Einsatzzwecke. Die großen Voltas dienen primär dem Trainieren der Netze, die kleinen der Anwendung (also vereinfacht bei Abfragen in die bereits trainierte Infrastruktur). Letzteres braucht lange nicht so viel Bumms wie ersteres, lässt sich aber trotzdem eben auch mit GPUs (angeblich um den Faktor x15 bei gleicher "Datacenter-Fläche") beschleunigen gegenüber herkömmlichen CPUs.
    0
  • R3lay
    Müsste die GPU dann nicht auf 11 GHz takten?
    0