关于GPU服务器算力与耗电测算问题说明

一、关于算力分类

从计算类型来看,算力主要分为整型和浮点计算。整型计算适用于深度学习模型的推理运算;半精度计算适用于深度学习模型的训练运算;单精度计算多用于图形应用程序、图像处理和机器学习等;双精度浮点运算主要用于超算领域。这里的分类维度和通用算力、智能算力、超算算力不是一一对应的关系。一般来说,通用算力主要用来处理整型和半精度计算;智算算力更合适进行单精度计算;超算算力特别擅长双精度计算。各类算力中心重点处理的数据类型如下表所示:

221209101757192138.png

二、关于算力测算

2.png

具体详见英伟达官方网站:

https://www.nvidia.com/en-us/data-center/h100/

H100是第四代tensor core,依据英伟达官方网站H100产品截图算力参数如下:

  1. TF32 Tensor Core 单精度总算力是989TFLOP/s。
  2. FP16 Tensor Core 半精度总算力是1979TFLOP/s。

而一台英伟达H100 GPU服务器有8张H100 GPU卡,则该单台H100 GPU服务器总算力如下:

  1. 单精度浮点运算总算力为7912 TFLOP/s,合计7.912 PFLOP/s;
  2. 半精度浮点运算总算力为15832 TFLOP/s,合计15.832 PFLOP/s;

综上所述, 按照256台英伟达H100/H800 GPU服务器,总算力如下:

  1. 半精度浮点运算总算力为4052.992 PFLOP/s(适用于AI大模型训练运算)
  2. 单精度浮点运算总算力为2025.472 PFLOP/s (多用于图形应用程序、图像处理和机器学习等)

三、关于耗电

(一)英伟达原厂 H800 GPU服务器:

3.png

以上为英伟达原厂GPU服务器的产品配置清单,单台服务器配置6块3000W的电源,采取4+2机制,其中2块为备用电源。单服务器电源为12KW,即该GPU服务器最高耗电为12KW。

(二)超微 H100 GPU服务器:

4.png

超微 H100 SuperServer SYS-821GE-TNHR 官方网站:

https://www.supermicro.org.cn/zh_cn/products/system/gpu/8u/sys-821ge-tnhr

(三)中国电信等国内主流算力中心部署GPU服务器机制:

一台超微H800/H100 或英伟达原厂 H800/H100 GPU服务器,部署一架12KW 机柜

柯尊平博客
请先登录后发表评论
  • 最新评论
  • 总共0条评论