AMD發布Radeon Instinct MI 60計算卡:7nm Vega架構、7.4TFLOPS

2018-11-7 09:15  |  作者:梁俊豪   |  關鍵字:AMD,7nm,Radeon Instinct MI 60,vega

昨晚AMD果然舉行了Next Horizon”大會,主題當然就是7nm產品,除了7nm Zen 2內核處理器外,少不了7 nm顯卡,首發產品卻是面向計算領域的Radeon Instinct計算卡——Radeon Instinct MI 60、Radeon Instinct MI 50。

本文約600字,需1分鐘閱讀

昨晚AMD果然舉行了Next Horizon”大會,主題當然就是7nm產品,除了7nm Zen 2內核處理器外,少不了7 nm顯卡,首發產品卻是面向計算領域的Radeon Instinct計算卡——Radeon Instinct MI 60、Radeon Instinct MI 50。

Radeon Instinct MI 60/50依舊是基于Vega架構演進而來,7nm工藝加持下,晶體管密度增加一倍,在331mm2的核心面積中集成了132億晶體管,作為參考14nm Vega核心核心面積484mm2晶體管數量卻為125億,進步相當明顯。

新工藝還帶了額外的“紅利”,在相同功耗情況下,性能提升25%;同樣頻率下,功耗下降50%,7nm工藝真的足夠誘惑,畢竟解決了很多AMD顯卡以往積累下來的問題。

AMD還很喜歡講Vega是一個高度靈活的高性能架構,不過這一次7nm Vega核心架構似乎更加偏向于專業方面,擁有目前世界上最快的FP64/FP32 浮點性能、HBM 2顯存、顯存ECC糾錯功能、唯一的硬件虛擬化,適用于機器學習訓練。

這一次AMD給Radeon Instinct計算卡配備了32GB HBM2顯存,使得顯存帶寬突破了1TB/s大關,并支持ECC糾錯技術,這些都意味著專門應用于計算領域,游戲領域可用不上這么夸張的顯存容量、帶寬。

我們目前顯卡均采用PCI-E 3.0接口,而7nm Vega架構率先完成了對PCI-E 4.0的適配支持,配合AMD專有的Infinity Fabric總線,支持四張Radeon Instinct計算卡同時并行運算,具備極佳的擴展性,而且這種架構下,顯卡性能得到最大提升,雙卡幾乎是100%提升。

目前Radeon Instinct MI 60、Radeon Instinct MI 50的具體規格依然是保密的,不過AMD也提供了一些性能參考數據,Radeon Instinct MI 60雙精度性能為7.4 TFLOPS,單精度翻倍至14.7 TFLOPS,整數性能118 TLOPS。這個數值與NVIDIA的Tesla V100顯卡單精度浮點15 TFLOPS,雙精度浮點7.5 TFLOPS相近。

Radeon Instinct MI 50具體規格、性能將會稍后公布,兩張7nm Radeon Instinct顯卡均會在今年出貨,而7nm游戲顯卡將會在明年與大家見面,至于是Vega架構還是Navi架構,大家猜一猜?


?
  • NightView研究生 2018-11-10 01:14

    快報快報!
    AMD在MI60的PPT當中沒有對N卡進行正確配置,得到的結果有誤:
    wccftech.com/amd-radeon-mi60-resnet-benchmarks-v100-tensor-not-used/?tdsourcetag=s_pcqq_aiomsg
    在正確設置后,PCIe的Tesla V100深度學習RESNET-50性能達到了MI60的3.7倍!就連70W TDP的Tesla T4都比300W TDP的MI60更強,真是笑死人啦

    支持(0)  |   反對(0)  |   舉報  |   回復

    19#

  • NightView研究生 2018-11-08 19:18

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    已經隱藏6層評論[點擊展開]

    超能康猩猩 研究生 :

    GV100也是7.4T,說最快依然沒毛病
    2018-11-08 19:02 已有7次舉報
  • 支持(0)  |   反對(7)  |   舉報  |   回復
  • 你這是小數點精度不夠看著一樣而已
    然而真正更精確的指標是:
    Quadro GV100 FP32是14.807TFlops,FP64是7.40352TFlops
    MI60 FP32是14.7456TFlops,FP64是7.3728TFlops
    MI60的那7.4TFlops不過是四舍五入近似,根本沒真正達到,而Quadro GV100才是真正達到了7.4TFlops的。

    況且別忘記Quadro GV100是有boost的,boost頻率1628MHz
    Quadro GV100在boost后的真實性能是FP32:16.671TFlops,FP64:8.335TFlops

    支持(2)  |   反對(0)  |   舉報  |   回復

    18#

  • 超能康猩猩研究生 2018-11-08 19:02

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    已經隱藏5層評論[點擊展開]

    NightView 研究生 :

    當Quadro GV100不存在是么?還是說Quadro GV100接口不是PCIE呢?
    2018-11-08 18:50
  • 支持(4)  |   反對(1)  |   舉報  |   回復
  • GV100也是7.4T,說最快依然沒毛病

    已有7次舉報

    支持(0)  |   反對(7)  |   舉報  |   回復

    17#

  • NightView研究生 2018-11-08 18:50

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    已經隱藏4層評論[點擊展開]

    超能康猩猩 研究生 :

    pcie接口的v100性能只有7T,NVlink的才能達到7.8T
    2018-11-08 18:45 已有7次舉報
  • 支持(0)  |   反對(7)  |   舉報  |   回復
  • 當Quadro GV100不存在是么?還是說Quadro GV100接口不是PCIE呢?

    支持(4)  |   反對(1)  |   舉報  |   回復

    16#

  • 超能康猩猩研究生 2018-11-08 18:45

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    已經隱藏3層評論[點擊展開]

    NightView 研究生 :

    Tesla V100難道不是插PCIe插槽上用的?難道不是pcie capable?
    2018-11-08 18:32
  • 支持(3)  |   反對(0)  |   舉報  |   回復
  • pcie接口的v100性能只有7T,NVlink的才能達到7.8T

    已有7次舉報

    支持(0)  |   反對(7)  |   舉報  |   回復

    15#

  • NightView研究生 2018-11-08 18:32

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    人家只說是第一個7nmGPU,什么時候說是最快了?
    2018-11-07 21:24 已有11次舉報
  • 支持(1)  |   反對(12)  |   舉報  |   回復
  • NightView 研究生 :

    第三張圖的最左面那堆文字,你看不懂英文么?還是眼睛不好?
    2018-11-07 22:07
  • 支持(5)  |   反對(0)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    pcie capable gpu?
    2018-11-08 18:23 已有6次舉報
  • 支持(0)  |   反對(6)  |   舉報  |   回復
  • Tesla V100難道不是插PCIe插槽上用的?難道不是pcie capable?

    支持(3)  |   反對(0)  |   舉報  |   回復

    14#

  • 超能康猩猩研究生 2018-11-08 18:23

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    人家只說是第一個7nmGPU,什么時候說是最快了?
    2018-11-07 21:24 已有11次舉報
  • 支持(1)  |   反對(12)  |   舉報  |   回復
  • NightView 研究生 :

    第三張圖的最左面那堆文字,你看不懂英文么?還是眼睛不好?
    2018-11-07 22:07
  • 支持(5)  |   反對(0)  |   舉報  |   回復
  • pcie capable gpu?

    已有6次舉報

    支持(0)  |   反對(6)  |   舉報  |   回復

    13#

  • NightView研究生 2018-11-08 00:45

    游客:

    同功耗提升25%,所謂7nm也救不了GCN
    2018-11-07 17:39
  • 支持(1)  |   反對(2)  |   舉報  |   回復
  • 游客 教授 :

    同樣頻率下,功耗下降50%
    2018-11-07 23:21 已有4次舉報
  • 支持(0)  |   反對(4)  |   舉報  |   回復
  • MI25功耗300W,頻率1500MHz,12.288TFlops的單浮點
    也就是說, MI60在300W功耗情況下,擁有12.288*1.25=15.36TFlops單精度浮點,計算下來是1875MHz頻率
    因為默認單精度浮點是14.7TFlops所以計算下來大概1800MHz頻率

    根據同頻率下功耗低50%,所以MI60在1500MHz的時候只有150W功率,增加375MHz后,功耗翻倍到300W,你認為這樣可能性大么?a
    所以這個“同頻率”很有可能是同為1200MHz甚至1000MHz的時候,多半不是1500MHz下,這功耗低得有意義么?

    支持(0)  |   反對(1)  |   舉報  |   回復

    12#

  • 游客教授 2018-11-07 23:21

    游客:

    同功耗提升25%,所謂7nm也救不了GCN
    2018-11-07 17:39
  • 支持(1)  |   反對(2)  |   舉報  |   回復
  • 同樣頻率下,功耗下降50%

    已有4次舉報

    支持(0)  |   反對(4)  |   舉報  |   回復

    11#

  • NightView研究生 2018-11-07 22:07

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 超能康猩猩 研究生 :

    人家只說是第一個7nmGPU,什么時候說是最快了?
    2018-11-07 21:24 已有11次舉報
  • 支持(1)  |   反對(12)  |   舉報  |   回復
  • 第三張圖的最左面那堆文字,你看不懂英文么?還是眼睛不好?

    支持(5)  |   反對(0)  |   舉報  |   回復

    10#

  • 超能康猩猩研究生 2018-11-07 21:24

    NightView 研究生 :

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快
    2018-11-07 13:14 已有4次舉報
  • 支持(12)  |   反對(4)  |   舉報  |   回復
  • 人家只說是第一個7nmGPU,什么時候說是最快了?

    已有11次舉報

    支持(1)  |   反對(12)  |   舉報  |   回復

    9#

  • 游客  2018-11-07 17:39

    同功耗提升25%,所謂7nm也救不了GCN

    支持(1)  |   反對(2)  |   舉報  |   回復

    8#

  • 游客  2018-11-07 15:53

    專注挖礦幾十年

    支持(0)  |   反對(0)  |   舉報  |   回復

    7#

  • NightView研究生 2018-11-07 13:35

    INT整數性能都只有118TLOPS,然而Tesla V100的FP16都能有120TFLOPS了。
    至于RTX8000的INT4整數性能則達到了500多TLOPS...

    支持(2)  |   反對(0)  |   舉報  |   回復

    6#

  • 游客  2018-11-07 13:24

    一般說到TFLOPS都會用FP32性能來指代,這里牛逼,直接用FP64了,不知道的還以為AMD這一代性能只有上代一半呢

    支持(1)  |   反對(1)  |   舉報  |   回復

    5#

  • NightView研究生 2018-11-07 13:14

    AMD果然夠不要臉的,單雙精度性能明明都不如Tesla V100,結果還好意思宣稱是全世界最快

    已有4次舉報

    支持(12)  |   反對(4)  |   舉報  |   回復

    4#

  • 游客  2018-11-07 12:57

    amd加油,618買的1070ti剛送去返修,nv真的爛。

    已有7次舉報

    支持(4)  |   反對(7)  |   舉報  |   回復

    3#

  • liyun_1981博士 2018-11-07 12:14

    按摩店早就應該刺激下英偉達了

    已有6次舉報

    支持(2)  |   反對(7)  |   舉報  |   回復

    2#

  • 游客  2018-11-07 12:10

    AMD加油就行了

    支持(3)  |   反對(1)  |   舉報  |   回復

    1#

查看全部評論(19)

回復