硬件资讯:想学堆核?AMD教你做人!Rome 单路64核教人数框框
架构优化加上频率提升(具体未公开),MI60相比于MI25在流处理器相同的情况下,性能提升幅度十分惊人,比如FP16浮点性能快了20%,INT8、INT4整数性能分别快了140%、380%,还有新的指令集,更适合执行机器学习应用。 假如只是进行矩阵乘法运算,MI60只会提升25%以上,但对于Resnet-50这样的特定应用,提升幅度最高可达2.8倍,非常惊人。 TensorFlow FP32提升幅度在25-50%之间,而且凭借Infinity Fabric,MI60还支持近乎线性提升的多路扩展,比如四路性能就几乎是单路的整整4倍。 Vega、EPYC现在都支持PCI-E 4.0,但是平台尚未构建完成,所以八路并行在PCI-E 3.0下性能提升会受到一定的限制,未来都换到PCI-E 4.0还有望更猛。 PCI-E 4.0,7nm Vega是第一个支持的GPU,Rome EPYC则是第一个支持的CPU,二者互相配合,双向带宽可达64GB/s,最多可以四块并行。 Infinity Fabric总线则可以在不同显卡之间提供200GB/s的带宽,是PCI-E 3.0的足足6倍,不过注意这里用了硬件桥接方式互连,目的是更方便地处理超大传输数据量。 而得益于对硬件虚拟化的支持(唯一哦),MI60/56还可以最多八块卡并行,但实现方式略有不同,每四块通过Infinity Fabric高速互联,然后两组四块卡再通过PCI-E总线互连。 假如不需要这么多卡,也可以一块、两块、四块各自组成虚拟机再并联于同一个系统内,但注意必须是完全同一型号的卡,不能混用。 MI60是个完全体,集成64个计算单元、4096个流处理器,峰值整数性能INT4 118Tops、INT8 59Tops,峰值浮点性能FP16 29.5TFlops、FP32 14.7TFlops、FP64 7.4TFlops,技术特性支持全芯片ECC错误校验、RAS、PCI-E 4.0、双链路Infinity Fabric,显存搭配4096-bit 32GB HBM2,带宽1TB/s,热设计功耗300W。 |
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.