ITCOW牛新网 3月12日消息,Stability AI近日公布了一项测试结果:在其文生图模型Stable Diffusion 3的测试中,英特尔的Gaudi2加速器在性能上大幅超越了英伟达的H100。据悉,Stable Diffusion 3模型的参数范围介于8亿至80亿之间,而本次测试采用的是拥有20亿参数的版本。
测试涵盖了多款顶尖加速器,包括英伟达的H100“Hopper”80GB、A100“Ampere”80GB以及英特尔的Gaudi2 96GB加速器。在保持加速器和节点数量不变的情况下,英特尔Gaudi2阵列展现出了惊人的性能。使用2个节点、16个加速器和每个加速器16个恒定批处理大小(共计256个),Gaudi2阵列每秒能够生成高达927幅图像。相比之下,H100阵列每秒生成595幅图像,而A100阵列则每秒生成381幅图像。
当节点数相同时,Gaudi2阵列的性能更是达到了惊人的每秒12654幅图像,即每台设备每秒可生成49.4幅图像。与此同时,老一代的A100“Ampere”阵列每秒仅能生成3992幅图像,每台设备每秒生成15.6幅图像。这一结果充分展示了Gaudi2加速器在图像处理方面的卓越性能。
然而,Stability AI也指出,在使用80亿参数的Stable Diffusion 3模型进行推理测试时,Gaudi2芯片的推理速度与使用基本PyTorch的Nvidia A100芯片相近。但经过TensorRT优化后,A100芯片在生成图像的速度上比Gaudi2快了40%。尽管如此,Stability AI预计经过进一步优化后,Gaudi2在该模型上的性能将很快超越A100。
此外,在Stability AI使用基本PyTorch的SDXL模型进行的早期测试中,Gaudi2在3.2秒内生成了30 steps的1024×1024图像。相比之下,A100s上的PyTorch需要3.6秒,而A100上使用TensorRT的生成速度则为2.7秒。这些数据进一步证明了Gaudi2加速器在图像处理任务中的强大潜力。