第二代IPU性能超级GPU 专注于未来数据中心的AI训练和推理部署

发布于：2020-12-29 被浏览：3527次

“无论是现在的GPU能做什么，还是不能做什么，IPU都有它的价值点和价值取向。”近日，在英国一家AI芯片初创公司Graphcore在中国的媒体发布会上，Graphcore在中国的高级副总经理兼总经理陆涛，以及Graphcore在中国的总工程师、AI算法科学家陈进，与DeepTech等媒体同步报道了Graphcore的新产品性能以及公司在中国的落地策略。

在沟通会上，Graphcore对本月发布的其大规模系统级产品IPU-M2000的应用测试数据进行了解读。已发表的数据表明，在自然语言处理模型中，如典型的CV模型ResNet、基于包卷积的ResNeXt、高效网、语音模型、BERT-Large和传统的机器学习模型如MCMC，IPU-M2000在吞吐量、训练时间和学习结果生成时间方面表现良好。例如，IPU M 2000上的高效网吞吐量是A100的18倍。

图| IPU M2000和图形处理器之间的吞吐量、训练和结果生成时间的比较(来源：Graphcore)

IPU m 2000和Graphcore的第二代IPU处理器GC200于今年7月15日发布。据报道，GC200芯片是基于TSMC的7纳米工艺制造的，集成了250片AI-Float计算能力和900MB处理器内存，比第一代产品高8倍。至于第三代IPU，陆涛在这次沟通会上没有透露具体的发布时间表，但他表示，下一代产品正在开发中，仍将重点解决存储问题。

支持 PyTorch、TensorFlow，在 IPU 与 GPU 间无缝衔接

此外，Graphcore还发布了1.4版的白杨SDK和IPU版的PyTorch。

Graphcore从易用性和速度上优化了白杨SDK 1.4版，可以支持模型和数据并行，可以实现模型从1 IPU横向扩展到64 IPU。陈进说，下一个版本的白杨SDK预计将横向扩展到128个IPUs。

值得注意的是，白杨SDK 1.4除了Graphcore的自开发框架PopART外，还支持Facebook的PyTorch框架和Google的TensorFlow框架。

据陈进介绍，Graphcore在PyTorch代码中引入了PopTorch轻量级接口。通过这个接口，用户可以基于当前的PyTorch模型进行打包，实现IPU和中央处理器之间的无障碍连接。

至于实现这一功能的核心技术，陈进进一步解释了Graphcore在PyTorch中使用jit.trace机制编译计算图，然后转换成与IPU和PyTorch兼容的表达式格式。最后，逆向图由Graphcore自行开发的框架PopART后端的audiff函数自动生成，可以实现同一模型在不同平台上无差别操作。

目前，PyTorch以其直观、灵活、易用的优势受到开发者的广泛喜爱和应用。白杨SDK 1.4增加了对PyTorch的支持，战略上希望用户可以在IPU体验PyTorch，让用户多一个切换到IPU的理由。但英伟达的GPU目前已经占据了大部分AI计算市场，IPU能提供的价值以及过渡到IPU的成本都是用户应该考虑的问题。

在迁移成本方面，陆涛表示，经过多年对白杨SDK的打磨，将软件和硬件从GPU迁移到IPU的难度要小得多。

金维补充说，在训练中，对于不太复杂的模型，一般一周就可以迁移，对于复杂的模型，大概需要两周时间；推理上，基本是1-2天的工作。

在谈到性能时，陆涛说：“IPU在训练推理、语音和图像模型处理方面基本上超过了GPU但他也坦言：“不能说100%超越GPU，因为算法模型确实很多。比如语音有不同的语音模型，图像有不同的图像模型。”

未来：持续优化性能，进一步压缩迁移成本

IPU在机器学习性能方面的明显优势是不可否认的。但是，过去有一个强大而勤奋的巨头英伟达，Graphcore一刻也不能懈怠。陆涛在沟通会上也多次提到“目前Graphcore面临的压力主要来自英伟达”。

在压力下，Graphcore的短期计划是专注于数据中心高性能培训和推理市场，不断完善IPU和软件平台，不断优化性能和提高可用性。陆涛说，“只有在我们关注的领域跑得更快，Graphcore和NVIDIA之间的距离才会越来越短，甚至在某些领域超过NVIDIA”。

他还表示，Graphcore希望在未来几年内，在人工智能培训、推理批量部署、交付和数据中心数量方面，取得除NVIDIA之外的另一个负责人职位。

为了实现这个目标，Graphcore还将从增加AI框架支持和模型覆盖开始，以进一步降低用户的迁移成本。此外，除了目前AI应用最广泛的互联网和云计算场景外，陆涛表示，公司明年将在金融、汽车、智能医疗、智能教育、智能城市、政府服务等领域至少突破一两个主流领域。

标签：模型英伟表示