AI、5G、云计算技术的发展已经开始改变世界,数据中心作为承载这些技术,支撑数字化转型的重要载体,面临着众多挑战。这其中,已有的通用 CPU 和 GPU 不能完全满足快速变化的应用需求,性能更强大,更加专用,更加异构的芯片更能满足数据中心需求。
芯片巨头们都看到了这样的需求和趋势,通过收购或者自研拥有了更全面的芯片类型。我们此前介绍过,在数据中心占有优势的英伟达先是在去年十月发布了首代 DPU Blue Field-2。今年 4 月,英伟达首席执行官黄仁勋在 GTC 21 上又宣布英伟达数据中心芯片战略升级为 GPU+CPU+DPU,三类芯片,逐年飞跃,自研 Arm 架构 CPU Grace 也同时亮相。
DPU(Data Processing Unit)作为一个不被大部分人所熟知的芯片类型,其价值是什么?为什么 DPU 能在数据中心“上位”?数据中心的未来为什么是 3U 一体?
DPU 的双重价值了解 DPU 的价值之前,先解释为什么需要 DPU。黄仁勋此前发布 DPU 时表示,当下的数据中心是由软件定义的,这使得数据中心更加灵活的同时,也产生了巨大的负担,数据中心基础架构的运行能够消耗 20%-30% 的 CPU 核,因此需要一种新的处理器,也就是 DPU。
或者说,以 CPU 为中心的数据中心架构已经不能满足需求,以数据为中心才能更好满足市场和应用需求。英伟达网络事业部亚太区市场开发高级总监宋庆春在本周的一场沟通会中表示:“以前计算规模和数据量没那么大,冯诺依曼架构很好地解决了提高计算性能的问题,随着数据量越来越大,以及 AI 技术的发展,传统的计算模型会造成网络拥塞,继续提升数据中心的性能面临挑战。”
以数据为中心的架构,意味着数据在哪计算就在哪。宋庆春指出,以数据为中心的新架构可以解决网络传输中的瓶颈问题或丢包问题,典型通信延时可以从 30-40 微秒降低到 3-4 微秒,有 10 倍的性能提升。
更具体地说,英伟达 DPU 属于 SoC,集三个关键要素于一身:
- 行业标准的、最高性能及软件可编程的多核 CPU,通常基于广泛的 Arm 架构,与其 SoC 组件密切配合;
- 高性能网络接口,能以线速或网络中的可用速度解析、处理数据,并高效地将数据传输到 GPU 和 CPU。
- 各种灵活和可编程的加速引擎,可以卸载 AI、机器学习、安全、电信和存储等应用,并提升性能。
也就是说,DPU 能针对安全、网络、存储、AI、HPC 等业务进行加速,这是 DPU 的第一层价值。而 DPU 的第二层价值在于为以数据为中心的计算架构提供了创新的思路,能够实现以前难以或无法实现的功能。
以前的数据中心所有操作都由 CPU 完成,不仅需要很多 CPU 内核,效率也很低。如果将一些操作,比如 OVS(Open vSwitch,是分布式虚拟多层交换机的开源实现)卸载到 DPU 上运行,不仅可以提升效率,减少 CPU 的利用率,还能实现业务的隔离。
宋庆春举了两个例子,在云场景下,英伟达和 VMWare 共同开发了 Monterey 项目,VMWare 把它在 Hypervisor 里的一些功能卸载到 DPU 上,比如防火墙、存储、管理等,这样把业务和基础设施操作完全隔离,实现了高安全性,也实现了裸金属的业务性能。
“这是 VMWare 第一次把他的源代码开放给合作伙伴,共同开发基于 VMWare 企业级的云解决方案。”宋庆春强调。
另一个例子是英伟达与 RedHat 的合作。RedHat 不管在数据中心运行容器还是虚拟化,即便使用所有的 CPU 核来运行虚拟化或容器,也没有办法达到 100G 线速。这时,采用 DPU 运行 Hypervisor、OVS 或容器操作,可以在不消耗任何 CPU 的情况下以实现 100G 甚至 200G 全线速,并将 CPU 资源全部提供给业务。