微软自曝花数亿美元为OpenAI组装超算开发ChatGPT 使用数万个英伟达芯片

3月14日消息,美国当地时间周一,微软发文透露其斥资数亿美元帮助OpenAI组装了一台AI超级计算机,以帮助开发爆火的聊天机器人ChatGPT。这台超算使用了数万个英伟达图形芯片A100,这使得OpenAI能够训练越来越强大的AI模型。

OpenAI试图训练越来越大的AI模型,这些模型正在吸收更多的数据,学习越来越多的参数,这些参数是AI系统通过训练和再培训找出的变量。这意味着,OpenAI需要很长时间才能获得强大的云计算服务支持。

为应对这一挑战,当微软于2019年向OpenAI投资10亿美元时,该公司同意为这家AI研究初创公司组装一台巨大的尖端超级计算机。但问题在于,微软没有任何OpenAI所需的东西,也不完全确定其能否能在不破坏Azure云服务的情况下构建如此庞大的设备。

为此,微软不得不想方设法将英伟达的数万个A100图形芯片连接起来,并改变服务器在机架上的放置方式以防止断电。A100图形芯片是培训AI模型的主力。微软负责云计算和AI业务的执行副总裁斯科特·格思里(Scott Guthrie)没有透露该项目的具体成本,但其暗示可能达数亿美元。

微软Azure AI基础设施总经理尼迪·卡佩尔(Nidhi Cappell)说:“我们构建了一个系统构架,它可以在非常大的范围内运行且十分可靠,这是ChatGPT成功的重要原因。这只是我们从中得出的一个模式,还会有许许多多其他的模型。”

基于这项技术,OpenAI发布了爆火的聊天机器人ChatGPT。在去年11月上线后几天,它就吸引了100多万用户,现在正被纳入其他公司的商业模式。随着企业和消费者对ChatGPT等生成式人工智能(AIGC)工具的兴趣越来越大,微软、亚马逊谷歌等云服务提供商将面临更大的压力,以确保他们的数据中心能够提供所需的巨大算力。

与此同时,微软现在也开始使用它为OpenAI构建的基础设施来训练和运行自己的大型AI模型,包括上个月推出的新必应搜索聊天机器人。该公司还向其他客户销售该系统。这家软件巨头已经在研发下一代AI超级计算机,这是微软与OpenAI扩大合作的一部分,微软在交易中增加了100亿美元投资。

格思里在接受采访时说:“我们并没有为OpenAI定制任何东西,尽管其最初是定制的,但我们总是以一种泛化的方式构建它,这样任何想要训练大型语言模型的人都可以利用同样的改进技术。这真的帮助我们在更广泛的范围内成为更好的AI智能云。”

训练规模庞大的AI模型需要在某个地方有大量相互连接的图形处理单元,就像微软组装的AI超级计算机那样。一旦模型投入使用,回答用户查询的所有问题(这个过程称为推理)需要略有不同的设置。为此,微软还部署了用于推理的图形芯片,但这些处理器(成千上万个)在地理上分散在该公司60多个数据中心里。微软表示,现在该公司正在添加用于AI工作负载的最新英伟达图形芯片H100以及最新版Infiniband网络技术,以更快地共享数据。

新的必应仍处于测试阶段,微软正在逐步从申请测试名单中增加更多用户。格思里的团队与大约20多名员工每天都要举行会议,他将这些员工称为“pit crew”,原指赛车中车队后勤维护组的技师。这些人的工作是找出如何让更多的计算能力快速上线,以及解决突然出现的问题。

云服务依赖于数千个不同的部件,包括服务器、管道、建筑物的混凝土、不同的金属和矿物,而任何一个组件的延迟或短缺,无论多么微小,都可能导致整个项目中断。最近,“pit crew”团队不得不帮助解决电缆托盘短缺的问题,这是一种篮状的装置,用来固定从机器上顺下来的电缆。因此,他们设计了一种新的电缆桥架。格思里说,他们还致力于研究如何在世界各地的现有数据中心压榨尽可能多的服务器,这样他们就不必等待新的建筑竣工。

当OpenAI或微软开始训练大型AI模型时,这项工作需要一次完成。工作被分配给所有的GPU,在某些时候,这些GPU需要相互交流来分享他们所做的工作。对于AI超级计算机,微软必须确保处理所有芯片之间通信的网络设备能够处理这种负载,并且它必须开发出最大限度地利用GPU和网络设备的软件。该公司现在已经开发出一种软件,可以用来训练数十万亿个参数的AI模型。

因为所有机器都是同时启动的,微软不得不考虑安放它们的位置,以及电源该应该放在哪里。否则,数据中心最终可能会断电。Azure全球基础设施总监阿利斯泰尔·斯皮尔斯(Alistair Speirs)说,微软还必须确保能够冷却所有这些机器和芯片,该公司在较凉爽的气候中使用蒸发;冷却方式、在较冷的气候中使用室外空气,在炎热的气候中使用高科技沼泽冷却器。

格思里说,微软将继续致力于定制服务器和芯片设计,以及优化供应链的方法,以尽可能地提高速度、提高效率和节省成本。他说:“现在令世界惊叹的AI模型是基于我们几年前开始建造的超级计算机构建的,而新模型将使用我们现在正在训练的新超级计算机。这台计算机要大得多,可以实现更复杂的技术。”

微软已经在努力使Azure的AI功能更加强大,推出了新的虚拟机,使用英伟达的H100和A100 Tensor Core GPU,以及Quantum-2 InfiniBand网络。微软表示,这将允许OpenAI和其他依赖Azure的公司训练更大、更复杂的AI模型。

微软Azure AI企业副总裁埃里克·博伊德(Eric Boyd)在一份声明中说:“我们发现,我们需要构建专门的集群,专注于支持大量的培训工作,而OpenAI就是早期的证据之一。我们正与他们密切合作,了解他们在建立训练环境时需要的关键条件,以及他们需要的其他东西。”

相关阅读