作家丨孙溥茜
裁剪丨陈彩娴
编者按:2023 年 8 月14日,第七届 GAIR 全球东谈主工智能与机器东谈主大会在新加坡乌节大旅舍崇敬开幕。论坛由 GAIR 商酌院、雷峰网(公众号:雷峰网)、天下科技出书社、科特勒意想集团纠合主理。大会共开设 10 个主题论坛,聚焦大模子期间下的 AIGC、Infra、人命科学、讲明注解,SaaS、web3、跨境电商等畛域的变革改革。这次大会是在大模子时刻爆炸期间,国内首个出海的 AI 顶级论坛,亦然中国东谈主工智能影响力的一次跨境溢出。
在第一天的“GPT 期间的凸起孝顺者”专场上,林伟以“ PAI 灵骏智算,为改革提速”为题发表了主题演讲。林伟是阿里云商酌员、阿里云筹备平台首席架构师,亦然阿里云机器学习平台 PAI 时刻负责东谈主。
大模子期间 AI 工程建设是一个热点的话题,亦然一个具有挑战性的问题。参数目大、筹备复杂度高、需要大范畴分手式集群和高性能硬件相沿考试和推理,单拎出哪少许对于 AI 工程师来说都是一项高大的时刻挑战。林伟觉得,跟着快速变化的外界环境,怎么快速考试模子,成为了模子开发的重中之重。
在演讲中,林伟先容了阿里云 PAI 灵骏智算平台的基础架构,并从中枢竞争力、平台中枢基础设施建设、考试推理加快、编译时刻、数据加快、RLHF 框架、平台才和解社区建设等方面,系统呈文了阿里云在 AI 工程化方面的责任进展。
以下为林伟的演讲实质,雷峰网作了不改变情愿的裁剪及整理:
全球好,接待来到第七届 GAIR 全球东谈主工智能与机器东谈主大会,我是林伟,当今是阿里云机器学习平台 PAI 的时刻负责东谈主,今天我带来的共享主题是“ PAI 灵骏智算,为改革提速”。本年是 AI 大模子冲突的一年,ChatGPT 让东谈主们看到大模子的智能后劲,也激动了总计这个词行业进入到了大模子期间。
可是考试大模子并不毛糙,跟着模子大小呈指数级增多,怎么大致快速考试模子成为模子开发的重中之重。惟有通过不断地考试、反馈,以更快速率迭代,才能产生更好的模子。
咱们觉得,AI 的工程化和范畴化是这一轮 AI 爆发的主要推能源。那么怎么灵验管理这些特别腾贵的超算中心,充分利用好洪水横流张 GPU 算力,让算法工程师毋庸或者少记挂系统问题,把元气心灵更多地干预在模子构造和考试上,是咱们正在关心的事情。
阿里云基于往日在大言语模子建设上的陶冶,推出了 PAI 灵骏智算平台,旨在提供大范畴的深度考试才调,匡助用户更好地管理算力,在筹备、AI of Science,以及生成式 AI 的各个处所去孝顺我方的力量。今天我将主要先容阿里云在大模子环境里下,相关架构的一些念念考。
01
AI 工程化的稠密挑战
AI工程濒临稠密挑战,其中要紧挑战之一是芯片的快速迭代。平均每半年迭代一次的芯片,导致咱们的筹备集群呈现异构情状。在这种情况下,咱们要念念考怎么通过调动才和解框架协同合作,将合乎的任务分手到合乎的资源上,并充分计议蚁合拓扑。在超大范畴模子考试中,蚁合通讯是要津成分,因此合理的蚁合拓扑安排是确保分手式考试加快比的要津所在。
同期,咱们也需要在调动中幸免浪费资源,减少碎屑化,以适合大模子考试的需要。在这种范畴下,硬件性能照旧被推终点限。大型模子的考试时时需要上千张 GPU 卡,而且在这种情况下,硬件诞妄、蚁合拥塞以过火他不能展望成分可能导致考试中断或诞妄。
因此,PAI 灵骏神敢于于为模子开发者提供匡助,使其无需过多关心这些问题,大致自动进行容错和建筑。此外,还有一个进军成分是筹备才调。鉴于咱们的模子需要处理海量数据,怎么确保筹备才调不受数据传输恭候的影响,从而灵验供给考试过程,成为一项要津任务。
同期,分手式任务的管理也颇具复杂性,时常情况下,算法专科的同仁较难灵验地优化和分手式化任务,已毕有储、蚁合传输和调动等各个方法的平衡分拨。咱们需要系统深入贯穿,以便在硬件资源的充分利用下,已毕这些畛域的平衡切割,从而惩处系统瓶颈问题,为算法迭代提供坚实相沿。因此,咱们的AI平台需要具备更大范围的系统贯穿才调,以最猛进度地平衡位于筹备中心的资源,从而惩处系统瓶颈问题,为算法的迭代提供有劲保险。
02
AI 考试提效之阿里版惩处有盘算
这张图展现了 PAI 灵骏智算平台的举座框架。最底层是阿里云的数据中心,为大数据和AI筹备创造了精粹的环境。在数据中心里面,领有海量的云做事器,并配备了高速的 RDMA 蚁合和高性能存储开采。
在此基础上,咱们构建了机器学习 PAI 平台,它将通讯、 I/O、 蚁合、各式芯片和照旧深度优化的深度学习框架有机地结合在一齐,使得算力大致高效地为表层平台和算法工程师做事,让他们大致快速灵验地构建深度学习模子。
在平台上,咱们还提供了模子即做事(Model as a Service)的理念,集成 ModelScope、HuggingFace 等优秀的模子库,让 AI 应用开发工程师可以在平台上构建各式意道理味意道理味的 AI 应用。
从 ChatGPT 降生后,就速即显现了许多 AI 应用,这也响应了一个优质的模子库和模子社区对于行业发展的进军性。咱们特别接待学术界和产业界的同业一齐加入咱们的模子社区,为时刻跨越孝顺力量。
PAI灵骏智算平台在工程上具有以下几个本性。
领先,竖立了高带宽低延时的分手式 RDMA 蚁合,它是谀媚各个筹备节点的要津。咱们的理念是,在IB除外,咱们还构建了基于以太网的 RoCE RDMA 蚁合。这么,才能在云上提供优质的 AI 筹备平台做事,咱们可以将存储等云做事和AI筹备很好地结合起来,为用户提供数据治理、管理和筹备等一体化的做事。
在以太网上,咱们濒临着更大的挑战,比如怎么惩处蚁合拥塞、通讯流不平衡问题。通过自建高性能蚁合和通讯库来惩处这些问题,使得加快比大致保捏在 90% 以上。淌若使用庸俗的 TCP 蚁合,加快比会大幅着落。
其次,在深度学习框架方面,咱们关心于引擎的后端优化,额外是在大模子期间,让算法工程师编写分手式考试代码口角常远程的,更毋庸说跑得好。通过自研的编译优化和自动分手式加快引擎,自动地切割模子和生成实行谋划,使得咱们大致很好地平衡各个节点上的 I/O、蚁合和筹备资源,已毕高效的分手式考试。在推理阶段,也可以利用编译时刻,并结合模子压缩和量化时刻,来适配各式各样的做事结尾,从而以更经济的阵势提供推理做事。
临了,在模子坐褥方面,PAI 灵骏提供了从数据准备、清洗到模子结构开发考试,再到模子部署的总计这个词开发过程。在平台之上,咱们还构建了模子即做事(Model as a Service)的理念,与行业内的同业一齐建设模子社区,期待以模子社区引发更多的 AI 应用开发工程师进行改革和创造,构建丰富各样的 AI 应用。
不绝伸开来说,咱们的筹备平台在基础设施方面,竖立了 3.2T 的高速 RDMA 蚁合,相沿上万个节点的蔓延才调,甩手延长在 1.5μs以内。咱们利用多旅途感知的通讯库,幸免集群内蚁合拥塞问题,已毕了高性能的通讯。同期,咱们也作念了自动的故障会诊和通讯管理,保证了蚁合的可用性。咱们照旧将这个蚁合集成到大数据存储和筹备系统中,相沿 AI 的科学筹备、智能筹备和大模子筹备等场景。
在系统层面,咱们也作念了好多责任来充分阐发硬件的潜能。在分手式方面,咱们针对 PyTorch 推出了 TorchAccelerator 库,针对 TensorFlow 推出了 EPL 库。计议到分手式考试的本性,咱们提倡了 AI Master 框架,来加强分手式环境中的调动和甩手,已毕弹性考试和跨高阶worker的优化。举例,通过自动容错的弹性考试,可以进行考试中节点个数的扩缩容,使得咱们的分手式实行愈加鲁棒。
同期,咱们也聚焦于编译时刻,这是优化的中枢。咱们通过编译过程系统地贯穿大模子筹备的过程,让系统自动化地进行优化,聘请分手式优化战略。
在推理场景中,咱们诳骗搀杂精度、模子压缩量化等时刻,并结合咱们的 PAI-Blade 器具,使得用户可以以一种透明、毛糙的阵势使用咱们的自动化优化才调。
计议到云上的数据问题,咱们依托于以太网上的 RDMA 蚁合,将咱们的PAI灵骏智算平台与阿里云的其他居品做事有机地结合起来。用户可以将数据放在 OSS、MaxCompute 等丰富的云居品中,并通过专科的数据管理系统或湖仓系统来管理数据。在考试时,咱们需要快速地将数据供给筹备节点,使得模子大致快速拘谨。
这就带来了一个挑战:数据存在于远端的湖仓系统中,而考试算力集群又是一个高性能的智算中心。怎么提高数据供给成果,并让AI 考试和推理变得更快、更易用、更康健?
具体来说,咱们的编译时刻愈加聚焦于后端的实行框架。在前端,无论是 TensorFlow 照旧 PyTorch,咱们都会将 Python 举止转译成中间言语 IR。对于 TensorFlow 的静态图,这个过程会更容易。对于 PyTorch,咱们也可以通过一些方法和料理,将前端的模子抒发转成 IR 的实行图。然后,咱们再通事后端系统的分手式战略聘请和腹地代码生成,结合起来,酿成最终高效的分手式实行谋划。
咱们这种阵势可以很方便地对接各式构建深度学习的框架。咱们觉得,系统优化更应该聚焦于后端,因为前端是一个生态,无论开发工程师用什么样的器具构建模子,咱们都大致通过咱们后端的时刻相沿他们。当今行业里的趋势亦然如斯,全球在共同建设通常于 MLIR 这么的框架,并将更多的系统化优化放在后端生态系统上。可以看到,通过咱们的时刻,咱们大致普适性地提高模子的性能,在考试上可以有可以的性能普及。
在推理方面,咱们也将咱们的优化时刻结合在 PAI-Blade 器具中,已毕了很好的成果普及。除了系统优化,咱们还可以通过对模子的贯穿进行一些有损的优化,如模子量化和压缩,结合弹性资源,提供更高性价比的推理做事。额外是在大模子期间,推理做事的资本省俭是推论模子应用的要津。但愿以更普惠的阵势将大模子的才调推给最终虚耗者。
在数据仓库的环境中,咱们依托于以太网上的 RDMA 蚁合,是以可以很好地和云居品进行有机结合。可是,怎么平衡远端的数据仓库和近端的智算中心之间的管理和性能?咱们是通过 DataSetAccelerator 居品,在智算中心里面,竖立一个缓存层,将远端的数据以异步的阵势拉到腹地的缓存中,从而灵验地称心筹备的需求。
针对大模子期间的强化学习需求,咱们对RLHF 的过程进行了灵验的相沿。咱们提倡了一个相沿千亿模子参数的 RLHF 框架,让工程师大致更方便地构建复杂的强化学习过程,从而灵验地相沿模子的迭代更新。
在居品层面,咱们提供了一个端到端的模子开发全过程。从数据标注到交互式建模,从大范畴考试的集群管理到任务提交,从在线做事的部署到模子钞票的管理,咱们都提供了丰富的资源视角和任务视角,让用户可以灵验地管理数据集、镜像、代码、模子和任务。咱们解任了 PaaS 层的居品理念,总计的功能都有完善的 open API,让用户可以字据我方的需求,构建我方的平台和交互阵势,并将咱们的才调集成进去。
除了工程和平台层面,阿里云也在激动模子即做事(Model as a Service)的模子社区建设,而且毫无保留地怒放了这些年累积的模子。通过 ModelScope 魔搭社区,咱们让 AI 开发变得更毛糙,让 AI 应用愈加百花皆放,让更多的开发者加入到 AI 开发中,使得 AI 模子和应用大致更好地浸透到各个行业,为智能化开发推向一个新阶段。
ModelScope 魔搭社区和 PAI 平台进行了无缝对接,使得开发者大致更快地使用模子,字据我方的场景进行二次开发,构建我方的考试过程,并充分利用好照旧考试好的大模子和预考试模子,进行二次迭代。平台也提供了一些免费的运行资源,闪开发者熟习开发环境,更方便地进行改革。以上是我的共享,谢谢!接待添加作家微信Sunpx33,交个一又友~
雷峰网原创著述,未经授权退却转载。确定见转载应知。