AI时代,算力正在成为推动经济增长的关键力量。算力投资就如同“乘数效应”里描述的那笔初始投资,有着激发经济产出巨大增长的潜能。中国信通院的测算结果也印证了这一点:算力每投入1元,将带动3-4元的经济产出。IDC的研究报告则指出,算力指数平均每提高1个点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。
不过,算力投资要真正发挥出“乘数效应”,其关键在于确保已部署的算力基础设施能够得到高效且充分的利用。当前,我国众多数据中心面临着一个严峻的现实:服务器的算力平均利用率仅徘徊在5%-10%之间,远低于理想水平。而炙手可热的智算中心中,集群MFU(模型AI算力利用率)普遍也只有30%左右,达到40-50%已经属于优秀水平。
从投资回报率、设备折旧等因素考虑,如何在GPU的生命周期内发挥其最大价值,成为每个智算中心或企业AI集群运营中必须正视并克服的核心挑战。这不仅关乎到资源的优化配置,更是实现算力投资可持续回报的关键所在。
本期的《数智QA》,我们就从在智算中心处于主导地位的GPU加速器角度出发,聊聊如何通过提高GPU的利用率,让企业的算力投资实现“乘数效应”。
传统虚拟化环境中,每个虚拟机通常只能分配到一个虚拟的GPU。而通过GPU虚拟化,可以将物理GPU的资源分割成多个虚拟GPU,也就是vGPU,每个虚拟机或用户都可以获得独立的GPU资源,从而提高了整体的计算效率。GPU虚拟化技术的广泛应用,也让企业能够以更加简单、高效的方式构建IT基础架构,在运行AI训练、推理、模型精调、桌面虚拟化等应用时,可以更加充分利用算力资源。
实现高度灵活的部署与管理:GPU虚拟化技术让智能算力可按需分配、灵活部署。用户可以根据实际需求,轻松调整虚拟GPU的数量、性能等参数,以满足不同应用场景的需求。这种灵活的部署方式,不仅提高了资源的利用率,降低了系统的复杂性,还为用户带来了更加便捷、高效的使用体验。
确保安全可靠的隔离环境:GPU虚拟化技术通过构建虚拟环境,实现了每个用户或虚拟机资源之间的严格隔离。这种隔离机制不仅有效避免了应用、任务的干扰和冲突,还为用户的数据和应用程序提供了全方位的安全保护,从而确保系统的整体安全性与稳定性。
虚拟桌面(VDI):企业级应用场景中,GPU虚拟化技术正逐步改变虚拟桌面的使用体验。通过这一技术,多个虚拟桌面用户能够同时享受到图形加速带来的流畅操作与视觉提升,无论是复杂的图形设计、精密的工程设计,还是高清视频编辑,都能得到丝滑般的图形界面与应用程序体验,极大地提升了设计师的工作效率与创作激情。
科学研究:通过构建虚拟化运算环境,研究人员能够充分利用虚拟GPU的强大并行计算能力,对复杂的科学模拟、庞大的数据分析以及计算密集型任务进行高效处理。这一技术的引入,不仅极大地缩短了科研周期,提高了研究效率,更为科学探索的深入与拓展开辟了新的道路。
当然,实际应用中,GPU虚拟化的应用场景远不止这些。随着AI技术的落地应用及普及,GPU虚拟化技术正发挥越来越重要的作用。
首先,在多容器环境中的应用性能波动大,用户体验没有保障。在窗口中运行的应用程序往往会调用各种GPU库函数来执行计算任务。然而,由于操作系统层面的GPU虚拟化算法无法对这些库函数的执行进行精细化的控制,导致在多个容器同时运行时,GPU资源会出现无序的抢占现象。这种情况会导致应用程序的性能出现大幅度波动,严重影响用户的使用体验,使得服务的稳定性和可靠性大打折扣。
其次,GPU等待并产生额外性能开销。当操作系统层尝试调度GPU资源时,需要执行一系列复杂的算法来确保资源的合理分配。这些算法的执行不仅增加了操作系统的负担,还可能导致GPU在等待调度决策的过程中产生额外的性能开销,成为制约系统整体性能的瓶颈。
最后,虚拟化粒度粗造成资源浪费。操作系统层面的GPU虚拟化算法通常只能实现粗颗粒度的虚拟化。这意味着每个虚拟GPU都会占据物理GPU一定比例(通常是10%以上)的算力。实际应用中,许多子任务并不需要如此庞大的算力资源。当任务所需的GPU算力远低于10%时,剩余的算力将被白白浪费,无法得到有效利用。
其次,是在GPU驱动层面进行资源调度优化。通过去除驱动层之上那些不必要的操作,联想成功地简化了资源调度的流程,提高了调度的效率和准确性。这一举措不仅减少了系统的开销,还进一步提升了虚拟GPU的响应速度和运算效率。
最后,联想还在GPU驱动层将虚拟GPU的颗粒度精细到1%。这一创新使得虚拟GPU能够更加灵活地适应各种应用场景的需求,无论是大规模的数据处理还是精细的图像渲染,都能得到完美的支持。
目前,联想万全异构智算平台已经升级到V1.5版,为行业用户带来全新的智能计算体验。作为联想AI基础设施“一横五纵”战略的核心,联想万全异构智算平台目前已在科研教育、金融、云计算等领域落地应用。
以某大学未来技术学院智算中心项目为例,联想万全异构智算平台统一纳管异构算力,充分释放AI基础设施生产力。特别是在资源管理及优化方面,联想GPU内核态虚拟化技术通过精确的GPU算力切分与隔离,以及调度优化,解决了传统数据中心算力资源孤立问题,在多用户、多任务环境中大幅提升了GPU利用率,获得了用户的高度认可。
正是借助包括GPU内核态虚拟化在内的技术创新和落地实践,联想万全异构智算平台在多项行业评选中脱颖而出,分别在HPC China以及中国算力大会上获得“产品创新奖”、“算力中国·年度重大成果” 等多项殊荣。
成都联想服务器总代理 - 成都强川科技有限公司,专注企业IT服务需求,产品可按需定制。主营:联想问天服务器、联想ThinkSystem服务器、联想ThinkStation工作站、联想商用电脑(启天/扬天/ThinkCentre/ThinkPad),以专业的IT解决方案和优质的服务体验赢得企业信赖。QQ:2851150694;服务热线:028-85024766 18215624006(微信同号