
AI模型发展过程不光仰赖算力增长,算力浪费问题也日益突出。中国科技巨头阿里巴巴旗下阿里云提出计算池化解决方案「Aegaeon」,成功入选顶级学术会议SOSP 2025。该方案可解决AI模型服务中普遍存在的GPU资源浪费问题,大幅提升GPU资源利用率,目前其内核技术已应用在阿里云百炼平台。换算下来,可帮助厂商少采购82%的Nvidia辉达(另称英伟达)H20芯片。
SOSP(操作系统原理研讨会)由ACM SIGOPS主办,被誉为计算机操作系统界的「奥斯卡」,为计算机系统领域顶级学术会议,平均每年收录的论文数量仅有数十篇,本届SOSP大会上,系统软件与AI大模型技术的融合成为新的趋势。
科创板日报报导,数据显示,在阿里云模型市场为期逾三个月的Beta测试中,Aegaeon系统在服务数十个参数量高达720亿的大模型时,所需的辉达H20 GPU数量从1,192个减至213个,削减比例高达82%。GPU用量削减82%代表企业硬件采购成本将显著降低,这对于动辄须使用成千上万颗GPU的大型模型服务商而言至关重要。
少数热门模型(如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的「长尾」模型却各自独占着GPU资源。数据显示,在阿里云模型市场中,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置严重。而Aegaeon系统通过GPU资源池化,打破了「一个模型绑定一个GPU」的低效模式。
报导称,未来AI的发展将不仅依赖于硬件算力的单纯增长,更需要通过系统级的软件创新来深度挖掘现有硬件的潜力。
百度智能云AI计算部负责人王雁鹏在去年9月曾表示,2024年大模型市场发展迅速,很多企业加大了在大模型领域的投入,在大模型训练时遇到了一个共性问题,那就是算力利用率很低。他说,有50%算力被浪费的说法一点都不夸张,如何提升算力的有效利用率,正在成为业界共同的努力方向。