Alaya NeW 智算操作系统-包含国内外多种算力资源的适配、纳管、调度和优化 |
||
2024/7/10 15:27:18 | 4987 | |
Alaya NeW智算操作系统(以下简称:Alaya NeW),由九章云极DataCanvas 自主研发,可有效管理、调度各种算力资源,提供智算服务,落地各类智算应用。作为智算中心的“中枢神经”,Alaya NeW突破异构算力适配、异构算力调度等关键技术,实现了包括算力统筹与智能调度的底层硬件异构性兼容;简单易用且以集群为优先的策略,原生适合AI高性能计算,原生支持AI大模型+小模型的低门槛构建、训练和推理;并支持与通用大模型、行业大模型及各类大模型应用组合叠加,实现一体化、开放化、标准化的AI模型服务。 随着人工智能技术的高速发展,智能化正以前所未有的速度重塑各行各业。以AIGC为代表的人工智能应用、大模型训练等新应用、新需求快速崛起都对算力提出更高要求。经中国信息通信研究院测算,预计到2025年全球计算设备算力总规模将超过3 ZFlops,至2030年将超过20 ZFlops。 算力作为新质生产力,已成为挖掘数据要素价值,推动数字经济发展的重要驱动力,智算中心的战略性地位愈发凸显。同时,智算中心在运营和管理过程中面临的异构算力资源纳管困难、算力调度能力不足、利用率低等难题,将严重制约智算中心的应用与发展。因此,一个能够全面服务于智算中心的中枢神经——智算操作系统,将是直击这些难题的最佳方案。 1、异构算力资源纳管困难 智算中心逐渐引入多种不同品牌的加速硬件,往往存在异构算力不兼容、模型框架与底层芯片适配不充分等情况,导致算力调度困难、难以有效形成规模化算力。 2、算力调度能力不足、利用率低 在大规模数据处理和大模型训练等任务中,算力调度能力不足,使得算力分配不均衡,导致算力资源浪费和利用率下降,不能充分满足不同类型AI任务的调度需求,影响AIDC服务的整体性能。 3、AI加速优化能力不足 一般针对AI大模型数据加载、训练、微调、推理环节,并没有实施优化或者只做了局部加速优化。因此经常受到存储访问慢,算力利用率、内存利用率、通信效率低的困扰,影响AI任务的完成。 4、AI大模型训练微调门槛高 数据科学家往往不能掌握使用智算硬件基础设施的技能,而企业内IT人员缺乏对训练大模型所需的集群管理能力,缺乏一个弹性易用的集群环境以及在其之上的AI大模型训练微调工具链。
主要能力 1、告别“裸金属” 通过构建多层次、全方位的算力需求满足机制,包含超级智算集群、弹性容器集群、GPU云服务器、AI容器实例等系列产品,为精准匹配和高效满足多样化规模及复杂度的算力求提供保障。 2、为AI而生 专注于人工智能核心任务,包括大模型的训练、微调、部署和推理等服务。提供集“算力、数据、算法、调度”为一体的融合服务,旨在推动人工智能产业化的创新发展。 3、全局加速优化 采用通信加速、内存优化、算法加速、数据三级缓存、内核优化、编译优化、并行加速、模型压缩等方案,释放硬件效能。集群训练效率提升100%,单卡利用率提升50%;模型推理速度提高4倍,Token吞吐量增加5倍。 4、异构算力纳管与调度 提供包含国内外多种算力资源的适配、纳管、调度和优化。通过实时监控和管理各智算中心的智算设备,以及创新的调度算法,成功实现跨智算中心的海量算力智能调度,大幅提升算力资源的利用率。 5、1度算力 Alaya NeW首次提出了统一的算力服务计量单位“度”(DCU),并用其实现标准化的算力计量计费,旨在为用户实现“买到即用到”的算力服务,为未来算力资源互联互通打下良性商业基础。 应用落地情况 该产品无论在产品理念还是功能设计上都处于同行业领先水平。在未来一定周期内,将引领“智算操作系统”发展趋势,该产品提供的智算基础服务,将成为智算中心提供服务的标准范本之一。截止目前,该产品已经在九章云极DataCanvas参与共建的国内多个智算中心进行部署。 Alaya New 智算操作系统在智算中心产业生态中处于中间位置,在底层硬件芯片和上层大模型之间建立了高效的链接,通过AI基础软件的创新,实现算力资源的最大化利用。也首次提出了统一的算力服务计量单位“度”(DCU),以推进标准化的算力计量计费,为未来算力资源实现互联互通打下良性商业基础。九章云极DataCanvas 携手智算产业核心生态伙伴,服务政府和企业共建智算中心,为行业提供高质量新质生产力以及全方位的AI Foundation Service,共同推动我国人工智能产业快速发展。
|
||
上一篇 下一篇 |
返回顶部 ∧ |
技术支持 |
关于创泽 |
隐私条款 |
|
版权所有 @ 创泽智能机器人集团股份有限公司 运营中心 / 北京市·清华科技园九号楼5层 生产中心 / 山东省日照市开发区太原路71 |