“模”力十足！天翼云息壤一体化智算服务平台训推服务能力重磅升级！seo优化

“模”力十足！天翼云息壤一体化智算服务平台训推服务能力重磅升级！

news/2024/9/20 10:35:58

9月4日，“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上，息壤平台训推服务能力重磅升级，新增闭源、多模态基座大模型以及数据集，支持万卡规模训练，训练稳定性再次提升，新增体验空间，为基础大模型训练、行业大模型训推提供一站式解决方案。天翼云多位专家与合作伙伴代表发表精彩演讲，共探人工智能大模型的发展趋势与挑战，并对平台升级后的能力与优势，以及在医疗领域的赋能实践进行了深度解读。

平台全新升级

提供稳定高效的大模型训推一体化服务

我国大模型已进入快速发展阶段，但大模型的研发与推广仍然面临一定的压力和挑战，呈现出“基础丰富，应用不足”的特点。一方面，大模型的训练和应用需要大量的高质量数据，当前我国数据资源有限且分散，导致模型训练效果并不理想；另一方面，模型的参数量和计算复杂度持续增加，对算力的需求以几何级数增长。行业亟需更加高效、集约化的智算平台的支撑，以驱动国产大模型高质量发展与产业化应用。

天翼云智算产品线总监张安发表示，升级后的平台专为应对大参数大模型、行业模型应用所带来的挑战而设计，它提供了一个全栈式的服务，旨在简化大模型从训练到部署的整个流程。平台新增了开闭源大模型、多模态大模型，供用户灵活选择，模型数量处于国内领先水平；新增上线专业的大模型数据集，用户可直接将数据用于大模型训练、推理任务中，实现了算法、算力、数据三要素的融合；新增体验中心，用户可直接在线互动体验；打造了全链路故障感知和恢复、全链路日志监控工具，突破断点续训等核心技术，使全链路监控训练更稳定。

随着模型参数量从千亿迈向万亿，大模型对底层算力的诉求进一步升级，万卡甚至超万卡集群已经成为大模型产业发展的刚需，同时对训练稳定性要求极高。根据公开报道，Llama3.1-405B原生训练耗时持续54天，累计发生419次故障，平均每3小时产生一次。天翼云智算产品线专家范顺国介绍，天翼云训推服务平台是国内首个实现公有云国产化万卡训练的平台，能够为万亿参数级别大模型训练提供一体化方案。天翼云在北京万卡池完成了Llama3-405B（4000亿参数）大模型的训练，700亿参数模型Llama2-70B在万卡规模下顺利拉起并完成训练，MFU达到43% ，在业界达到了领先水平。天翼云优化断点续训技术，在Llama2-70B模型训练中，实现秒级故障检测，分钟级定位并处理故障，分钟级训练恢复，这一性能已达到行业前沿水平。

此外，基于平台能力，天翼云联合伙伴上线了魔乐（Modelers）开发者社区，通过整合优质中文AI资源、提供极致易用的工具链，以及国产化算力使能，端到端支持AI应用开发全流程，助力孵化国产原生模型。

三种交付形态+两大应用场景

助力企业加速AI应用落地

AI技术加速融入各行各业，大模型的应用前景也愈加广阔。天翼云息壤一体化智算服务平台从行业及客户需求出发，在技术与能力的不断迭代升级中使能企业制胜AI时代。

天翼云智算产品线专家夏曼雪对平台功能进行了详细演示。平台支持公有云、混合云和轻量化三种交付形态。其中，公有云版本即开即用、计费灵活，支持按卡时计费、包周期计费；混合云版本支持千卡规模的私有化项目交付；轻量化版本支持天翼云A100云主机、H800/A100/A800/A10裸金属服务器、物理机等硬件形态交付部署，灵活便捷。

场景应用方面，平台主要面向两类客户场景。一是具备深厚行业知识、拥有自主数据的行业客户，如政务、金融机构、汽车、媒体、旅游等行业。依托零代码平台和丰富的开闭源大模型，客户无需掌握算法编程即可完成模型的调优和API调用，从而加速大模型从概念到落地的进程。二是拥有很强的算法能力，但在智算集群的管理运维方面经验不足的大模型厂商。平台为这类用户提供专业的开发和运维工具，实现大规模分布式训练和断点续训能力，在保障稳定性的同时，通过构建AI加速引擎助力用户提升算力利用率。

目前，天翼云已服务多个客户的训推场景，助力行业大模型训推更便捷、更高效、更稳定安全。中国中医科学院中医药信息研究所（简称“中医药信息研究所”）所长特聘助理朱彦分享了与天翼云合作开展中医药大模型的探究与实践，通过与天翼云合作，中医药信息研究所获得了更加稳定和高效的计算支持。借助天翼云大模型学习机，搭建低代码服务平台，中医药信息研究所高效完成了文献和临床数据的治理工作，包括自动抽取、标准化等任务。此外，在中医垂类大模型的微调、应用发布方面，平台将提供算法支持和模型优化工具，帮助客户充分挖掘中医药数据的内在价值。双方合作与探索，不仅进一步加速了中医大模型的研究和应用，以及中医药的现代化进程，也将为全球健康事业的发展做出重要贡献。