“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

news/2024/9/20 10:35:58

9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。天翼云多位专家与合作伙伴代表发表精彩演讲,共探人工智能大模型的发展趋势与挑战,并对平台升级后的能力与优势,以及在医疗领域的赋能实践进行了深度解读。

平台全新升级

提供稳定高效的大模型训推一体化服务

我国大模型已进入快速发展阶段,但大模型的研发与推广仍然面临一定的压力和挑战,呈现出“基础丰富,应用不足”的特点。一方面,大模型的训练和应用需要大量的高质量数据,当前我国数据资源有限且分散,导致模型训练效果并不理想;另一方面,模型的参数量和计算复杂度持续增加,对算力的需求以几何级数增长。行业亟需更加高效、集约化的智算平台的支撑,以驱动国产大模型高质量发展与产业化应用。

天翼云智算产品线总监张安发表示,升级后的平台专为应对大参数大模型、行业模型应用所带来的挑战而设计,它提供了一个全栈式的服务,旨在简化大模型从训练到部署的整个流程。平台新增了开闭源大模型、多模态大模型,供用户灵活选择,模型数量处于国内领先水平;新增上线专业的大模型数据集,用户可直接将数据用于大模型训练、推理任务中,实现了算法、算力、数据三要素的融合;新增体验中心,用户可直接在线互动体验;打造了全链路故障感知和恢复、全链路日志监控工具,突破断点续训等核心技术,使全链路监控训练更稳定。

随着模型参数量从千亿迈向万亿,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群已经成为大模型产业发展的刚需,同时对训练稳定性要求极高。根据公开报道,Llama3.1-405B原生训练耗时持续54天,累计发生419次故障,平均每3小时产生一次。天翼云智算产品线专家范顺国介绍,天翼云训推服务平台是国内首个实现公有云国产化万卡训练的平台,能够为万亿参数级别大模型训练提供一体化方案。天翼云在北京万卡池完成了Llama3-405B(4000亿参数)大模型的训练,700亿参数模型Llama2-70B在万卡规模下顺利拉起并完成训练,MFU达到43% ,在业界达到了领先水平。天翼云优化断点续训技术,在Llama2-70B模型训练中,实现秒级故障检测,分钟级定位并处理故障,分钟级训练恢复,这一性能已达到行业前沿水平。 

此外,基于平台能力,天翼云联合伙伴上线了魔乐(Modelers)开发者社区,通过整合优质中文AI资源、提供极致易用的工具链,以及国产化算力使能,端到端支持AI应用开发全流程,助力孵化国产原生模型。

三种交付形态+两大应用场景

助力企业加速AI应用落地

AI技术加速融入各行各业,大模型的应用前景也愈加广阔。天翼云息壤一体化智算服务平台从行业及客户需求出发,在技术与能力的不断迭代升级中使能企业制胜AI时代。

天翼云智算产品线专家夏曼雪对平台功能进行了详细演示。平台支持公有云、混合云和轻量化三种交付形态。其中,公有云版本即开即用、计费灵活,支持按卡时计费、包周期计费;混合云版本支持千卡规模的私有化项目交付;轻量化版本支持天翼云A100云主机、H800/A100/A800/A10裸金属服务器、物理机等硬件形态交付部署,灵活便捷。

 

场景应用方面,平台主要面向两类客户场景。一是具备深厚行业知识、拥有自主数据的行业客户,如政务、金融机构、汽车、媒体、旅游等行业。依托零代码平台和丰富的开闭源大模型,客户无需掌握算法编程即可完成模型的调优和API调用,从而加速大模型从概念到落地的进程。二是拥有很强的算法能力,但在智算集群的管理运维方面经验不足的大模型厂商。平台为这类用户提供专业的开发和运维工具,实现大规模分布式训练和断点续训能力,在保障稳定性的同时,通过构建AI加速引擎助力用户提升算力利用率。

目前,天翼云已服务多个客户的训推场景,助力行业大模型训推更便捷、更高效、更稳定安全。中国中医科学院中医药信息研究所(简称“中医药信息研究所”)所长特聘助理朱彦分享了与天翼云合作开展中医药大模型的探究与实践,通过与天翼云合作,中医药信息研究所获得了更加稳定和高效的计算支持。借助天翼云大模型学习机,搭建低代码服务平台,中医药信息研究所高效完成了文献和临床数据的治理工作,包括自动抽取、标准化等任务。此外,在中医垂类大模型的微调、应用发布方面,平台将提供算法支持和模型优化工具,帮助客户充分挖掘中医药数据的内在价值。双方合作与探索,不仅进一步加速了中医大模型的研究和应用,以及中医药的现代化进程,也将为全球健康事业的发展做出重要贡献。

 

伴随以大模型为核心的人工智能技术的快速发展,各行各业正经历着一场前所未有的智能化转型浪潮。作为云服务国家队,天翼云将持续聚焦人工智能场景进行技术创新,积极加码布局智算基础设施,赋能企业跑出“AI加速度”,携手合作伙伴共同推动经济社会智能化水平迈向新高度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/62444.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

全国省市县区的JOSN

[{"name": "北京市","code": "110000","city": [{"name": "市辖区","code": "110100","area": [{"name": "东城区","code": "11010…

关于api接口详解大全

API接口,即应用程序编程接口(Application Programming Interface),是一组预定义的函数或协议,它允许不同的软件应用程序之间进行交互。API在现代软件开发中扮演着至关重要的角色,它促进了不同系统之间的集成和通信,为开发者提供了强大的工具来构建更加高效、安全和创新的…

Amazon Bedrock 模型微调实践(二):数据准备篇

本博客内容翻译自作者于 2024 年 9 月在亚马逊云科技开发者社区发表的同名博客: “Mastering Amazon Bedrock Custom Models Fine-tuning (Part 2): Data Preparation for Fine-tuning”亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技…

Spark(一)概述

基本概念Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎Spark vs HadoopSpark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘Hadoop Spark类型 分布式基础平台, 包含计算, 存储, 调度 分布式计算工…

基于语义增强的少样本检测,突破新类别偏见 | ICIP24

Few-shot目标检测(FSOD)旨在在有限标注实例的情况下检测新颖对象,在近年取得了显著进展。然而,现有方法仍然存在偏见表示问题,特别是在极低标注情况下的新颖类别。在微调过程中,一种新颖类别可能会利用来自相似基础类别的知识来构建自己的特征分布,导致分类混淆和性能下…

如何解决Warning: include(): Failed opening file_path for inclusion问题

解决方法检查文件路径确认文件路径是否正确无误,包括路径中的每个目录和文件名。验证文件是否存在使用file_exists()函数检查文件是否真的存在于指定路径上。检查文件权限确认文件具有足够的权限供当前用户读取。可以使用chmod命令修改文件权限:bashchmod 644 file_path确认文…

如何解决Unknown column column_name in field list问题

当遇到 "Unknown column column_name in field list" 这类错误时,通常表明 SQL 查询中引用了一个不存在的列。这类错误通常会给出具体的列名和出错的位置。下面是一些详细的解决步骤: 解决方法:检查 SQL 查询:确认 SQL 查询中引用的列名是否正确。检查拼写错误或…

最小圆覆盖(html)

最小圆覆盖问题是什么呢?就是指在二维平面上有一堆点,然后我们要求一个最小半径的圆能够将所有点全部都包住,这就是最小圆覆盖问题。 最小覆盖圆的性质 性质1:最小覆盖圆是唯一的 证明:我们假设有两个圆O1,O2,他们半径都是r,都是最小覆盖圆,那么所有的点一定在两圆的…