【亿邦原创】7月13日,“2023京东全球科技探索者大会暨京东云峰会”在京举行。在下午召开的数字基础设施论坛上,京东云laaS产品研发部负责人龚义成发表了《极致性能数字基础设施 让模型训练更普惠》的主题演讲。他表示,基于京东云HPC高性能计算集群,京东科技提供了高性能低成本的言犀AI开发计算平台,目前该平台正处于邀约内测中。
龚义成详细介绍了京刚3.0、云海2.0的性能表现,透露了自研京刚芯片,并现场演示了通过言犀AI开发计算平台快速部署微调一个大模型聊天机器人服务。
其中,京刚3.0可以提供A800/A100高性能GPU处理器以及各种CPU、GPU、NPU的异构算力,采用裸金属形态,使得算力达到无损状态;在高吞吐低延迟上,支持VPC网络100 Gbps带宽,超算网络高达1.6TbpsRDMA带宽,通信延迟低至2us;且能实现无损网络调度上,自研RoCE网络拥塞调度算法,全局调控RDMA网络流量路径,支持十万级GPU节点,集群算力随规模接近线性提升。
高性能存储服务云海2.0,定位则是一款AI时代下的存算分离基础设施,能够实现超算大模型、存算分离、国产化。全链路支持RDMA IB/RoCE网络,单个存储卷提供500万IOPS,单集群(4台服务器)提供1000万IOPS,支持千亿级参数AI大模型。接近NVMe盘的性能指标,100%写高可用,支持核心数据库/中间件的存算分离,多重网络方案,无特殊硬件要求。100%自研国产化真替真用,京东核心业务场景真实替换,与所有主流国产化平台兼容互认,基于国产硬件上提供接近x86水平的性能指标。
而自研京刚芯片则能让虚拟机实现0性能损耗。
言犀AI开发计算平台则是一个“软硬一体”大模型开发平台。推理速度可达到毫秒级/token的生成速度,覆盖离线任务到实时推理场景,模型规模做到了支持十亿~千亿参数大模型。且低技术门槛、低开发成本、高开发效率,拥有100多种算法工具,实现90%推理成本节约,一周完成行业大模型开发。模型生态生态上集成自研、开源、企业基础大模型,支持零售、金融、健康等多垂直行业。
文章来源:亿邦动力