加载中

想了解一家云厂商的江湖地位 就去翻春晚保障者名单

36氪 2024/02/23 15:15

【编者按】数字化服务商一直以来都是电商生态不可或缺的重要组成,但又因过于熟悉而被忽视。我们似乎不该忘记,电商每一次迭代和进化,数字化都充当了技术先驱与应用场景的搭建者。我们认为,在大数据、人工智能、算法驱动的未来商业,数字化的价值不可或缺。为了更详细的展现电商的面貌与能力,亿邦动力特别推出数字化实战案例。通过每一期的案例拆解,为电商从业者找到最为实用的行业级解决方案。并在每一次的创新应用中,找到一丝未来的曙光。

历经41年洗礼,春晚早已不仅是一台晚会,而是中文世界的流量高地,更是数字世界技术亮剑的绝佳舞台。

中国云计算行业甚至一度流传:想了解一家云厂商的江湖地位,那就去翻春晚保障者名单。他们,台前跑出了行业加速度,幕后锚定了IT风向标。在这个得天独厚的“演武场”,如果没有厚实的技术肩膀,很难扛住“泼天的流量”。

2024,京东再战春晚。

春晚保障从升维转向降维

春晚无疑是全球最极端的大流量高并发系统之一。任何小问题,都将引发大关注。

自2015年互联网春晚拉开序幕,瞬时涌入的巨大流量与红包互动相伴而来,数十亿人同时抢红包,数十亿条数据同时汇集,业界并非不清楚它的力量,可受制于基础设施和技术水平,宕机事件仍时有发生。

为解决这一难题,业界通常作加法:一手堆资源,投入海量成本,提前对服务器和基础架构进行扩容,增加资源硬扛流量;一手“拉人墙”,聚全行业力量,为春晚互动提供技术保障。

反观虎年春晚,京东云却在服务器0增加的情况下,独自支持春晚,将计算资源在抢红包和购物节两个场景间来回切换,4小时完成了16次秒级腾挪上千万核计算资源的极限操作,被媒体称作云计算领域的“三元桥换桥”。

上述转变,与中国云计算思维模式的变迁,一脉相承。

如果说,拼资源做加法是春晚保障的上半场,那么,降成本做减法就是春晚保障的下半场。随着分布式、自动化、高弹性云计算架构的日益形成,中国云计算思维方式,也从升维走向降维,拼资源和堆人力已不再是行业考量的重点,降本增效转而成为业界主流叙事。

这对主打低价心智的京东来说,尤为重要。龙年春晚,他们面临的挑战更严峻,既要发放30亿红包,又要派送1亿好物,还要确保年货供应链服务履约,基础设施降本是实现其低价的关键一环。

在最大规模、最全链路、最复杂场景,他们不仅不加资源,还要将整体资源成本下降50%。这不仅是对技术的挑战,更是对团队智慧和创新能力的考验。

京东云唯一的路径,就是用智能技术,最大限度压榨现有资源,把利用率提上来。

面对16天史上最短备战周期,这家云厂商敏捷上线春晚保障“AI指挥官”,即春晚保障Agent。借助大模型,连接多个系统数据,将流量预测、极致调度、智能备战等关键环节压缩串联,为春晚保障提效。

流量预测走向“智能描摹”

精准预测,是春晚保障的基础。这就像医生术前作病情描摹一样。无论是病理分析,还是诊疗方案,抑或风险评估,术前的精准描摩,直接关系一台手术的成败。

历经数次春晚大考,业界深知,春晚亿级流量,带来的高频且脉冲式洪峰,仅凭人力疏导,见效慢、作用小、成本高。一旦流量预测过高,将造成资源浪费,而流量预测过低,匹配资源不足,将引发宕机风险。因此,实现计算资源和高并发流量的智能临摹,势在必行。

京东云再战春晚,大模型成为流量预测的关键技术变量。

他们借助大模型能力,分析历史数据和虎年春晚保障经验,绘制更精准更敏捷的流量地图,从数千个数据维度,对春晚流量“望闻问切”,实现了超95%的预测准确率。应对流量冲击时,大模型还可以自动调整后续几轮的红包策略,确保流量平稳分配。这样,核心流量接入以及转化均在预期之内,还能更高效地保障零售、物流环节的整体供应链履约。

这一智能临摹,也为京东零售快速生成互动场景的用户权益策略,提供了依据。在制定春晚1亿好物策略时,运营人员根据精准预测流量大小、预判用户访问轮次分布,基于交互式策略画布,5分钟内,以无代码的形式生成用户策略并上线,这相当于5个工程师,以写代码形式,连续工作100个小时。

智能技术带来极致调度

极致调度,是春晚保障的支柱。它事关每一个在线业务的资源分配,每一个离线业务的算力运用,这种追求资源利用最大化、降本增效的极致调度艺术,如同一位出色的指挥家引领整个乐团达到和谐共鸣。

龙年春晚,云舰扛起了极致调度的重任。作为京东云混合多云操作系统,云舰的主要作用,在于消除底层各类软硬件基础设施的差异,将所有可供调配资源,聚合在统一的资源池内,敏捷地对包括x86计算资源和国产化计算资源等进行管理与统一调度。

虎年春晚,它就秒级调度近300万个容器、超1000万核算力资源,应对春晚红包活动流量洪峰。

这次,面对“红包互动+年货购物”高并发和超复杂场景,云舰通过规模化混部技术,让京东云混部计算集群 CPU 整体利用率控制在60%左右。

要知道,行业CPU 整体利用率一般在40%和50%之间,进一步提升CPU使用率,难度极大。在离在线混部环境中,CPU使用率过高,固然会降低基础设施成本,但也容易引发资源争抢,如何在确保系统稳定性的情况下,将CPU 整体利用率控制在60%?

云舰采取了业务分级策略,它将高优先级和低优先级业务混合部署,通过智能预测,确保高优先级业务需要资源时,可以秒级抢占低优先级业务的资源。在这个过程中,云舰自研的调度类算法,可以无视传统模式下的CPU时间片,将干扰率由5%降到1%,更迅速抢占资源,让高优先级业务形成更明显压制。

自虎年保障以来,京东云混部集群的规模和应用数量增加3-4倍,云舰可调度的资源随之大幅增长,有效支撑AI训练和推理任务的离在线混布、快速切换。其中,仅容器化资源部署密度,就提升3倍,可以说是“榨”干了GPU性能,从而助力整体资源成本下降50%。

上述实践,也开创了全栈国产化产品支持央视春晚红包互动的行业先河。

大模型开启人机协同备战

人机协同备战,是春晚保障的路径。正所谓“将军不打无准备之仗”,配备AI能力的京东春晚保障团队,在春晚战役打响前,就已完成智能备战。

拿红包互动来说,全球观众不登录就可抽奖抢红包,活动的匿名性,极有可能引发大范围DDoS攻击。若恶意羊毛党模拟用户行为,在短时间内发起大量请求,抢占红包,将迅速消耗服务器资源,导致用户无法访问服务。

找到风险点,京东云安全大模型便开始靶向排雷,系统模拟攻击者薅羊毛行为造成的DDoS攻击。安全运营人员打开告警链接,查看安全大模型分析报告,对攻击手法,攻击链路、防护策略一目了然,做到有备无患。

与此同时,安全大模型还将生成并保存SOAR安全编排、自动化及响应剧本,令运营剧本生成速度提升10倍,大幅提升应急响应速度。

攻防演练,验证了系统安全性。京东云还需打赢另一场硬仗,那就是压力测试。

就传统压测而言,要提前 3个月准备,耗时费力不说,数据也不准确,极易引发扩容浪费。为了解决这一问题,京东研发了泰山平台,并集成了ForceBot全链路军演机器人和故障分析大模型。

ForceBot像是制造问题的高手,故障分析大模型则是解决问题的高手。

前者,通过自动化部署,模拟并实时监控海量用户抢红包、购物等行为,制造流量洪流对系统施压,并秒级反馈压测数据。

后者,不仅承担故障诊断、故障分析、故障记录等工作,也支持压测平台的监控工具实时收集系统性能指标,确定故障的具体位置,还能分析日志文件,找出异常行为或错误信息,快速定位问题,辅助工程师决策。

值得一提的是,作为大模型支持的代码助手,JoyCoder通过AIGC的方式,快速生成压测场景代码,具备代码自动预测补全、代码翻译、生成接口文档、代码优化、生成单测、安全漏洞识别及修复等功能。

春晚保障期间,Joycoder周活跃用户数4000+,总计被4000+研发人员调用约25万次,研发效率提升10%。

追随、并行、超越的中国故事

流量与预测、预测与调度、调度与备战,环环相扣的智能技术链条,如流动的音符,奏响了春晚保障的京东云乐章。

这个曲调,从中国式超越的技术洪流中涌来,既崭新,又熟悉。

它曾鸣响中国速度,一辆辆高铁冲出亚洲,改写世界铁路规则;它曾呈现5G网络建设世界领先,载人航天、火星探测更进一步;它曾雕刻中国供应链,释放超级连接力,走向产业纵深……

如今,它记录9年春晚互动保障的变迁,一展中国式超越的锻造华章——从宕机到顺滑,从拼资源到拼智能,智抗春晚超级流量,让保障难题,在实践中破解,让技术愿景,在发展中实现,再次上演从追随、到并行、再到超越的中国故事。

正如京东云相关负责人说,“回望春晚保障变迁,团队全面向智能化转型,不仅推进智能应用的大规模实践,也锻炼了支持人工智能、大模型的数字基础设施,形成了更全面,更高效,更低成本的大型活动保障体系。”

龙年春晚过后,30亿红包和1亿好物,将很快融入国民经济末梢,京东云智抗大流量的佳话,也将悄然编织进中国云计算行业的技能图谱,但智能技术所带来的降本、增效、提质,仍在岁月长河中,不舍昼夜,滚滚向前。

文章来源:36氪

微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭