广告
加载中

智算中心太“多” 大模型不够用了

张帅 2024-11-21 14:44
张帅 2024/11/21 14:44

邦小白快读

EN
全文速览

文章揭示了智算中心建设过热导致算力空置的关键现状和实用信息。

1. 英伟达芯片价格大幅回落,H100整机从高位300多万人民币降至230万人民币左右,倒爷市场降温。

2. 大模型训练需求集中,需万卡集群(如64/128/256台服务器),但市场冷清,超三成大模型未公开进展,近一半转向AI应用开发。

3. 算力空置率约32%(已上线17亿卡时使用5.6亿卡时),原因包括技术门槛和资源错配,如“把GPU卡塞进机房”与“构建训练集群”不同。

4. 政策调整:政府强调有序建设,新建智算中心采购国外卡不批能耗指标,支持国产卡;试点公共云服务解决浪费,如工信部定向批文。

5. 实操建议:避免盲目跟风,按市场需求建设;企业可用消费级显卡降低成本,租卡模式节省支出。

文章涉及大模型算力趋势对品牌营销和产品研发的启示。

1. 消费趋势:大模型应用转向推理需求(如AI服务),企业用消费级显卡解决非预训练需求,未来推理需求稳定增长,到2030年100%需超大规模数据中心。

2. 产品研发机会:国产芯片(如华为)发展加速,但需解决兼容性和故障问题;品牌可参考阿里云、百度在技术上的创新(如HPN网络、调度算法)优化产品。

3. 用户行为观察:大模型厂商减少预训练,转向落地应用;品牌需关注算力成本平衡点,如价格、易用性因素影响决策。

4. 代表企业案例:阿里云升级智能运维到毫秒级检测,百度开发百舸4.0解决跨地域通信,提供学习点。

政策变化和市场趋势带来风险与机会,卖家应重点关注。

1. 政策解读:发改委限制新建智算中心采购国外卡,支持国产卡;公平竞争条例叫停地方税收优惠,企业需专注经营创新。

2. 风险提示:算力空置率高,部分智算中心亏损;技术门槛(如网络、调度)可能导致资源浪费;投机囤卡行为加大风险。

3. 机会提示:推理需求增长稳定,租卡模式节省成本;地方政府斡旋租用闲置算力,提供合作方式;扶持政策包括公共云试点和东数西算节点支持。

4. 可学习点:云厂商优化调度(按任务非硬件)和运维提高利用率;代表企业如百度、阿里云的技术方案可借鉴。

5. 事件应对措施:出清落后产能政策(如数据中心绿色低碳计划)促进良性竞争,卖家可转向应用开发。

智算中心建设提供产品生产和数字化启示的商业机会。

1. 产品生产需求:国产芯片制造面临高故障率挑战(英伟达H系列故障率比A系列高3-4倍),工厂可参与AI硬件生产(如GPU卡、网络设备)。

2. 商业机会:推理需求稳定增长,工厂可为智算中心提供交换机、网卡、光缆等定制组件;华为运营大几万卡集群的经验可学习。

3. 推进数字化启示:工厂需解决跨地域部署和多芯混训难题;参考阿里云、百度在高效拓扑和通信优化上的工程案例,提升生产效率和数字化转型。

4. 代表企业案例:秦淮数据看好智算需求2027年爆发,提供市场增长点;消费级显卡在非预训练场景的应用启示工厂平衡成本。

行业技术挑战和解决方案是服务商核心关注点。

1. 客户痛点:算力空置(上架率不足60%)、网络需求高(百G带宽瞬时占满)、调度困难、故障率高(十万卡集群每20分钟故障)。

2. 解决方案:阿里云HPN高性能网络(带宽有效率95%)、百度百舸4.0跨地域通信方案;按任务调度取代传统硬件调度,提升利用率;毫秒级运维检测隔离故障。

3. 新技术发展:高性能网络架构(如HPN 7.0论文被收录)、智能调度算法;国产芯片生态加速,但需兼容性优化。

4. 行业趋势:从内卷(如无条件预留资源)走向有序(政策引导),超大规模数据中心需求2030年爆发;服务商可参考云厂商的工程积累。

平台需应对算力需求和运营管理问题。

1. 商业对平台需求:用户需要稳定高效集群(如“真万卡集群”单一模型训练),避免假伪集群;算力封锁和生态不全导致供应不稳定。

2. 平台最新做法:云厂商(如阿里云、百度)提供租卡服务、优化资源调度;政府斡旋租用闲置算力,作为招商机会。

3. 运营管理挑战:确保集群稳定性需解决网络、调度、运维难题;平台可用阿里云智能运维案例,避免资源浪费。

4. 风向规避:政策限制新建中心采购国外卡,平台可聚焦国产卡支持;风险包括内卷乱象(如突破价格底线),应转向创新。

5. 合作方式:试点公共云服务解决小散算力中心浪费;平台需管理能耗和故障率。

产业暴露新问题并提供政策法规启示。

1. 产业新动向:大模型需求集中化(如188备案模型仅一成加速训练),智算中心建设过热(2024年招投标增407.1%),但利用率低。

2. 新问题:技术挑战(跨地域网络、多芯混训)、资源错配、芯片故障率高;国产生态过渡期需3-5年。

3. 政策法规建议:张云泉文章强调按需建设、避免浪费;政策如东数西算强化有序引导,出清落后产能。

4. 商业模式启示:智算中心投资模式(政府、企业或机构主导),运营需专业团队;转向推理应用分散市场更健康。

5. 研究观点:案例显示国内外竞逐十万卡集群,但差距明显;华为和国产芯片发展面临应用距离问题。

返回默认

声明:快读内容全程由AI生成,请注意甄别信息。如您发现问题,请发送邮件至 run@ebrun.com 。

我是 品牌商 卖家 工厂 服务商 平台商 研究者 帮我再读一遍。

Quick Summary

The article reveals a critical issue of overheating in AI computing center construction leading to significant computational power idleness.

1. NVIDIA chip prices have dropped sharply, with H100 servers falling from over 3 million RMB to around 2.3 million RMB, cooling the scalper market.

2. Large model training demand is concentrated, requiring 10,000-card clusters, but the market is sluggish with over 30% of models not disclosing progress and nearly half shifting to AI application development.

3. Computational power vacancy rate is about 32%, with 5.6 billion card-hours used out of 17 billion available, due to technical barriers and resource mismatches.

4. Policy adjustments emphasize orderly construction, restricting foreign chip procurement and supporting domestic alternatives, with pilot public cloud services to reduce waste.

5. Practical advice includes avoiding blind follow-ups, aligning with market demand, using consumer GPUs for cost reduction, and adopting rental models.

The article offers insights into large model computing trends for brand marketing and product development.

1. Consumption trends show a shift toward inference needs, with stable growth expected by 2030 requiring hyperscale data centers.

2. Product opportunities include accelerating domestic chips but addressing compatibility issues, and learning from innovations by Alibaba Cloud and Baidu.

3. User behavior indicates reduced pre-training focus; brands should balance computing cost factors like price and usability.

4. Case studies highlight Alibaba Cloud's millisecond-level detection and Baidu's cross-region communication solutions as learning points.

Policy changes and market trends present risks and opportunities for sellers.

1. Policies restrict foreign chip procurement and promote fair competition, requiring focus on innovation.

2. Risks include high idleness rates, technical barriers, and speculative hoarding.

3. Opportunities involve growing inference demand, rental models, and government-mediated partnerships.

4. Learn from cloud vendors' task-based scheduling and maintenance optimizations.

5. Respond to policies phasing out outdated capacity by shifting to application development.

AI computing center construction offers production and digitalization opportunities.

1. Production faces challenges like high failure rates in domestic chips, but factories can engage in AI hardware manufacturing.

2. Stable inference demand creates opportunities for custom components like switches and cables, learning from Huawei's cluster operations.

3. Digitalization requires solving cross-region deployment issues, with engineering cases from Alibaba and Baidu as references.

4. Market growth points include Chindata's 2027 projections and cost-balancing with consumer GPUs.

Technical challenges and solutions are core concerns for service providers.

1. Client pain points include low utilization, high network demands, scheduling difficulties, and frequent failures.

2. Solutions feature Alibaba's HPN network and Baidu's communication schemes, task-based scheduling, and millisecond-level maintenance.

3. New technologies involve advanced network architectures and domestic chip ecosystems needing compatibility improvements.

4. Industry trends shift from internal competition to policy-guided order, with hyperscale data center demand rising by 2030.

Platforms must address computing demands and operational management.

1. Users need stable, efficient clusters to avoid pseudo-clusters, with supply instability due to ecosystem gaps.

2. Latest practices include rental services and optimized scheduling, with government-mediated leasing opportunities.

3. Operational challenges require solving network and maintenance issues, using Alibaba's case studies to prevent waste.

4. Policy shifts favor domestic chips; risks include price wars, necessitating a pivot to innovation.

5. Collaboration modes involve public cloud pilots and managing energy consumption and failure rates.

The industry exposes new problems and policy implications.

1. Trends show concentrated large model demand and overheated construction with low utilization.

2. New issues include technical challenges, resource mismatches, and high chip failure rates during a 3-5-year domestic transition.

3. Policy suggestions emphasize need-based construction and phasing out outdated capacity.

4. Business models reveal investment patterns and a healthier shift to inference applications.

5. Research highlights global competition for 100,000-card clusters, with gaps in domestic chip application maturity.

Disclaimer: The "Quick Summary" content is entirely generated by AI. Please exercise discretion when interpreting the information. For issues or corrections, please email run@ebrun.com .

I am a Brand Seller Factory Service Provider Marketplace Seller Researcher Read it again.

英伟达芯片“倒爷”们,开始不发朋友圈了。

2023年大模型火热的时候,“倒爷”们朋友圈的画风是“欲购从速、30%定金,有实力的老板来!”到了2024年就变成了“现货现款、物美价优。”甚至有一批人已经黯然退场。

以H100整机价格为例,官方售价为30万美元左右,水货一度高达300多万人民币,超过50%的利润空间,让不少人趋之若鹜,但是现在价格已经回落到230万人民币左右,再倒卖也就没什么利润空间。

其中既有英伟达芯片更新换代的原因,基于Blackwell架构的GB200等新品单位算力成本更低;也有算力行业从过热到回归理性的必然,有了GPU并不意味能转换成大模型算力,大家对这一现实的理解,是用真金白银砸出来的。

大模型之大,动辄需要64/128/256台服务器(一台服务器8张GPU卡)组成的算力集群来训练。对于志在基础大模型的厂商来说,万卡集群成了入门门槛,不仅海外OpenAI、马斯克的xAI等都在规划十万卡集群,国内也同样走在竞逐十万卡集群的路上。

来自需求端的压力,也正在重新校正AI算力产业,首当其冲的便是智算中心。作为计算、存储、网络的集合体,智算中心直接反映大模型算力的行业现状,而来自一线的声音趋于一致:智算中心太“多”,大模型不够用了。

缺算力是真的,空置也是真的

智算中心并不是绝对意义上的“多”,无论从各种视角看,真正适配大模型训练的算力在未来一段时间仍有很大的缺口,大规模智算中心的建设不会停止。

以OpenAI为代表,ChatGPT发布两年来,大模型产业发展的脚步似乎变慢了,不排除这是大模型新一轮爆发前的蛰伏,在“Scaling Law”(规模法则)信仰之下,xAI、Meta、OpenAI等巨头都在积极布局十万卡乃至更大规模的智算集群。

例如7月份,马斯克宣布位于美国田纳西州孟菲斯市的超级集群开始投入训练,该集群配备了10万个英伟达 H100 GPU,被称为 “世界上最强大的 AI 训练集群”。两个月后,马斯克宣布该集群名为 “Colossus(巨人)”,将在未来几个月内再增加 10 万颗 GPU,其中 5 万颗将是更为先进的英伟达 H200,Grok 3训练预计在三到四个月内于该集群完成,目标是12月发布。

再看OpenAI,甚至因为算力交付和“铁杆盟友”微软产生了分歧。此前微软与 OpenAI 合作共建一个代号为 “星际之门” 的巨型数据中心项目,项目预计成本超过 1150 亿美元,旨在建设一个配备数百万块 GPU 的超级计算机。据报道,微软计划到2025年底向 OpenAI 提供约 30 万个英伟达最新的 GB200。

但是奥尔特曼似乎对微软的速度还不满意,在完成66亿美元的最新一笔融资后,OpenAI又与甲骨文达成合作,将在德克萨斯州的一个新数据中心租用服务器,该数据中心未来可容纳数十万个英伟达GPU。

超大规模数据中心解决方案运营商秦淮数据对钛媒体APP表示,公司坚定看多智算,预计2027年开始智算需求进一步爆发,到2030年100%的推理需求都需要由超大规模数据中心来完成。

赛迪顾问人工智能与大数据研究中心高级分析师白润轩此前表示, 截至2024年上半年,国内已经建设和正在建设的智算中心超过250个,2024年上半年智算中心招投标相关事件791起,同比增长高达407.1%。

“这表明智算中心的建设在全国范围内得到了广泛的关注和支持。从2023年开始,各地政府加大了对智算中心的投资力度,推动了基础设施的发展。”白润轩说。

百度智能云AI计算部负责人王雁鹏则表示,从需求侧来看,十万卡是今年大模型竞争的规模门槛,从技术角度来看,大模型算力基本估算为模型的大小乘以所需要的数据量,“GPT4是万亿参数,大概用了2-3万张H卡集群训出来GPT4,按照Scaling Law推算,GPT5的集群卡数大概在十万量级,可能是5-10万之间,参数级别会提升大概3-5倍。”

然而,与万卡算力集群火热相对应的,是大模型市场的“冷清”。

据经济观察报统计,截至2024年10月9日,网信办共通过188项生成式人工智能备案,也就是有188个大模型可以上线提供生成式人工智能服务。但超过三成的大模型在通过备案后未进一步公开其进展情况;仅有约一成的大模型仍在加速训练模型;接近一半的大模型则转向了AI应用的开发。

这些迹象可以理解为:大模型预训练需求越来越集中了。

与此同时,国内市场相较于海外市场更复杂。相似之处是算力需求持续增长,不同之处是算力封锁、生态不全,加之前期部分炒货囤卡的行为,这就导致了一种诡异的状态——算力既紧缺又空置。因为,“把GPU卡塞进机房”和“构建用于大模型训练所需的算力集群”,是两个完全不同的概念。

但是,对于智算中心的空置率或者浪费程度,并没有一个统一的答案。从钛媒体APP获得的一份资料可以有个大概感知:上半年国内已上线智算中心17亿卡时,使用5.6亿卡时,利用率32%;另有数据显示,目前算力基础设施行业的平均上架率不足 60%。

算力空置引起各方关注

“各地前期已经建设了一批智算中心,不管是国产卡还是英伟达的卡,这些集群都不同程度上存在闲置问题,政府已经注意到了这些问题,智算中心的运营主体也也不少出现亏损,在算力挑战短时间内很难解决的情况下,投资节奏上还是要有所把控。”一位接近政府的行业侧人士对钛媒体App提到。

国家层面先后推出了十余项政策推进智算中心建设,例如“东数西算”“数字中国建设整体布局规划”等,但上述人士告诉钛媒体App,最近发改委已经基本明确,如果还要进一步新建智算中心,而且是采购国外卡,能耗指标均不予批复。如果采购国产卡,考虑支持国产创新,并且在东数西算的八大节点上,还可以安排能耗指标。

据了解,目前智算中心主要投资模式,一是政府投资建设,建设资金来自地方政府财政资金、专项债券发行等,建成后所有权归政府所有;二是企业独立投资建设,由企业联盟、少数企业联合、单独企业等形式进行投资;三是高校或科研机构独立投资建设,向师生、研究人员提供免费算力支撑,服务高校教育场景,这种情况下建设成本较低。

这其中,有不少智算中心向银行贷款采购GPU卡,承诺兜底方都是几家搞基础大模型的公司,比如阿里巴巴、腾讯、百度等。银行也很疑惑,大模型公司本身就有云基础设施和大量GPU卡,绝大多数中间商的议价权和渠道能力还不如这些大厂,怎么让大厂们加钱采购?

钛媒体APP获悉,有地方政府开始斡旋,希望让云厂商租用闲置的智算中心算力。“我们都不知道国内还有这么多卡,某种意义上,算力稀缺的背后存在一些资源错配。”上述人士表示。

该人士还提到,政府意识到可能会有算力浪费的情况出现,但是,部分地方手握能耗指标,和供应商拉扯的时间较多,智算中心建得慢,而部分地方建设得快反而亏损,由此带来的负面甚至引起了高层注意。

据悉,工信部日前面向六个城市定向下发了关于智算云服务试点的批文,希望用公共云的方式,解决前期各地方的智算中心建设问题,特别是国有资金建设的一些小散算力中心浪费问题。

近几个月来,政府侧已经出台多项政策,正强调有序引导,出清落后产能。

例如《数据中心绿色低碳发展专项行动计划》发布,对数据中心行业的区域布局、能效水效、绿电使用进行了严格、全面的规定,并提出“全面清理地方高耗能电价优惠政策”,舆论普遍认为该政策将加速落后产能淘汰,从而改善行业供给结构,促进行业良性发展。

8 月 1 日,《公平竞争审查条例》正式实施,要求各地方政府“没有法律法规依据或国务院批准,不得给予特定经营者税收优惠”,这意味着盛行已久的地方“以税引商”模式被按下了暂停键,企业将更关注经营本身,有利于行业从“卷价格”走向“卷创新”。

云计算行业也看到了智算中心建设的问题。阿里云智能科技研究中心主任安琳提到,目前有三种“万卡集群:

假万卡集群——公司确实有一万张AI加速卡(GPU卡),但分布在全国几个不同的数据中心,每个数据中心有几百张或几千卡,加起来超过万卡。这种集群是“假万卡集群”。

伪万卡集群——拥有一万张AI加速卡且部署在同一个数据中心,但训练特定模型的时候,只有一部分卡实际参与训练。例如:1000卡训练A模型,2000张卡训练B模型,3000张卡训练C模型,4000张卡训练D模型。这种万卡集群是“伪万卡集群”。

真万卡集群——单一集群拥有一万张AI加速卡(如GPU卡),部署在同一个数据中心,并且能通过大规模资源调度技术,让万卡作为“一台”计算机,单一模型能在这一万张卡上同时进行训练。正如100个昆明湖连起来,也训不出一支航母舰队,大模型也是如此,只有真正的万卡智算集群,才能训练出国际先进的大模型。

有数据中心行业人士也表示,数据中心行业对内卷严重的感知非常明显,比如很多数据中心企业无条件为客户预留资源;签订短期租约,客户拥有随时调价调量的权益;过度扩大责任范围;招投标突破合理价格底线等等,这都是一些内卷带来的乱象。

为什么大模型算力会闲置?

在回答这一问题之前,有必要捋清下大模型所需的算力类型。

目前大模型所需的算力主要有三种,其一是超大规模的大模型训练,需要的算力集群越来越大,智算中心供不应求;其二是常规的大模型训练/微调,一般的裸金属或者算力集群都能满足;其三是推理需求,用云主机等都能满足,未来需求有望稳定增长。

可以看出,除了第一种基础大模型的训练需求之外,其余的大模型算力需求并不十分紧缺,不用最新的英伟达GPU卡,国产AI芯片也能顶上,企业可以在价格、成本、易用性等因素之间寻找平衡点。

ZStack CTO王为提到了一个很有意思的现象,也是国内企业不得已为之的权宜之计——他表示,企业对于AI的投入还是相对比较谨慎的,在很多场景下用消费级显卡,很大程度上解决了大模型非预训练的需求。

对于云厂商而言,按照正常的生意逻辑,一边买卡一边以云服务的形式卖出去,不会大肆囤卡,其他的囤卡行为显然没有充分认识到,卖卡这门生意有多难。

租卡也是一种节省成本的方法,GPU正在更新换代,但不是简单的付租金就行,云厂商还要带着工程团队去做大量改造,估算地价、电价等,额外配置交换机、网卡、光缆等,任何资本支出都要盘算是否值得投入。

安琳进一步补充道,智算中心的三大主要门槛包括集群网络、任务调度、智能运维。王雁鹏也表示,国内构建10万卡集群面临着三大难题,跨地域部署、多芯混训以及集群稳定性,这些难题包括技术和工程上的多重挑战。

首先是网络,大模型催生了一种全新的网络需求,此前从未有过,也就没有相应的成熟方案,市面上所有方案都是边研发边使用,可以说,网络技术直接决定集群规模能建多大。

“几百G的带宽,在每一个毫秒范围内正向模型训练带宽全占满,下一个毫秒又反向全占满回来,在人类历史上的通信,没碰到过这种需求。

这涉及到诸多软件硬件,交换机、网卡芯片硬件和软件设计,路径选择的算法、通信协议的加速。要干这件事,网卡、交换机甚至中间用的光缆都得专门定制。”安琳说道,阿里云AI高性能网络架构HPN 7.0成果论文被SIGCOMM2024收录,成为SIGCOMM历史上首篇关于AI智算集群网络架构的论文。

其次是调度,算力集群规模小,网络当然简单,但是效率和规模就没有竞争力,如何让计算任务灵活的在硬件资源调度,资产利用率就能越高,算力价格就可以做到更低。

传统思路是按照硬件资源做调度,先监测算力卡是否空闲,如果闲着了就给他扔一个任务过去,这是最简单且效率极低的调度,云计算行业早已经进化到按任务来调度,可以监测到每一张卡上每一个任务的进程,然后根据任务进程分配新的任务。

安琳强调,“不是简单地给算力卡安排任务,而是把更细颗粒度的一个个不同的计算任务在这些卡间做调度,需要很多的工程技术能力积累,这也是为什么现在全世界做得好的AI公司,基本上都属于云计算公司。”

最后是运维,在以前的计算中,算力卡坏了可以很快将其隔离,然后继续用其他卡运行,现在大模型有很多瞬时故障,在毫秒级时间有抖动,一次通信过程中的抖动和丢包,就会导致GPU利用率下降50%。据安琳介绍,阿里云已经升级到毫秒级检测,及时从集群里隔离故障算力。

此外,国内企业构建算力集群还面临着一个现实的困难:芯片。

国内企业面临算力供应不稳定的挑战,较难构建单一大规模训练集群。

现实情况是,企业内部会出现同一厂商不同代际芯片,或者不同厂商芯片共存的情况。这些芯片如何进行混部训练,同时保证混部训练的效率也是难题。

此外,随着芯片集成度的不断提高,芯片的故障率也会相应上升,英伟达H系列芯片的故障率比A系列高3-4倍。并且算力集群规模越大,其故障率就越高。按照H系列芯片的故障率水平,十万卡集群每20分钟就会出现故障。较高的故障率对稳定性训练保障提出了更高的要求。

王雁鹏介绍,包括百度在内的国内厂商正在破解这些难题。在跨地域方面,针对由于传输距离变长所产生的高延迟,百舸4.0已经构建了十万卡级别的超大规模HPN高性能网络,通过提供更高效的拓扑结构、更优的多路径负载均衡策略及通信策略,能够实现几十公里的跨地域通信。同时,在通信效率上,通过优化的拥塞控制算法、集合通信算法策略,将带宽有效率提升至95%,实现了完全无阻塞。最后,通过10ms级别超高精度网络监控,保障了网络稳定性。

智算中心,从内卷走向有序

对于智算中心的建设是否过于超前,不同人有不同看法。一方认为,国内智算中心还无法摆脱海外生态体系,需要三到五年的过渡期,在此过程中,大规模加速建设智算中心必然会带来大量浪费。

另一方认为,海外封锁只会愈发严峻,国产算力生态必须加速成熟,相比于国家战略的竞争,超前建设带来的一些小问题是可以接受的。有消息显示,受到美方要求,台积电被迫采取临时策略,将暂停向大陆AI算力芯片客户供应7nm工艺及以下更先进制程的代工服务。

目前来看,囤积英伟达卡的确带来一部分算力浪费,如上所述,很多购卡方不具备智算中心所需的网络、调度和运维能力。一位智算中心技术专家直言,“之前太多的投机倒把,很多都不是干这个行业的,觉得囤货就能挣钱,把它塞到一个机房里面去,稳定性,各种容错,乱七八糟的问题都解决不了,造成了很多浪费。

国产算力也同样存在问题,该专家谈及国产AI算力的浪费时感慨,“华为的运营能力太强,在大家还没有准备好用国产卡和用华为的时候,花了大力气搞算力场、智算中心,运营商建了大几万卡的集群,它的芯片距离客户开箱即用,到真正能用好还有一些距离,接下来会有更多的国产芯片进来,这个问题会进一步放大。”

“但是对于整体国产卡这件事情我比较乐观,基于大模型时代算力格局变化。原来的模型非常分散,CUDA生态非常厉害是因为要兼容那么多模型,现在大模型比较收敛的情况下,大家的主流框架是一样的;同时英伟达又这么贵,再考虑到算力可获得性问题,大家就会更愿意尝试用国产卡。”他补充表示。

近日,《科技日报》也头版刊登了全国政协委员张云泉署名文章《智算中心建设不可盲目跟风》,文章强调,智算中心的建设需要巨额资金投入,而投资回报却不确定。

文章表示,由于智算技术更新迭代很快,智算中心的生命周期一般只有5至10年,如果没有强大的技术储备和升级能力,就可能陷入不断投入却无法跟上技术发展步伐的困境。另外,智算中心的运营管理离不开专业的技术人才和高效的管理团队,否则就可能无法发挥其应有作用,甚至出现设备闲置、资源浪费等问题。由此看来,智算中心该不该建、能不能建、什么时候建、建在哪里,需要科学、稳慎决策,绝不能头脑发热、一哄而上“赶时髦”。总的原则应当是,在市场需求明确且可持续的情况下,因地制宜、按需建设、适当超前。

一些地方也加强了对智算中心运营的要求,比如山东德州价值约2亿元的“全国一体化工业大数据山东云中心省会经济圈区域分中心数据机房‘德智未来’智算中心项目”,就在招标文件中明确写明了“采用设计施工采购运营一体化的模式建设”,要求运营期限不低于5年,并规定了项目验收投运后每年算力的最低收益。

王为也表示,从政策角度上看,政府对智算中心的要求比以前多,以前是先把智算中心建起来就行,现在建设初期就会找好的运营方,或者建设与运营一体,保证算力的使用率。

“去年算力消耗以训练为主,目前看消解不了算力中心的算力,很多大模型厂商手里囤的算力也不少,一些大模型厂商也减少了预训练,不太需要对外租很大的算力了。现在很多智算中心也开始找一些推理的场景,研究落地应用,使用端会更分散,整个市场应该会更健康。”他说。

注:文/张帅,文章来源:钛媒体(公众号ID:taimeiti),本文为作者独立观点,不代表亿邦动力立场。

文章来源:钛媒体

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0