推理模型元年,新模型、新技术依然可期
整体技术情况是企业进行推理模型落地部署和场景探索的基础。从技术本身而言,今年可被视为推理模型元年,在模型和技术层面,存在许多新的迭代方向,技术路线也存在竞争。
模型方面,梳理从OpenAI o1 Preview版本发布到Grok 3发布的过程,其间不仅有OpenAI和DeepSeek,还有千问、Google的Gemini,以及智谱、讯飞、阶跃星辰、Kimi等。预计3月左右,Anthropic和OpenAI有可能发布GPT 5,不同厂商在推出不同模型。与去年下半年模型发布节奏相比,变化巨大。ChatGPT刚发布后,国内厂商基本每月迭代一个版本,2023年大部分厂商按月或按季度更新迭代大语言模型版本。2024年下半年,可能半年都未必有新版本更新,更多更新转向多模态模型。进入2025年,由于DeepSeek开源模型发布,预计2月、3月乃至整个上半年,不同厂商都会发布推理模型,且版本迭代速度加快。Grok比DeepSeek晚发布约一个月,预计豆包、Anthropic等企业也会发布新模型。
从模型本身来看,去年下半年大语言模型的Scaling Law接近极限,但目前推理模型的Scaling Law才刚刚起步,这也是版本迭代井喷的原因之一,预计2025年还会出现大量新的模型版本。此外,DeepSeek公开了强化学习(RL)这一技术路线,但它并非唯一可行路线。此前还有过程奖励、蒙树等不同技术路线,以及无需思维链的隐式推理技术路线等,这些技术路线仍在探索中,RL是首个跑通的,但不意味着只有它可行。
基于大量新推理模型和新技术路线的探索,当考虑将其落地到企业进行部署时,鉴于模型版本不断迭代更新,建议企业采取由浅入深、逐步推进的方式落地推理模型。以下列出四条由浅入深的路径:
1. API接入:这是最基础的方式,目前许多央企已在企业内部即时通讯(IM)中嵌入推理模型,采用类似微信对DeepSeek进行灰度测试的模式。采用API接入,一是速度快,能迅速完成部署;二是可实现全员使用。相较于之前接入大厂API需高额付费,接入R1虽仍需付费,但金额大幅降低,所以多数企业选择从API接入起步。
2.本地化部署结合知识库RAG:这是上一波大语言模型落地较为通用的方式,目前仍广泛应用于企业内部,尤其在金融机构和央企中。不过,各企业部署的R1版本有所不同,少数采用6000亿参数版本,多数采用蒸馏后的千问32B版本。
3.对知识库RAG中的提示词工程进行精细化处理:部分企业会将基于思维链的提示词单独提取出来,做进一步精细化处理。当前多数企业推进速度最快也就到这一步,也是较为理想的实施阶段。完成前三步后,一方面,全员参与使用有助于拓展新应用场景,企业在部署模型后,更关注投资回报率(ROI)及能否开拓新场景,通过全员探索自下而上的方式较为有效;另一方面,继续深入则不可避免涉及监督微调(SFT)和模型蒸馏。由于推理模型不断涌现,难以保证三个月后R1模型不因自身迭代或新厂商模型的出现而被超越,这就可能需要重新进行SFT。
4.数据相关问题:在整个过程中,R1存在一个尚不明晰的问题,即60万思维链(COT)数据和20万通用知识数据。企业在进行强化学习或蒸馏时,这60万COT数据的获取存在较大疑问。目前,一些新开源版本约有11万COT数据开源,未来几个月Grok 3是否会开源COT数据尚不确定。数据开源与模型版本持续迭代同样重要,若这些数据开源,企业进行蒸馏和SFT时将更为顺畅。
综合考量各方面因素,建议现阶段企业主要尝试前三个要点,对于绝大部分企业而言,开展第四步进行监督微调(SFT)以及自行进行模型蒸馏,尚未达到理想的时间窗口期。不过,少部分已进行语言模型(LM)预训练的企业提出,能否基于自身已完成预训练的版本,开展类似R1的强化学习过程,以期将原本懂企业知识的预训练模型,转变为既懂企业知识、推理能力又强的企业专属推理模型。从R1的学术论文来看,该路线比SFT更为复杂。不建议企业采用此路线。核心原因在于,在R1论文中做过类似测试。测试中,R1一方面基于千问版本进行R1 Zero强化学习,另一方面直接基于R1进行蒸馏。从最终推理效果,尤其是关键的通用问题回答推理效果来看,R1 Zero得分为55分 ,R1蒸馏后的得分为62分,蒸馏效果优于R1 Zero强化学习效果。对于32B版本或参数不到千亿的版本,蒸馏效果强于强化学习。此外,蒸馏属于SFT范畴,而强化学习所需算力更多,耗费时间更长。所以,无论是从成本、时间还是效果角度分析,蒸馏的性价比更高。这是目前不建议企业复制R1强化学习过程的关键所在。这属于第五条路径,目前来看,该路径还没有特别有效的调整或优化方式。
基于上述两点,建议企业现阶段更多选择采用API接入或知识库检索增强生成方式,这与上一版大语言模型落地思路一致,是从推理模型落地路径角度给出的具体建议和实施方式,同时还包含一些推荐配置。大部分企业,尤其是春节后复工的企业,在部署32B模型时,通常使用两张A100显卡;部署70B的Llama版本模型,大概需要四张A100显卡。若部署迁移模型,使用A100显卡的话,至少需要两台8卡机器才能运行,所需预算较高。
02
推理模型使得大模型向决策场景迈出重要一步
推理模型与传统大语言模型相比,有着核心区别。若将传统大语言模型形象地类比为高中生或本科生,那么推理模型则更像是在逻辑推理能力方面经过专项训练的研究生。这一本质变化使得传统大语言模型多应用于生成类场景,即当时所谓的生成式AI;而推理模型则推动生成式场景向角色场景迈进,实现了重要跨越。基于此,我们梳理了部分已知企业正在尝试的推理模型应用场景。
· 在能源领域,推理模型的角色场景在去年四五月份就有体现,当时出现的AutoGPT被用于电力负荷预测、电力价格预测以及电力交易策略优化。然而,上一版本的大语言模型所支撑的AutoGPT难以满足这些决策场景的需求,效果欠佳。如今,随着推理能力的提升,电力企业基于DeepSeek新模型重新进行决策场景的探索,依然围绕需求预测、价格预测以及交易优化展开,这是能源领域正在突破的决策场景。
· 在金融领域,由于授信风控对模型的可解释性要求较高,因此更多通过可解释的方式来构建角色场景。比如在反洗钱方面,传统大语言模型主要协助反洗钱工作人员撰写报告,而现在推理模型能够智能识别反洗钱可能存在的新模式。此外,新型反欺诈识别、财务对账与分析等,对于传统大语言模型而言复杂度较高的场景,也成为银行重点探索的新方向。金融和能源领域是目前重点突破的决策场景。
· 在制造和医疗领域,相关企业也在进行尝试,不过预期所需时间比金融和能源领域更长。例如,制造领域持续探索的智能排查、工艺自适应,以及医疗领域的疾病预测、风险预测等,这些普遍是大部分企业正在尝试的与决策高度相关的新场景。
从企业内部场景来看,推理模型的核心发展方向是向决策场景迈进。形象地说,推理模型就像是从本科生成长为推理能力较强的研究生,这是其最大的变化。这一变化带来的结果是,上一波提及的Copilot模式,在这一波基于推理模型的场景应用中,演变为co-creator,即共创模式。在这个共创过程中,产研和科研领域的价值将得到更大程度的释放。在研发设计阶段,传统大语言模型仅扮演知识问答的Copilot角色,而现在融入了推理逻辑,能够从知识库问答的方式,全面参与到整个产研过程中,相当于成为了另一位专家。
推理模型在决策场景中带来的最大变化,是推动企业从生成场景向角色场景转变。除此之外,端侧场景也发生了显著变化,其核心的渗透变化首先体现在消费级端侧模型的成熟。今年新上市的手机,基本上将AI大模型作为标配。这些大模型不仅局限于云端模型,更多的是在端侧直接部署小参数模型,这已成为今年手机的普遍配置。在此过程中,模型量化问题以及芯片设计适配问题均已得到解决。DeepSeek带来的更大价值在于,端侧小参数模型能够直接基于蒸馏大幅提升推理能力,这使得手机厂商此前已开发的端侧芯片模型在推理能力上实现了重大突破,对手机厂商而言是一大利好。
同样,端侧场景也逐渐渗透到企业领域,主要分为三大类场景。第一类是人员作业场景,第二类是设备作业场景,这两类场景作业量通常较大,使用Pad终端是提升终端作业效率的有效方式,这和手机的应用原理相似,容易理解。另外,端侧还存在许多决策分析场景,这得益于端侧模型推理能力的提升。设备维修、生产质检、能耗管理这三个场景,将成为2025年企业在边缘端重点落地的场景。所以,从场景角度来看,决策场景和边缘端场景是2025年企业目前重点推行的方向。
企业为模型付费意愿下降,公有云推理支出增加
最后,谈谈预算相关的变化。先说开源模型,以DeepSeek为代表的开源模型带来的最大变化是推理能力的增强,过去闭源模型的推理能力领先开源模型一个代际。例如,侧重深度推理的闭源模型原本优势约为50% ,目前已缩小至6%。随着今天Grok 3发布,其在未来几个月预计会开源,届时大量场景的分数将被重新刷新,开源模型和闭源模型在推理层面的能力基本拉平。
在过去的语言理解层面,各类模型的表现本就不相上下。对于我们已交流过的绝大部分企业而言,为闭源模型付费的意愿已降至最低点。目前我们判断,模型费用预算总体不会减少,只是预算分配发生转移。一方面,许多企业采用推理模型的API调用,这是预算转移的一个方向;另一方面,基于开源模型的部署运维以及应用搭建,成为另一个预算流向。此外,过去企业中可能仅有10%的人使用大模型应用,如今则几乎全员都在使用,这必然导致推理算力服务预算增长。所以,从企业角度来看,今年原本预留给闭源模型的付费,基本转移到了开源模型生态、API调用以及推理算力方面,这就是模型预算的变化。另外,由于DeepSeek的出现,整个大模型市场的支出远超此前预期。
尽管目前企业尚未重新调整整体IT预算,毕竟2025年整体IT预算仍呈微降态势,但AI大模型在其中所占比例以及企业投入意愿,相较于2024年末做规划时明显增强。目前我们预计,企业若对大模型进行支出,基本会安排在整个企业IT支出的5% - 10%,而2023年、2024年这一比例约为3% - 5%,可见有明显增长。此外,今年除了企业侧落地,过去多为私有化部署带来费用增长,今年基于公有云支出的费用会有大幅增长,这也是今年295亿支出中核心的增长方向。
文章来源:爱分析ifenxi