【亿邦原创】9月29日,有用户发现DeepSeek在HuggingFace官方页面悄然上传了V3.2-base的模型文件,尽随后被删除,引发社区广泛猜测。
随后,DeepSeek官宣正式发布DeepSeek-V3.2-Exp模型,即实验性(Experimental)版本,并在官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。
作为迈向新一代架构的中间步骤,V3.2-Exp在 V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证,训练效率提升40%,推理速度优化35%。
DeepSeek表示,为了严谨地评估引入稀疏注意力带来的影响,特意把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行了严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。
同时API大幅度降价,DeepSeek表示,在新的价格政策下,开发者调用DeepSeek API的成本直降50%,百万token处理成本低于行业均值60%。保留V3.1-Terminus对比接口至2025年10月。
此次更新距离上一版本DeepSeek-V3.1-Terminus的发布仅隔一个月,反映出DeepSeek迭代速度的显著提升。
今年以来,受限于芯片,DeepSeek模型迭代速度明显受阻,R2难产,但V3仍在小步快跑。
2025年3月,DeepSeek通过官方社群低调宣布V3模型小版本升级,优化长上下文与代码生成能力。
5月试升级R1模型,推理速度与代码生成上显著提升,在Live CodeBench测试中性能媲美OpenAI o3模型,被开发者称为“开源胜利。
8月21日,DeepSeek-V3.1发布,采用UE8M0 FP8参数精度,专为下一代国产芯片设计,推动国产算力生态发展。
9月22日,V3.1-Terminus版本上线,解决中英文混杂、异常字符等输出不稳定问题,强化了Agent能力,还提供“非思考模式”(常规任务)与“思考模式”(复杂推理)双路径,增强可解释性。
同时,智谱AI也宣布其GLM4.6模型即将亮相,在Z.ai官网可以看到,GLM-4.5标识为上一代旗舰模型,预计将带来更大的上下文支持能力-3-7。
这一连串动态可以看出,中国大模型竞赛正进一步向纵深发展,基座大模型之争成为一场 “全能赛” ,不再是单点技术的比拼。厂商们既要在多模态、推理等技术高度上攀登,又要在成本、开源生态和商业化落地等 “性价比”和“实用性” 上做到极致。
亿邦持续追踪报道该情报,如想了解更多与本文相关信息,请扫码关注作者微信。
文章来源:亿邦动力