广告
加载中

AI替代程序员?一项最新测试的结果恰恰相反

张申宇 2025/06/25 14:27
张申宇 2025/06/25 14:27

邦小白快读

国际金牌团队测试显示,大模型在复杂编程题上仍难替代人类。

1.测试涵盖584道顶级赛事题目,AI在中等难度通过率仅53%,高难度题目全军覆没。

2.AI擅长知识密集型题目(如动态规划),但面对需要创造力的观察型题目失败率达100%,常生成「看似正确实则错误」代码。

3.程序员的核心价值体现在非知识密集型场景,特别是在算法构思、数学推导等高阶技能领域依然保有优势。

AI编程技术的局限反而创造出品牌战略机遇。

1.科技巨头重点布局差异显著:国际厂商专注智能体开发(如GitHub Copilot),国内厂商侧重本土化工具研发(如字节MarsCode)。

2.高端程序员市场需求坚挺,企业数字化进程中仍需具备算法设计能力的技术中坚力量。

3.消费趋势显示,AI工具当前更适合作为辅助开发工具,而非完整替代方案。

编程工具市场存在结构性机会与风险。

1.政策层面:国内外AI编程工具正加速发展,但技术壁垒仍限于知识密集型场景。

2.合作机会:IDE整合(如VS Code插件生态)、代码托管平台深度协作(GitHub与OpenAI合作模式)值得关注。

3.风险提示:依赖AI工具可能导致基础编程能力退化,企业需建立人机协同的开发流程规范。

AI技术与传统生产的结合呈现新特征。

1.工业软件领域可引入AI实现代码自动生成(如CAM编程),但需保留核心工程师团队做质量把控。

2.生产流程数字化启示:AI质检系统可借鉴代码查错技术,通过模式识别检测设备异常。

3.商业机会:面向制造业的轻量化编程工具需求显现,特别是自动化脚本生成领域。

编程领域的技术服务亟需升级方案。

1.客户痛点:企业使用AI生成的代码存在逻辑漏洞风险,特别是算法设计环节。

2.解决方案方向:开发代码逻辑验证系统,或创建「AI生成+人工复核」的全流程管理平台。

3.行业趋势:AI编程工具正逐步分化出推理型(处理复杂逻辑)与执行型(代码补全)两大技术路线。

开发者生态运营面临新挑战。

1.平台需求:需要建立AI代码质量评估体系,防止低质AI生成代码污染开源社区。

2.运营策略:可构建阶梯式开发者认证体系,区分传统程序员与AI辅助开发人员。

3.招商机会:重点吸引能提供算法设计服务的专家型技术团队入驻,弥补AI工具短板。

编程领域揭示大模型发展新方向。

1.学术价值:首次量化证实LLM在创造性推理上的局限,创新性提出「知识密集/观察密集」问题分类框架。

2.商业模式启示:企业应建立人机协作开发流程,将AI定位为辅助工具而非替代角色。

3.政策建议:教育体系需强化算法设计、数学建模等AI难以取代的核心能力培养。

{{loading ? '正在重新生成' : '重新生成'}}

返回默认

我是 品牌商 卖家 工厂 服务商 平台商 研究者 帮我再读一遍。

AI编程已经成为生成式AI落地的过程中最热门的赛道之一,不过,近日一支由国际算法奥赛金牌得主组成的科研团队发表的论文却跟AI编程“泼了一盆冷水”。

AI优势仍停留在“知识密集型”

这支由国际算法奥赛金牌得主组成的科研团队对目前市面上常见的大模型产品(包括了GPT-4o、DeepSeek R1、Claude 3等20个顶级大模型)进行了测试(点击阅读LiveCodeBench Pro:How Do Olympiad Medalists Judge LLMs in Competitive Programming?),测试主要内容是:一个由Codeforces、ICPC和IOI这些顶级赛事中的问题组成的LiveCodeBench Pro基准测试,在过程中,这些问题会持续更新,以降低数据污染的可能性,共计设置了584道编程赛题。

他们为每一个问题进行了算法类别的标注,并对模型生成的失败提交进行了逐行分析。

在难度层级设置上面,团队采用Codeforces Elo评级启发式方法进行难度标注。官方Elo评级≤2000的问题标记为 “简单”:世界级选手通常可使用标准教科书技术和观察在约15分钟内解决;中等层级(2000~3000)包含需要融合两种或更多成熟算法,并结合非平凡数学推理和观察的问题;任何评级 >3000的问题视为 “难”——这些挑战通常依赖极复杂、非明显的推导或演绎飞跃,需要对算法理论的精湛掌握和深厚的数学直觉。超过99.9% 的参与者无法解决,甚至在实时竞赛中最强选手有时也未能解决。

根据该团队发布的论文显示,在没有外部工具的情况下,表现最佳的模型在中等难度问题上的通过率仅为53%,在难题上通过率为0%,而这些领域正是人类专家的强项。

除此之外,他们还发现,LLMs在实现密集型问题上表现出色,但在涉及微妙算法推理和复杂案例分析的问题上却表现不佳,常常生成看似正确实则错误的推理。高性能似乎主要由实现精度和工具增强驱动,而非superior reasoning(优越的推理能力)。

同时,团队还对大模型在某些方面的失败分析了原因,分析表明LLM的代码通常语法更可靠,但在构思正确算法或从问题中提取正确观察所需的高级推理中挣扎。尽管我们的正式注释仅涵盖o3-mini的提交,初步人工检查表明大多数现有LLM共享相同的错误模式。

该团队在经过测试之后,得出了四个结论:

第一,当前模型在更结构化和知识密集型问题(需要更多逻辑推导而非演绎)中表现出色,但在需要观察和创造力的观察密集型问题中表现显著更差。仅在组合数学、线段树和动态规划问题上,o4-mini-high表现超过大师水平。

第二,与人类专家相比,概念错误是模型失败的主要原因。LLM甚至常在提供的样例输入上失败,表明对给定信息的利用不完整,即使在简单场景中也有改进空间。

第三,推理模型在组合数学和知识密集型问题上,比非推理模型表现出大幅提升,而在观察密集型问题上的增益有限。

第四,尽管通过增加尝试次数,可以显著提升模型整体性能,但仍难以解决高难度层级的问题。

AI编程已是“兵家必争之地”

虽然测试的结果不尽如人意,但AI编程已经成为科技大厂必争的市场,也是他们继续AI故事的重要一环。比如,微软基于GPT-4模型推出了GitHub Copilot提供代码补全、生成和错误修复功能,支持多种IDE(如VS Code、JetBrains),并新增“智能体”功能,可自主执行开发任务;OpenAI推出了Codex智能体,支持代码生成和复杂任务处理,与GitHub深度整合;谷歌推出了Gemini 2.5 Pro与JulesAI代理服务;字节跳动推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型开发,以及MarsCode一站式开发平台;美团上线了AI编程工具“NoCode” ........

从目前发展趋势上看,国内与国际科技公司聚焦的方向不尽相同,国际厂商更为强调智能体和复杂任务处理;国内工具如通义灵码、Trae等更注重本土化适配和快速开发。

AI编程当下如此之火,也让一些程序员产生了可能被AI“替代”的焦虑。不过,通过前文提及的团队测试不难看出,在一些非知识密集型的编程场景下,程序员的价值依旧很大,能力自然也超过AI。所以,虽然AI编程成为热门赛道,但对于企业而言,一位有经验,能操作高难度,具备“创造力”的程序员,依旧是企业数字化过程中的中坚力量。

而大模型仅在知识密集型的场景下具备显著优势,也不仅仅体现在编程领域。在此前笔者与行业内多名专家的交流中,他们也都向笔者表示了,大模型现在的比较有优势的场景还是主要集中在知识密集型的场景下。在这些场景下,AI确实能够帮助企业实现降本增效,不过这种能力距离我们期待的,能够统筹全局的智能体,还有很大差距。当AI能独立解决IOI金牌题时,通用人工智能才会真正到来。

注:文/张申宇,文章来源:钛媒体(公众号ID:taimeiti),本文为作者独立观点,不代表亿邦动力立场。

文章来源:钛媒体

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0