OpenAI 和谷歌 DeepMind 的 AI 模型在 2025 年国际大学生程序设计竞赛(ICPC)世界总决赛中表现非常出色,甚至超越了顶尖的人类参赛队伍。特别是 OpenAI 的系统,成功解决了全部 12 道题目,获得了满分

下面这个表格汇总了它们的表现:

参赛方/团队解题数量排名/水平关键亮点
OpenAI 系统 (GPT5+推理模型)12题相当于第1名 (所有题目全部解出)11道题一次性答对
谷歌 Gemini 2.5 Deep Think10题相当于第2名 (金牌水平)解出所有人类团队均未解决的C题
圣彼得堡国立大学 (人类冠军)11题人类第1名解出题目数量最多的人类队伍
北京交通大学 (中国最佳队伍)10题与Gemini解出题数相同国内第一中国队伍中表现最佳

OpenAI 如何做到的?

OpenAI 此次并非使用单一的、为竞赛专门训练的模型,而是采用了一个由 GPT-5 和一个未公开的实验性推理模型 组成的“通用推理模型集成体”

  • GPT-5 承担了大部分任务,独立解决了 11 道题目,并且这 11 道题都是一次性提交成功

  • 最棘手的那道难题(问题 G,并非所有人类队伍都未能解决的问题C),则由那个实验性推理模型接手,在经过 9 次尝试后成功攻克

  • OpenAI 强调,他们的模型没有为ICPC竞赛进行任何专门的优化或训练,这在一定程度上展示了其通用推理能力。

谷歌 Gemini 的表现

谷歌的 Gemini 2.5 Deep Think 高级版本 同样展现了强大实力

  • 它解出了 10 道题,达到了金牌水平,表现仅次于 OpenAI

  • 解题速度很快:比赛开始后,仅用 45 分钟就正确解答了 8 道题目

  • 它成功解决了 “问题C” —— 一道关于管道网络液体分配优化的复杂题目,而所有人类参赛队伍都未能解出此题。Gemini 通过假设储液罐有“优先级值”,并应用动态规划算法极小极大定理,将其转化为寻找最优优先级值的问题,最终通过嵌套三分搜索成功求解

  • 谷歌也表示,参赛的 Gemini 版本并非专门为ICPC训练,而是用户在Gemini应用中可直接使用的版本

这次胜利意味着什么?

AI 在顶级编程竞赛中达到金牌水平并超越人类顶尖队伍,确实具有标志性意义:

  1. 抽象推理与问题解决能力的飞跃:ICPC 的要求远不止是写代码,更核心的是在巨大压力下进行抽象思维、逻辑推理、算法设计以及高效实现的能力。AI 在此类任务中表现出色,表明其正在从“处理信息”向“解决复杂推理问题”迈进

  2. 成为人类程序员的“伙伴”:这预示着 AI 有潜力成为程序员强大的问题解决伙伴(coding partner),而不仅仅是辅助工具。它可以帮助人类专家查漏补缺、提供新颖思路、优化解决方案,甚至处理那些人类可能忽略或难以解决的棘手问题

  3. 推动科学工程领域发展:这种复杂的推理能力可以应用于许多科学和工程领域,如设计新药微芯片

  4. 对AGI的展望:谷歌DeepMind副总裁Quoc Le将此称为“朝着通用人工智能(AGI)迈进的历史性时刻。虽然对此存在不同看法,但无疑显示了AI在通向更通用智能道路上的进步。

也需要一些理性思考

在欢呼的同时,也有一些理性的声音提醒我们:

  • 竞赛与现实开发的差异:牛津大学计算机科学副教授 Bartek Klin 指出,在讲求速度的竞技环境中成功,未必能直接转化为在实际软件开发中的优异表现,“现实中最困难的问题需要半年时间思考。”

  • 并非从零开始:这些AI模型是在大量现有代码和算法知识上训练出来的,它们学习了人类积累的智慧。

  • “暴力”求解与“理解”:AI的求解过程可能包含了大量的试错和计算,其方式与人类的理解和创造未必完全相同。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部