
靠近 Claude Opus 4.6 和 GPT Codex 5.3 的利害攻势,谷歌反手等于一个Gemini 3 Deep Think的要紧升级。

在 Codeforces(一个包含多样竞技编程挑战的基准测试平台)上,它赢得了惊东说念主的3455 Elo 分数,绝顶于宇宙第 8 名。

这下子,民众唯有 7 东说念主的编程水平能排在它前边了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的实力不啻于此,它还平直把ARC-AGI-2——这个公认测试 AI 推忠良力的前沿基准,给刷到了史无先例的84.6%。
要知说念,之前最强模子的得分在 60%-70% 之间游荡,Claude Opus 4.6 的得益也唯有 68.8%。
在东说念主类临了磨砺(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4%的得益。

官方暗意,新版 Deep Think 是谷歌有益树立的推理模式,旨在鼓动智能前沿发展,并处罚科学、探究和工程限度的当代挑战。
另一位"尧舜禹"——清华物理系别传特奖得主姚顺宇(Shunyu Yao),旧年 9 月加入谷歌 DeepMind,亦然这次 Deep Think 新模子的参与者。

新版 DeepThink 还是走进了实验室
升级后的 Gemini 3 Deep Think 实力究竟有多强?
它的诡计不啻于赢得基准测试,而是要走进科研和工程限度,匡助工程师处理复杂任务。
新版 Deep Think 不错分析草图,对复杂体式进行建模,并平直生成用于 3D 打印的实体文献。这是它打印的一个条记本电脑支架:

谷歌 VP Josh Woodward 在 X 上晒出了打印的后果,看起来对草图绝顶复原:

罗格斯大学的数学家 Lisa Carbone,诈欺 Gemini 3 Deep Think 审阅了一篇高度专科的数学论文。
截止 Gemini 3 Deep Think 凯旋地识别出了一个隐微的逻辑颓势,而这个颓势在此前的东说念主工同业评审中均未被发现。

杜克大学的王安实验室,诈欺 Gemini 3 Deep Think 本事优化了复杂晶体助长的制备花样,以期发现新的半导体材料。
截止 Gemini 3 Deep Think 凯旋设想了一种简略助长厚度大于 100 微米薄膜的工艺,达到了以往花样难以企及的精准方针。

在 X 上,DeepSeek 多模态团队探究员 XiaoKang Chen 也暗意:Gemini 3 Deep Think 相配擅所长理科学限度中的长尾任务。
他给 Deep Think 输入了一张复杂分子结构的图片,随后模子便准确地考虑出了分子式。

勇夺三项新 SOTA,推理资本裁汰 82%
旧年 Deep Think 有益版还是 IMO 等海外竞赛中夺下金牌。现时,全新升级后的 Deep Think 又在多项高难度的基准测试中全面刷新 SOTA:
不使用任何器具,在 HLE 中赢得新 SOTA ——48.4%;
在 ARC-AGI-2 测试中赢得前所未有的84.6%的得益,并经 ARC Prize 基金会考证;
在 Codeforces 上赢得了惊东说念主的3455 Elo 分数;
在 2025 年海外数学奥林匹克竞赛中达到金牌水平。

其中,ARC-AGI-2 被誉为 AI 界的"图灵测试",旨在算计模子处理从未见过的新颖推理任务的智力。
要知说念,旧年 12 月刚发布的初代 Deep Think 得分如故 45.1%,不到三个月时刻还是飙升到 84.6%,比 Opus 4.6 还要强出一截。
而在 ARC-AGI-1 上,Gemini 3 Deep Think 赢得了 96% 的得益,平直顶到天花板了。

性能晋升的同期,推理资本也在大幅下跌。初代 Deep Think 实践每项任务的资本为 77.16 好意思元。这次升级让资本裁汰了 82%,每项任务仅需13.62 好意思元。

由于 1 和 2 齐被 Gemini 刷爆了,现时 ARC Prize 还是在构建 ARC-AGI-3 了……
除了数学和编程,升级后的 Deep Think 在化学和物理等已往的科学限度相同发扬出色。
在 2025 年海外物理奥林匹克竞赛和化学奥林匹克竞赛中,Gemini 3 Deep Think 在笔试部分赢得了金牌级别的得益。
此外,它还展现了在高等表面物理方面的智力,在 CMT-Benchmark 测试中赢得了 50.5% 的分数。

华东说念主带队,打造最强推理模子
Gemini 3 Deep Think 的研发团队中,有不少华东说念主身影。
中枢成员包括 95 后华东说念主科学家Yi Tay,他在 Gemini 团队中从事强化学习和推理主张的探究责任。

此前,他曾在 Google Brain 共同指导早期大说话模子花样,包括 PaLM-2、UL2 和 Flan-2。
在 Google Brain 责任 3 年多之后,2023 – 2024 年间,Yi Tay 曾片晌离开谷歌,手脚蚁合首创东说念主创办了一家独角兽 AI 初创公司—— Reka。
Reka AI 由 DeepMind、谷歌和 Meta 的探究东说念主员创立,其创办初志是打造功能雄伟且高效的基础模子,现时也树立界面设想、应用逻辑以绝顶他应用方面的器具。
在创业一年半后,Yi Tay 便重返谷歌 DeepMind,担任高等资深探究科学家,络续从事东说念主工智能和大说话模子的探究。
旧年刚从 Anthropic 跳槽到谷歌 DeepMind 的清华学友姚顺宇,也参与了 Deep think 新模子的树立。

姚顺宇本科就读于清华大学物理系,曾拿下过清华本科生罕见奖学金(清华授予在校优秀本科生的最高奖学金荣誉)。
本科时期,他就已在《Physical Review Letters》(海外物理学限度最顶级的学术期刊之一)发表高水平论文,初次在海外上给出了对于非厄米系统的拓扑能带表面,不仅准确瞻望了联系风景,还界说了两个新的物理主见。
本科毕业后,他赴斯坦福大学络续攻读博士,专注于量子多体蒙眬、怒放量子系统能源学等前沿问题,师从 Douglas Stanford(好意思国表面物理学家,被同业视为顶尖且有后劲改革物理学发展主张的年青科学家之一)、Zhenbin Yang(杨振斌,华侨好意思国科学家,公认的 20 世纪最蹙迫的物理学家之一)等驰名学者。
博士毕业后,他先是去 UC 伯克利作念博士后探究,随后加入了 Anthropic。在 Anthropic 责任的一年时刻里,他参与组建了强化学习基础团队,厚爱了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背后的基本强化学习表面。
离开 Anthropic 之后,姚顺宇转战谷歌 DeepMind,络续从事 AI 方面的探究。这次 Deep Think 新模子发布,亦然他在谷歌的首秀之作。
参考连结:
[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[ 2 ] https://x.com/ShunyuYao14/status/2022013770843967900
[ 3 ] https://x.com/YiTayML/status/2021988841142534287
[ 4 ] https://x.com/NoamShazeer/status/2021988459519652089
[ 5 ] https://x.com/PKUCXK/status/2022144532272623990
— 接待 AI 居品从业者共建 —
� �「AI 居品常识库」是量子位智库基于长久居品库跟踪和用户活动数据推出的飞书常识库,旨在成为 AI 行业从业者、投资者、探究者的中枢信息关节与有策画维持平台。
一键选藏 � � 点亮星标
科技前沿进展逐日见炒股配资门户网_实盘交易流程细节与规则说明
炒股配资门户网_实盘交易流程细节与规则说明提示:本文来自互联网,不代表本网站观点。