Auto Research最后一块拼图|投资界

科研，能被 AI 全程加速吗？

过去两年，Auto Research 被寄予厚望：读论文、找方向、写代码、跑实验，甚至生成新假设 ——AI 仿佛要成为科研全能助手。

但做过科研的人都知道，真正烧脑、耗时间的不是「能跑」，而是「够好」：调参数、改代码、看输出，再跑，再调…… 每一次优化都琐碎又重复，却几乎无法跳过。

于是问题来了：能不能把这些繁琐的迭代交给 AI？Researcher 只提供方向，后续的「看反馈 → 调代码 → 逼近*」，全交给 Agent 自动完成？

Einsia AI 旗下 Navers Lab 的最新论文 Frontier-Eng 盯上的就是这件事。

论文题目：Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

项目主页：https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Github repo: https://github.com/EinsiaLab/Frontier-Engineering

这不是又一个「模型会不会做题」的 benchmark。恰恰相反，它在问一个更接近真实 Auto Research 的问题：AI 到底能把一个可行方案优化到多好？

当 Agent 不再只「答题」，而是真正开始做优化

过去两年，大家见过太多 Agent benchmark：有的考检索，有的考代码，有的看任务能不能完成。但这些测试，大多还是「对就是对，错就是错」的二元评估逻辑。

可真实世界里的 Research 从来不是这样的。

很多时候，一个方法已经能跑，结果也说得过去，但真正决定它有没有竞争力的，是后面那一点点持续「拱」出来的提升。

实验快一点，意味着 researcher 少等几轮结果；

显存省一点，意味着更大的模型、更长的上下文、更复杂的设置终于能跑起来；

指标涨一点，意味着离 SOTA 更近一步，离榜单前排更近一步，甚至可能就是 paper 能不能站得住的差别。

在 Auto Research 里，最重要的不是 Agent 能不能一次性给出一个看起来合理的答案，而是它能不能接过这段漫长的迭代过程：持续读反馈、改方案、跑实验、压指标，把研究员们从最重复、最烦人的调优里解放出来。

而 Frontier-Eng Bench 想测的，正是 AI 能不能接过这一段过程。

Frontier-Eng 总览

论文把这类问题定义为一种新的评测范式：Generative Optimization（生成式优化）。它本质上是在让 Agent 不再只「交一次答案」，而是真正进入一个工程闭环：

提出方案

运行程序或仿真器

获取详细反馈

继续修改方案

在固定预算内不断逼近更优解

这其实就是科研人员和工程师们每天都在做的事情。不是拍脑袋给出一个最终答案，而是不断试、不断调、不断被现实打脸，再反过来修。

把 Agent 扔进大量真实工程问题里

为了把这件事做成一个靠谱的 benchmark，Navers Lab 搭了一个相当硬核的评测系统。

研究团队邀请了各个工程领域的 PhD 、Master student，提供他们在各自领域经常遇到的真实问题，并将其转化成安全、可靠、可验证的代码库。换句话说，Frontier-Eng 背后的每一个任务，都来自领域专家的一手经验。

Frontier-Eng v1 一共覆盖 47 个任务，横跨 5 大工程方向，包括：

计算与量子信息

运筹与决策科学

机器人 / 控制 / 能源系统

光学与通信系统

物理科学与工程设计

任务类型也不是纸上谈兵，而是直接把 Agent 扔进了大量真实工程问题里，包括：

GPU kernel 优化

电池快充策略

机械臂运动时间压缩

量子线路优化

数据中心控制

结构拓扑设计

作业车间调度

光学相位设计

单细胞分析

化学反应优化

Frontier-Eng Bench 与已有评测基准的对比

这意味着 Frontier-Eng Bench 测的不是某一个窄领域里的「技巧题」，而是在问：

当 Agent 面对不同学科、不同目标函数、不同仿真器、不同硬约束时，它持续优化的能力到底怎么样。

一个专门防止 Agent「钻空子」，只拼「硬实力」的 Benchmark

Frontier-Eng Bench 明显吸取了过去很多评测容易 “被钻空子” 的教训。在这里：

评测器和参考数据是只读的，Agent 改不了；

候选方案在隔离环境里跑，没法直接碰评分器；

最终分数来自 verifier 自己吐出来的日志，而不是 Agent 自己报喜不报忧。

也就是说，想拿高分，只有一条路：真的把方案做得更好。

这件事为什么难？因为它要求的已经不是单点能力，而是能力的组合。

模型既要懂领域知识，知道电池为什么会析锂、机械臂为什么会撞、库存策略为什么会失效；又要会写和改代码，把这些想法变成可执行方案；还要会读反馈，理解 simulator 给出的结果到底意味着什么；最后还得在有限预算里做搜索决策：是大改一版，还是小修一刀？

论文里举了一个很典型的例子：电池快充任务。目标很简单，大家都能听懂 —— 充得越快越好。

但现实一点都不简单：电压、温度、析锂、老化全是硬约束。Agent 不能只为了快一路猛冲，它必须在充电速度、热安全和寿命损耗之间找平衡。

这就不是「会不会写一个函数」的问题了，而是能不能在真实物理反馈里做优化决策。

这也是 Frontier-Eng 最有意思的地方：

它不再问「答案对不对」，而是问「你能不能在现实约束里持续变好」。

不同模型的详细评测结果

结果揭示：gpt 5.4 最稳健，但前路尚远

从结果看，这套 benchmark 也确实够难。

论文系统评测了多种前沿模型和代表性搜索框架，结论很直接：gpt 5.4 整体表现最稳健，但对所有模型来说，Frontier-Eng 都远没被做穿。

换句话说，今天最强的一批模型，已经能在一些工程任务上展现出明显的优化能力，但距离「像资深工程师一样稳定地跨领域做复杂优化」，还差得很远。

比排名更有意思的，是这篇论文顺手揭示出的两个规律。

工程优化的双重幂律衰减

*个规律是：越往后，提升越难。

论文发现，Agent 的改进频率和幅度都呈现幂律衰减：改进频率 ∝ 1 / 迭代轮数，改进幅度 ∝ 1 / 改进次数。简单说就是：前面几轮涨得最快，后面越来越难、越来越小。

这很像真实研发：*版能干掉大量低垂果实，但越往后越接近瓶颈，想再抠一点性能都得下狠功夫。

那是不是多开几条路并行试会更划算？答案在第二个规律。

深度 vs 宽度

第二个规律：宽度有用，但深度不可或缺。

并行多跑几条线能避免卡壳，但预算固定时，每多开一条链就会压浅深度。很多工程突破不是靠「多试几次」，而是靠持续积累、不断修正，才出现结构性跃迁。

这提示了下一代 Agent 的方向：不是「一次出答案」的模型，而是能在长程反馈里持续迭代、自我进化的系统。

Frontier-Eng Bench：意义不止于榜单

Frontier-Eng Bench 把行业注意力从「能不能答对」拽到了更现实的问题上：AI 能不能替人扛下科研里那些最恶心、最琐碎、又绕不开的活儿？

评测尺度变了 —— 不再是「对或错」，而是「你能优化到什么程度」。

从这个角度看，Frontier-Eng Bench 测的是：AI 距离成为帮人类干脏活累活的工程优化执行者，还有多远？

迭代优化是 Research 中永远无法规避的一环。绕开它，方案永远停在「差不多」。如果 AI 能扛下这一环呢？

对科研人员来说，意味着从磨人的调优中解放出来

对 Auto Research，则意味着能把方案落地到*，才能真正地开启飞轮。

这比又一组刷榜数字，更值得行业认真对待。

资讯

7×24快讯

数据

会议

Auto Research最后一块拼图

机器之心

相关作者

机器之心

相关资讯

AI科学家卷疯科研圈

清科研究中心张磊：中国早期投资市场发展趋势及展望

深圳科研人员容错免责来了

AI数据总览

最新资讯

12亿，江苏前沿聚新产业投资基金成立

豆包付费背后：Token大降价的时代落幕了

Auricore全球黄金RWA生态加速落地 2025-2026密集活动彰显行业领导力

热门TOP5热门机构 | VC情报局