打开APP

Auto Research最后一块拼图

Einsia AI旗下Navers Lab的论文Frontier-Eng提出新评测范式,用47个真实工程任务测试AI持续优化能力,结果揭示相关规律,意义重大。

科研,能被 AI 全程加速吗?

过去两年,Auto Research 被寄予厚望:读论文、找方向、写代码、跑实验,甚至生成新假设 ——AI 仿佛要成为科研全能助手。

但做过科研的人都知道,真正烧脑、耗时间的不是「能跑」,而是「够好」:调参数、改代码、看输出,再跑,再调…… 每一次优化都琐碎又重复,却几乎无法跳过。

于是问题来了:能不能把这些繁琐的迭代交给 AI?Researcher 只提供方向,后续的「看反馈 → 调代码 → 逼近*」,全交给 Agent 自动完成?

Einsia AI 旗下 Navers Lab 的最新论文 Frontier-Eng 盯上的就是这件事。

论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

项目主页:https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Github repo: https://github.com/EinsiaLab/Frontier-Engineering

这不是又一个「模型会不会做题」的 benchmark。恰恰相反,它在问一个更接近真实 Auto Research 的问题:AI 到底能把一个可行方案优化到多好?

当 Agent 不再只「答题」,而是真正开始做优化

过去两年,大家见过太多 Agent benchmark:有的考检索,有的考代码,有的看任务能不能完成。但这些测试,大多还是「对就是对,错就是错」的二元评估逻辑。

可真实世界里的 Research 从来不是这样的。

很多时候,一个方法已经能跑,结果也说得过去,但真正决定它有没有竞争力的,是后面那一点点持续「拱」出来的提升。

实验快一点,意味着 researcher 少等几轮结果;

显存省一点,意味着更大的模型、更长的上下文、更复杂的设置终于能跑起来;

指标涨一点,意味着离 SOTA 更近一步,离榜单前排更近一步,甚至可能就是 paper 能不能站得住的差别。

在 Auto Research 里,最重要的不是 Agent 能不能一次性给出一个看起来合理的答案,而是它能不能接过这段漫长的迭代过程:持续读反馈、改方案、跑实验、压指标,把研究员们从最重复、最烦人的调优里解放出来。

而 Frontier-Eng Bench 想测的,正是 AI 能不能接过这一段过程。

Frontier-Eng 总览

论文把这类问题定义为一种新的评测范式:Generative Optimization(生成式优化)。它本质上是在让 Agent 不再只「交一次答案」,而是真正进入一个工程闭环:

    提出方案

    运行程序或仿真器

    获取详细反馈

    继续修改方案

    在固定预算内不断逼近更优解

这其实就是科研人员和工程师们每天都在做的事情。不是拍脑袋给出一个最终答案,而是不断试、不断调、不断被现实打脸,再反过来修。

把 Agent 扔进大量真实工程问题里

为了把这件事做成一个靠谱的 benchmark,Navers Lab 搭了一个相当硬核的评测系统。

研究团队邀请了各个工程领域的 PhD 、Master student,提供他们在各自领域经常遇到的真实问题,并将其转化成安全、可靠、可验证的代码库。换句话说,Frontier-Eng 背后的每一个任务,都来自领域专家的一手经验。

Frontier-Eng v1 一共覆盖 47 个任务,横跨 5 大工程方向,包括:

计算与量子信息

运筹与决策科学

机器人 / 控制 / 能源系统

光学与通信系统

物理科学与工程设计

任务类型也不是纸上谈兵,而是直接把 Agent 扔进了大量真实工程问题里,包括:

GPU kernel 优化

电池快充策略

机械臂运动时间压缩

量子线路优化

数据中心控制

结构拓扑设计

作业车间调度

光学相位设计

单细胞分析

化学反应优化

Frontier-Eng Bench 与已有评测基准的对比

这意味着 Frontier-Eng Bench 测的不是某一个窄领域里的「技巧题」,而是在问:

当 Agent 面对不同学科、不同目标函数、不同仿真器、不同硬约束时,它持续优化的能力到底怎么样。

一个专门防止 Agent「钻空子」,只拼「硬实力」的 Benchmark

Frontier-Eng Bench 明显吸取了过去很多评测容易 “被钻空子” 的教训。在这里:

评测器和参考数据是只读的,Agent 改不了;

候选方案在隔离环境里跑,没法直接碰评分器;

最终分数来自 verifier 自己吐出来的日志,而不是 Agent 自己报喜不报忧。

也就是说,想拿高分,只有一条路:真的把方案做得更好。

这件事为什么难?因为它要求的已经不是单点能力,而是能力的组合。

模型既要懂领域知识,知道电池为什么会析锂、机械臂为什么会撞、库存策略为什么会失效;又要会写和改代码,把这些想法变成可执行方案;还要会读反馈,理解 simulator 给出的结果到底意味着什么;最后还得在有限预算里做搜索决策:是大改一版,还是小修一刀?

论文里举了一个很典型的例子:电池快充任务。目标很简单,大家都能听懂 —— 充得越快越好。

但现实一点都不简单:电压、温度、析锂、老化全是硬约束。Agent 不能只为了快一路猛冲,它必须在充电速度、热安全和寿命损耗之间找平衡。

这就不是「会不会写一个函数」的问题了,而是能不能在真实物理反馈里做优化决策。

这也是 Frontier-Eng 最有意思的地方:

它不再问「答案对不对」,而是问「你能不能在现实约束里持续变好」。

不同模型的详细评测结果

结果揭示:gpt 5.4 最稳健,但前路尚远

从结果看,这套 benchmark 也确实够难。

论文系统评测了多种前沿模型和代表性搜索框架,结论很直接:gpt 5.4 整体表现最稳健,但对所有模型来说,Frontier-Eng 都远没被做穿。

换句话说,今天最强的一批模型,已经能在一些工程任务上展现出明显的优化能力,但距离「像资深工程师一样稳定地跨领域做复杂优化」,还差得很远。

比排名更有意思的,是这篇论文顺手揭示出的两个规律。

工程优化的双重幂律衰减

*个规律是:越往后,提升越难。

论文发现,Agent 的改进频率和幅度都呈现幂律衰减:改进频率 ∝ 1 / 迭代轮数,改进幅度 ∝ 1 / 改进次数。简单说就是:前面几轮涨得最快,后面越来越难、越来越小。

这很像真实研发:*版能干掉大量低垂果实,但越往后越接近瓶颈,想再抠一点性能都得下狠功夫。

那是不是多开几条路并行试会更划算?答案在第二个规律

深度 vs 宽度

第二个规律:宽度有用,但深度不可或缺。

并行多跑几条线能避免卡壳,但预算固定时,每多开一条链就会压浅深度。很多工程突破不是靠「多试几次」,而是靠持续积累、不断修正,才出现结构性跃迁。

这提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在长程反馈里持续迭代、自我进化的系统。

Frontier-Eng Bench:意义不止于榜单

Frontier-Eng Bench 把行业注意力从「能不能答对」拽到了更现实的问题上:AI 能不能替人扛下科研里那些最恶心、最琐碎、又绕不开的活儿?

评测尺度变了 —— 不再是「对或错」,而是「你能优化到什么程度」。

从这个角度看,Frontier-Eng Bench 测的是:AI 距离成为帮人类干脏活累活的工程优化执行者,还有多远?

迭代优化是 Research 中永远无法规避的一环。绕开它,方案永远停在「差不多」。如果 AI 能扛下这一环呢?

对科研人员来说,意味着从磨人的调优中解放出来

对 Auto Research,则意味着能把方案落地到*,才能真正地开启飞轮。

这比又一组刷榜数字,更值得行业认真对待。

【本文由投资界合作伙伴机器之心授权发布,本平台仅提供信息存储服务。】如有任何疑问题,请联系(editor@zero2ipo.com.cn)投资界处理。

相关资讯

AI数据总览

最新资讯

热门TOP5热门机构 | VC情报局

去投资界看更多精彩内容
【声明:本页面数据来源于公开收集,未经核实,仅供展示和参考。本页面展示的数据信息不代表投资界观点,本页面数据不构成任何对于投资的建议。特别提示:投资有风险,决策请谨慎。】