FrontierScience 级科学出题
eval · 含保密约定为特定商业场景设计 frontier-science 级别的科学评测题,搭建了从命题、求解、 到多模型交叉验证的出题与评测流水线。研究层面的核心结论是:对前沿模型而言, 难度更多来自不可推导的 contingent fact,而非推理深度本身。 此工作含保密约定,此处仅描述方法论,不展开具体内容。
The Operating Loop
技术差距正在被逐渐拉平,从隔壁 domain 借个方法刷个榜的做法已经没有意义了。 接下来决定一个 research 能不能做的是 taste 和 willingness。 我把这件事收敛成一个自己每天在跑的循环:先量能力的边界, 再把能力固化成别人能用的工具,最后用工具去够边界之外的东西。
出题、做 benchmark。万能的模型真的可以造出自己做不对的题, 只有在这个过程里,人才知道它在你的 domain 上到底栽在哪。
一个只能存在文章里的工作与不存在无异。对接真实痛点, 做 tool-grounded、可验证、做 science 的人愿意点开来用的东西。
把执行层当作地面,去够那些还需要 domain judgment 来定义、验证、 承担后果的问题。撬开不等于撬赢,杠杆让人更快 fail fast。
01 / 标尺 — Anchor the frontier
为特定商业场景设计 frontier-science 级别的科学评测题,搭建了从命题、求解、 到多模型交叉验证的出题与评测流水线。研究层面的核心结论是:对前沿模型而言, 难度更多来自不可推导的 contingent fact,而非推理深度本身。 此工作含保密约定,此处仅描述方法论,不展开具体内容。
多模态化学推理评测基准,公开衡量前沿模型在真实化学问题上的能力边界。
用最简单的单步逆合成模型,系统测出了这个方向的天花板在哪。 复杂模型堆到极致,也没比一个设计合理的简单 baseline 强多少。 这是我离开这个方向之前最后做的事:先量清边界,再做判断。 测量本身就是结论。
面向 AI agent 科学执行能力的评测:把可复现的论文核心结果做成 agent 可执行任务加可靠 verifier。两个设计上的硬判断: 相对量远比绝对量可信(误差抵消,可复现性高一个量级), 以及数据泄漏是存在性风险(要求真实计算产物,开源栈自建 ground truth)。 已有数个任务跑通 oracle + verifier。
02 / 杠杆 — Forge the tools
把分子可合成性优化重构成一个结构编辑问题:让 LLM 不直接生成 SMILES, 而是预测一串原子级编辑动作(DEL_ATOM / ADD_BOND / MUTATE_ATOM…), 绕开 LLM 生成字符串的脆弱性,同时借用它的化学直觉穿越"合成悬崖"。 含交互感知优化(Vina + PLIP 保留关键药效团),打包成可调用的 Agent Skill。
化学 ML 99% 在做成功预测(yield / 选择性 / 产物),但化学家真正的痛点是失败: 反应不 work,为什么?这是一个 tool-grounded 的失败诊断 agent,每一条 claim 都必须 cite 835 万反应库里的具体 reaction_id 作为证据,可验证、可复现。 目标不是更准的 yield predictor,而是一个化学家敢信、不输出 vibes 的诊断顾问。
连同我在 retrosynthesis / 反应预测上的工作 (Nat. Commun. 2023、 Digital Discovery、JCIM),是同一条线:把化学智能固化成可复现、可信任的工具。
03 / AGI+1 — Probe beyond the frontier
AGI+1 不是比 AGI 更聪明,而是把已经能完成的执行层当作地面, 去寻找那些仍然需要 domain judgment 来定义、验证、并承担后果的问题。 执行被拉平之后,一个人花两三周就能扎进一个本来得攒一个组、熬几年才敢碰的方向。 这一层暂时还没有发表的工作,下面是正在进行的 proposal。
和湿实验团队合作,给聚氨基酸(无固定折叠的统计共聚物)这个低基线的"新大陆"做 AI 预筛。 一路探索后收束到两件真正有杠杆的事:给他们做一个 coscientist, 以及回到更根本的问题,到底什么样的氨基酸能聚合。
天然产物经百万年进化去结合天敌体内保守的蛋白,靶点跨物种保守, 于是杀虫的"钥匙"也许能开人类同源物的"锁"。 以 agent 为杠杆,在数周内构建了 3000+ 篇全文语料与数千条结构化关系, 并对结合口袋保守度、正向选择等信号做了多模态验证。在引入严格对照后, 基于文献共现的关联大多不再显著;据此判断真正可行的是机制层面的路径 (口袋、序列、结构的多模态证据),而非文献计量。 杠杆压低了进入一个陌生领域的成本,而判断一个方向是否成立,依旧依赖诚实的对照。