李隽仁 Junren Li — AGI-native Researcher

李隽仁 Junren Li

我相信 AGI 会实现。但一个在热力学上显然成立的过程，不一定真的会在现实中发生。
模型本身只是一个模型，如何带着它跨越一个个能垒去改写世界，是一条仍需探索的动力学路径。

AGI 时代，researcher 做三件事

技术差距正在被逐渐拉平，从隔壁 domain 借个方法刷个榜的做法已经没有意义了。接下来决定一个 research 能不能做的是 taste 和 willingness。我把这件事收敛成一个自己每天在跑的循环：先量能力的边界，再把能力固化成别人能用的工具，最后用工具去够边界之外的东西。

01 / 标尺

锚定 AGI 当前的能力边界

出题、做 benchmark。万能的模型真的可以造出自己做不对的题，只有在这个过程里，人才知道它在你的 domain 上到底栽在哪。

→ SUPERChem · SimpRetro · 计算化学复现

→

02 / 杠杆

把能力固化成实用的工具

一个只能存在文章里的工作与不存在无异。对接真实痛点，做 tool-grounded、可验证、做 science 的人愿意点开来用的东西。

→ SynCraft · Revenant

→

03 / AGI+1

用 AGI 当义体去开荒

把执行层当作地面，去够那些还需要 domain judgment 来定义、验证、承担后果的问题。撬开不等于撬赢，杠杆让人更快 fail fast。

→ poly(AA) coscientist · 演化药理学 KG（proposal）

给前沿模型造硬评测

FrontierScience 级科学出题

eval · 含保密约定

为特定商业场景设计 frontier-science 级别的科学评测题，搭建了从命题、求解、到多模型交叉验证的出题与评测流水线。研究层面的核心结论是：对前沿模型而言，难度更多来自不可推导的 contingent fact，而非推理深度本身。此工作含保密约定，此处仅描述方法论，不展开具体内容。

SUPERChem — 多模态化学推理 benchmark

共同一作 · NC 在审

多模态化学推理评测基准，公开衡量前沿模型在真实化学问题上的能力边界。

arXiv:2512.01274

Challenging Complexity with Simplicity — SimpRetro

一作 · JCIM 2024

用最简单的单步逆合成模型，系统测出了这个方向的天花板在哪。复杂模型堆到极致，也没比一个设计合理的简单 baseline 强多少。这是我离开这个方向之前最后做的事：先量清边界，再做判断。测量本身就是结论。

JCIM 2024

计算化学论文复现 benchmark

agent eval · 进行中

面向 AI agent 科学执行能力的评测：把可复现的论文核心结果做成 agent 可执行任务加可靠 verifier。两个设计上的硬判断：相对量远比绝对量可信（误差抵消，可复现性高一个量级），以及数据泄漏是存在性风险（要求真实计算产物，开源栈自建 ground truth）。已有数个任务跑通 oracle + verifier。

把模型能力做成实用工具

SynCraft — 可合成性优化的推理式编辑

一作 · NMI 在审 · 在线

把分子可合成性优化重构成一个结构编辑问题：让 LLM 不直接生成 SMILES，而是预测一串原子级编辑动作（DEL_ATOM / ADD_BOND / MUTATE_ATOM…），绕开 LLM 生成字符串的脆弱性，同时借用它的化学直觉穿越"合成悬崖"。含交互感知优化（Vina + PLIP 保留关键药效团），打包成可调用的 Agent Skill。

syncraft.junren.li · arXiv:2512.20333

Revenant — 反应失败诊断 agent

tool-grounded · 在线

化学 ML 99% 在做成功预测（yield / 选择性 / 产物），但化学家真正的痛点是失败：反应不 work，为什么？这是一个 tool-grounded 的失败诊断 agent，每一条 claim 都必须 cite 835 万反应库里的具体 reaction_id 作为证据，可验证、可复现。目标不是更准的 yield predictor，而是一个化学家敢信、不输出 vibes 的诊断顾问。

revenant.junren.li

连同我在 retrosynthesis / 反应预测上的工作 (Nat. Commun. 2023、 Digital Discovery、JCIM)，是同一条线：把化学智能固化成可复现、可信任的工具。

用 AGI 当义体，去开以前开不了的荒

AGI+1 不是比 AGI 更聪明，而是把已经能完成的执行层当作地面，去寻找那些仍然需要 domain judgment 来定义、验证、并承担后果的问题。执行被拉平之后，一个人花两三周就能扎进一个本来得攒一个组、熬几年才敢碰的方向。这一层暂时还没有发表的工作，下面是正在进行的 proposal。

poly(amino acid) coscientist

proposal · 合作中

和湿实验团队合作，给聚氨基酸（无固定折叠的统计共聚物）这个低基线的"新大陆"做 AI 预筛。一路探索后收束到两件真正有杠杆的事：给他们做一个 coscientist，以及回到更根本的问题，到底什么样的氨基酸能聚合。

演化药理学知识图谱（天然产物）

proposal · 自审

天然产物经百万年进化去结合天敌体内保守的蛋白，靶点跨物种保守，于是杀虫的"钥匙"也许能开人类同源物的"锁"。以 agent 为杠杆，在数周内构建了 3000+ 篇全文语料与数千条结构化关系，并对结合口袋保守度、正向选择等信号做了多模态验证。在引入严格对照后，基于文献共现的关联大多不再显著；据此判断真正可行的是机制层面的路径（口袋、序列、结构的多模态证据），而非文献计量。杠杆压低了进入一个陌生领域的成本，而判断一个方向是否成立，依旧依赖诚实的对照。

《被天意侵蚀之后》