AI for Science · Chemistry × LLM

李隽仁 Junren Li

我相信 AGI 会实现。但一个在热力学上显然成立的过程, 不一定真的会在现实中发生。
模型本身只是一个模型,如何带着它跨越一个个能垒去改写世界, 是一条仍需探索的动力学路径
写在前面 · 一篇随笔

《被天意侵蚀之后》

2022 年我嘲笑它,2024 年我依赖它,2026 年我恐惧它。 当自己做过的东西能被 agent 光速复现,一个 AI4Science researcher 还剩下什么值得做? 下面这三个层次,都是从这篇文章里长出来的。

读全文 →

The Operating Loop

AGI 时代,researcher 做三件事

技术差距正在被逐渐拉平,从隔壁 domain 借个方法刷个榜的做法已经没有意义了。 接下来决定一个 research 能不能做的是 taste 和 willingness。 我把这件事收敛成一个自己每天在跑的循环:先量能力的边界, 再把能力固化成别人能用的工具,最后用工具去够边界之外的东西。

01 / 标尺

锚定 AGI 当前的能力边界

出题、做 benchmark。万能的模型真的可以造出自己做不对的题, 只有在这个过程里,人才知道它在你的 domain 上到底栽在哪。

→ SUPERChem · SimpRetro · 计算化学复现

02 / 杠杆

把能力固化成实用的工具

一个只能存在文章里的工作与不存在无异。对接真实痛点, 做 tool-grounded、可验证、做 science 的人愿意点开来用的东西。

→ SynCraft · Revenant

03 / AGI+1

用 AGI 当义体去开荒

把执行层当作地面,去够那些还需要 domain judgment 来定义、验证、 承担后果的问题。撬开不等于撬赢,杠杆让人更快 fail fast。

→ poly(AA) coscientist · 演化药理学 KG(proposal)

01 / 标尺 — Anchor the frontier

给前沿模型造硬评测

FrontierScience 级科学出题

eval · 含保密约定

为特定商业场景设计 frontier-science 级别的科学评测题,搭建了从命题、求解、 到多模型交叉验证的出题与评测流水线。研究层面的核心结论是:对前沿模型而言, 难度更多来自不可推导的 contingent fact,而非推理深度本身。 此工作含保密约定,此处仅描述方法论,不展开具体内容。

SUPERChem — 多模态化学推理 benchmark

共同一作 · arXiv

多模态化学推理评测基准,公开衡量前沿模型在真实化学问题上的能力边界。

Challenging Complexity with Simplicity — SimpRetro

一作 · JCIM 2024

用最简单的单步逆合成模型,系统测出了这个方向的天花板在哪。 复杂模型堆到极致,也没比一个设计合理的简单 baseline 强多少。 这是我离开这个方向之前最后做的事:先量清边界,再做判断。 测量本身就是结论。

计算化学论文复现 benchmark

agent eval · 进行中

面向 AI agent 科学执行能力的评测:把可复现的论文核心结果做成 agent 可执行任务加可靠 verifier。两个设计上的硬判断: 相对量远比绝对量可信(误差抵消,可复现性高一个量级), 以及数据泄漏是存在性风险(要求真实计算产物,开源栈自建 ground truth)。 已有数个任务跑通 oracle + verifier。

02 / 杠杆 — Forge the tools

把模型能力做成实用工具

SynCraft — 可合成性优化的推理式编辑

一作 · 在线

把分子可合成性优化重构成一个结构编辑问题:让 LLM 不直接生成 SMILES, 而是预测一串原子级编辑动作(DEL_ATOM / ADD_BOND / MUTATE_ATOM…), 绕开 LLM 生成字符串的脆弱性,同时借用它的化学直觉穿越"合成悬崖"。 含交互感知优化(Vina + PLIP 保留关键药效团),打包成可调用的 Agent Skill。

Revenant — 反应失败诊断 agent

tool-grounded · 在线

化学 ML 99% 在做成功预测(yield / 选择性 / 产物),但化学家真正的痛点是失败: 反应不 work,为什么?这是一个 tool-grounded 的失败诊断 agent,每一条 claim 都必须 cite 835 万反应库里的具体 reaction_id 作为证据,可验证、可复现。 目标不是更准的 yield predictor,而是一个化学家敢信、不输出 vibes 的诊断顾问。

连同我在 retrosynthesis / 反应预测上的工作 (Nat. Commun. 2023、 Digital Discovery、JCIM),是同一条线:把化学智能固化成可复现、可信任的工具。

03 / AGI+1 — Probe beyond the frontier

用 AGI 当义体,去开以前开不了的荒

AGI+1 不是比 AGI 更聪明,而是把已经能完成的执行层当作地面, 去寻找那些仍然需要 domain judgment 来定义、验证、并承担后果的问题。 执行被拉平之后,一个人花两三周就能扎进一个本来得攒一个组、熬几年才敢碰的方向。 这一层暂时还没有发表的工作,下面是正在进行的 proposal。

poly(amino acid) coscientist

proposal · 合作中

和湿实验团队合作,给聚氨基酸(无固定折叠的统计共聚物)这个低基线的"新大陆"做 AI 预筛。 一路探索后收束到两件真正有杠杆的事:给他们做一个 coscientist, 以及回到更根本的问题,到底什么样的氨基酸能聚合。

演化药理学知识图谱(天然产物)

proposal · 自审

天然产物经百万年进化去结合天敌体内保守的蛋白,靶点跨物种保守, 于是杀虫的"钥匙"也许能开人类同源物的"锁"。 以 agent 为杠杆,在数周内构建了 3000+ 篇全文语料与数千条结构化关系, 并对结合口袋保守度、正向选择等信号做了多模态验证。在引入严格对照后, 基于文献共现的关联大多不再显著;据此判断真正可行的是机制层面的路径 (口袋、序列、结构的多模态证据),而非文献计量。 杠杆压低了进入一个陌生领域的成本,而判断一个方向是否成立,依旧依赖诚实的对照。

About