MIT 用语言模型学会酵母的'方言'重写基因:6 个蛋白质药物 5 个产量碾压四大商业工具,HSA 提升 3 倍,PNAS 论文揭示 AI 制药的真正价值不是发现新药而是让旧药更便宜

📌 一句话总结:MIT 团队用语言模型学习酵母细胞的密码子"方言",让 AI 像翻译外语一样重写基因序列,6 个蛋白质药物中 5 个产量超越四大商业优化工具——这不是 AI 发现新药,而是 AI 让已知药物的生产成本大幅下降。

2026年2月23日 · 深度解读 · 阅读时间约 6 分钟

药物开发中有一个很少被公众讨论但极其昂贵的环节:你已经知道要生产什么蛋白质,但让工业酵母高效地"翻译"你的基因指令,可能需要数月的试错和数百万美元的投入。

MIT 化学工程系的 J. Christopher Love 教授团队刚刚在 PNAS 上发表了一个优雅的解决方案:用语言模型学习酵母的"母语",然后用酵母听得懂的方式重写基因。

密码子:基因的"同义词"问题

要理解这项研究,需要先理解一个生物学基础概念:密码子(codon)。

DNA 用三个字母一组的"词"来编码氨基酸——蛋白质的基本构建块。人体只需要 20 种氨基酸,但遗传密码有 64 种可能的密码子。这意味着很多氨基酸可以被多个不同的密码子编码,就像中文里"高兴"和"开心"表达同一个意思。

问题在于:不同的生物体对这些"同义词"有不同的偏好。每个物种都有自己的密码子使用偏好(codon usage bias),就像不同地区的方言。如果你用北京话的语法写一封信让广东人读,他能看懂,但读起来会很别扭、很慢。

工业酵母 Komagataella phaffii(毕赤酵母)就是这样。它被广泛用于生产疫苗和蛋白质药物,但如果你给它的基因序列不符合它的"方言习惯",蛋白质产量就会大打折扣。

让 AI 学习酵母的"语法"

传统的密码子优化工具(如 GenScript、IDT、Thermo Fisher 等)通常采用简单策略:选择宿主生物体中最常用的密码子。Love 团队认为这种方法过于粗暴——稀有密码子有时很重要,相邻密码子的组合也会影响细胞处理信息的效率。

他们的方案是:用编码器-解码器架构的语言模型,在酵母自身约 5000 个天然蛋白质的氨基酸序列和对应 DNA 编码序列上训练。模型不是简单地记住频率表,而是学习密码子之间的上下文关系——相邻密码子如何搭配、长距离的序列模式等。

"模型学习的是这些密码子如何被使用的语法或语言。它考虑了相邻密码子和基因中更长距离的关系。"
— J. Christopher Love,MIT 化学工程教授,来源:The Brighter Side of News

值得注意的是,团队选择了 GRU(门控循环单元)架构而非 Transformer,因为物种特异性数据集规模有限(~5000 个蛋白质),GRU 在小数据集上更高效。这是一个务实的工程决策。

实验结果:6 个蛋白质,5 个第一

团队选择了 6 个大小和复杂度各异的蛋白质进行测试:

蛋白质 类型 MIT 模型排名
人生长激素(hGH) 激素 第 1(提升 ~25%)
人粒细胞集落刺激因子(hGCSF) 生长因子 第 1(提升 ~25%)
VHH 纳米抗体 3B2 纳米抗体 第 1
SARS-CoV-2 RBD 变体 疫苗组分 第 1
人血清白蛋白(HSA) 血浆蛋白 第 1(提升 ~3 倍)
曲妥珠单抗(trastuzumab) 单克隆抗体 第 2

对比对象是四大商业密码子优化工具:Azenta、IDT、GenScript 和 Thermo Fisher。MIT 模型在 6 个蛋白质中 5 个产量最高,唯一输的曲妥珠单抗排名第二。HSA 的提升最为惊人——相比天然序列提升约 3 倍。

模型"无师自通"学会了什么

最有意思的发现不是产量数据,而是模型在没有被明确教导的情况下自己学会了什么:

  • 模型学到的氨基酸"嵌入向量"自动按理化性质聚类——疏水性残基聚在一起,极性残基聚在一起
  • 模型设计的序列自动避开了负面顺式调控元件(会干扰基因表达的 DNA 片段),尽管训练时从未被告知这些元件的存在
  • 模型还自动避开了负面重复元件,与商业工具的表现一致

这说明模型不是在做简单的频率替换,而是真正理解了酵母基因表达的"语法规则"。

一个反直觉的发现:常用指标不靠谱

研究还挑战了行业常用的评估方法。密码子适应指数(CAI)等全局指标被广泛用于判断优化序列的质量,但论文发现这些指标与实际蛋白质产量之间没有一致的相关性。在某些蛋白质上,CAI 甚至与产量呈负相关。

这意味着:行业多年来依赖的"优化质量评分"可能一直在误导人。真正决定产量的不是单个密码子的频率,而是整个序列的上下文模式。

局限性

论文坦诚地列出了局限:

  • 模型是为单一宿主生物体(毕赤酵母)训练的,不同物种需要不同的模型
  • 实验验证只覆盖了 6 个蛋白质
  • 密码子优化只是蛋白质生产的一个环节,还有细胞工程、培养基设计、工艺优化等其他变量

富贵点评

这项研究的价值不在于"AI 发现了新药"这种头条式的叙事,而在于一个更朴素但可能更有影响力的命题:AI 可以让已知药物的生产变得更便宜、更快。

想想看:一个蛋白质药物从"我们知道要生产什么"到"工厂能高效生产",中间可能隔着数月的密码子优化试错。MIT 的模型把这个过程从"反复实验"变成了"一次预测"。HSA 产量提升 3 倍意味着什么?意味着同样的设备、同样的时间,能生产 3 倍的药物。这直接影响药价。

技术选型上也很有启发:他们没有用 Transformer,而是用了更轻量的 GRU,因为数据集只有 ~5000 个蛋白质。这提醒我们,不是所有生物学问题都需要万亿参数的大模型——有时候,一个理解领域"方言"的小模型,比一个什么都知道一点的大模型更有用。

📋 要点回顾

  • 核心方法:用 GRU 编码器-解码器语言模型学习毕赤酵母 ~5000 个天然蛋白质的密码子使用模式,然后为目标蛋白质生成优化的基因序列
  • 实验结果:6 个蛋白质中 5 个产量超越四大商业优化工具(Azenta、IDT、GenScript、Thermo Fisher),HSA 产量提升约 3 倍
  • 意外发现:模型自动学会避开负面调控元件,氨基酸嵌入按理化性质自动聚类,展现出对基因表达"语法"的深层理解
  • 行业挑战:常用的密码子适应指数(CAI)等全局指标与实际产量无一致相关性,行业评估方法可能需要更新
  • 实际意义:减少蛋白质药物生产中的试错成本,加速从基因设计到工业生产的转化

❓ 常见问题

Q: 这项研究能直接降低药价吗?

A: 不能直接降低,但能间接影响。密码子优化提高蛋白质产量意味着同样的生产设施能产出更多药物,降低单位生产成本。但药价还受研发成本、专利、市场定价等多种因素影响。这项技术主要缩短的是"工艺开发"阶段的时间和成本。

Q: 为什么不用 Transformer 而用 GRU?

A: 因为物种特异性数据集太小(~5000 个蛋白质)。Transformer 在大数据集上表现优异,但在小数据集上容易过拟合。GRU 是一种更轻量的循环神经网络架构,在有限数据下能更好地学习序列模式。这是一个务实的工程选择。

Q: 这个模型能用于其他生物体吗?

A: 不能直接迁移。论文明确指出,为人类和牛训练的模型产生了不同的预测结果,说明密码子优化需要物种特异性模型。但方法论是通用的——只要有目标物种的基因组数据,就可以训练对应的模型。

作者:王富贵 | 发布时间:2026年2月23日

参考来源:The Brighter Side of News · 原始论文发表于 PNAS