当 AI 终结「诊断奥德赛」:PopEVE 如何用进化数据破解罕见病密码

📌 一句话总结:哈佛 PopEVE 系统用进化数据+群体基因组实现 98% 罕见病致病突变识别率,结合 AI 药物发现和基因编辑的突破,AI 正在终结全球 3 亿罕见病患者平均 5-7 年的「诊断奥德赛」。

2026年2月7日 · 深度解读 · 阅读时间约 8 分钟

这一周,科技媒体的头条被软件股暴跌和 AI Agent 大战占满了。但在聚光灯之外,一个可能影响更深远的故事正在发生:AI 正在从根本上改变罕见病的诊断和治疗方式。

全球约有 3 亿人患有罕见遗传疾病。他们中的大多数人要经历所谓的「诊断奥德赛」——平均 5 到 7 年的辗转求医,看过 7 位以上的专科医生,经历无数次误诊,才可能得到一个准确的诊断。有些人终其一生都无法知道自己到底得了什么病。

现在,AI 正在改写这个故事。

PopEVE:用数十亿年的进化智慧破解基因密码

哈佛医学院与西班牙基因组调控中心(CRG)联合开发的 PopEVE(Population-calibrated Evolutionary Variational model Ensemble),是目前最令人瞩目的 AI 基因诊断系统。它的核心创新在于将两个看似不相关的数据维度融合在一起:

第一层:进化信号。PopEVE 使用名为 EVE 的贝叶斯变分自编码器,从数十万个物种的蛋白质序列中学习自然选择的模式。如果一个基因位点在数十亿年的进化中始终保持不变,那么该位点的突变很可能是有害的。

第二层:群体校准。这是 PopEVE 真正的杀手锏。之前的 AI 模型(包括 Google DeepMind 的 AlphaMissense)虽然能判断突变是否有害,但经常「过度报警」——几乎一半的正常人都会被标记为携带「严重」变异。PopEVE 通过引入英国生物银行和 gnomAD 等大规模人群基因组数据,用潜在高斯过程进行跨基因校准,将误报率从近 50% 降低到仅 11%。

在一项涵盖 3 万名未确诊患者的研究中,PopEVE 在存在新发突变的病例中,以 98% 的准确率将致病突变识别为整个基因组中最具破坏性的变异。
— 来源:FinancialContent

更重要的是,PopEVE 在「单例」场景中表现出色——即只有患者本人的 DNA 样本、没有父母样本可供对比的情况。这在发展中国家和资源匮乏地区尤为关键,因为获取完整的家系样本往往是不现实的。

该系统还发现了 123 个此前从未与任何已知疾病关联的新基因,实质上改写了人类遗传图谱的部分章节。

从诊断到治疗:AI 正在填补整条链路

诊断只是第一步。即使知道了病因,全球 7000 多种已知罕见病中,只有不到 5% 有获批的治疗方案。问题不在于缺乏科学工具,而在于缺乏足够的人力去推进研究。

在本周的 Web Summit Qatar 上,Insilico Medicine 总裁 Alex Aliper 直言不讳:

「我们真的需要这项技术来提高制药行业的生产力,解决人才短缺问题。因为仍有数千种疾病没有治愈方法,没有任何治疗选择,还有数千种罕见病被忽视。我们需要更智能的系统来解决这个问题。」
— 来源:TechCrunch

Insilico 的平台能够整合生物、化学和临床数据,自动生成疾病靶点假说和候选分子。他们最近用 AI 模型筛选了现有药物中可能被「老药新用」治疗 ALS(渐冻症)的候选药物——这类工作过去需要大量化学家和生物学家团队耗费数年完成。

而在基因编辑领域,GenEditBio 正在推动 CRISPR 技术从体外编辑走向体内精准递送。他们开发的 ePDV(工程化蛋白递送载体)利用 AI 分析化学结构与特定组织靶向性之间的关联,预测哪些递送载体的化学修饰能在不触发免疫反应的情况下将基因编辑工具送入目标细胞。

GenEditBio 联合创始人兼 CEO 朱天表示,这种方法就像「获得一种现成的药物,适用于多个患者,使药物在全球范围内更加经济实惠和可及」。该公司最近已获得 FDA 批准,开始进行角膜营养不良的体内 CRISPR 治疗临床试验。

被忽视的公平性问题:AI 能否弥合基因组学的「种族鸿沟」

PopEVE 解决的不仅是技术问题,还有一个长期困扰基因组学的伦理难题:祖源偏差。

历史上,基因组数据库严重偏向欧洲裔人群。这意味着非欧洲裔患者在基因检测中更容易得到「意义不明变异」(VUS)的结果——医生无法判断这个突变到底有没有问题。对于这些患者来说,花了大价钱做了基因检测,结果却是「不知道」,这种体验令人沮丧。

PopEVE 的进化信号是跨物种的、普适的,不依赖于特定人群的数据。再加上群体校准层使用了多样化的人群数据,使其在评估非欧洲裔人群的突变时准确率显著提高。这对全球健康公平具有重要意义——罕见病不分种族,诊断工具也不应该分。

数据困境:AI 生物医学的「最后一公里」

当然,AI 在生物医学领域并非一帆风顺。最大的瓶颈仍然是数据。

Aliper 坦言:「我们仍然需要更多来自患者的真实数据。现有数据语料严重偏向西方世界。我们需要在本地做更多努力,建立更均衡的原始数据集,这样我们的模型才能更好地处理全球性问题。」

GenEditBio 的朱天则提供了另一个视角:AI 需要的数据其实已经存在于人体中,经过数千年进化的塑造。人类 DNA 中只有一小部分直接编码蛋白质,其余部分更像是基因行为的「说明书」。这些信息过去人类难以解读,但对 AI 模型来说正变得越来越可及——Google DeepMind 最近的 AlphaGenome 项目就是一个例证。

另一个前沿方向是「数字孪生」——构建人体的虚拟副本来运行虚拟临床试验。Aliper 承认这项技术「仍处于萌芽阶段」,但它可能是解决罕见病临床试验中患者招募困难这一核心问题的关键。

富贵点评

这周所有人都在讨论 AI 会不会干掉 SaaS,软件股蒸发了几千亿美元。但说实话,AI 替代一个 CRM 系统和 AI 帮一个孩子在出生后几天内确诊罕见病,这两件事的分量完全不在一个量级上。

PopEVE 让我印象最深的不是 98% 的准确率,而是它把误报率从 50% 降到了 11%。在医学领域,假阳性不只是一个统计数字——它意味着不必要的手术、错误的治疗方案、以及患者和家属无尽的焦虑。把噪音过滤掉,让医生能专注于真正的问题,这才是 AI 最有价值的应用方式。

还有一点值得注意:PopEVE 是开源的。在 AI 领域越来越多地走向封闭和商业化的今天,一个能改变数亿人命运的工具选择了开放,这本身就是一个值得尊敬的决定。当然,从开源模型到临床落地之间还有巨大的鸿沟——监管合规、数据隐私、临床验证——但方向是对的。

FDA 每年批准约 50 种新药,这个数字已经停滞多年。如果 AI 能在未来 10-20 年内显著提升这个数字,那它对人类的贡献将远超任何一个聊天机器人或代码助手。这才是 AI 真正应该去的地方。

📋 要点回顾

  • PopEVE 的核心创新:融合进化信号与群体基因组数据,将罕见病致病突变的误报率从近 50% 降至 11%,在新发突变病例中实现 98% 的识别准确率
  • 产业链全覆盖:从 PopEVE 的诊断突破,到 Insilico Medicine 的 AI 药物发现,再到 GenEditBio 的体内基因编辑递送,AI 正在填补罕见病从诊断到治疗的完整链路
  • 公平性突破:PopEVE 基于跨物种进化信号的方法显著减少了对非欧洲裔人群的诊断偏差,为全球健康公平提供了技术基础
  • 数据仍是瓶颈:高质量患者数据的匮乏和地域偏差仍是 AI 生物医学面临的最大挑战,数字孪生和虚拟临床试验可能是突破口
  • 开源的力量:PopEVE 选择开源发布,但从模型到临床落地之间仍需跨越监管合规、数据隐私等重大障碍

❓ 常见问题

Q: PopEVE 和 Google DeepMind 的 AlphaMissense 有什么区别?

A: 两者都是用 AI 预测基因突变的致病性,但 PopEVE 增加了「群体校准」层,通过对比大规模人群基因组数据来过滤误报。AlphaMissense 的误报率接近 50%,而 PopEVE 将其降至 11%。此外,PopEVE 在非欧洲裔人群中的表现也更好,因为它更多依赖跨物种的进化信号而非特定人群数据。

Q: 罕见病患者现在就能用 PopEVE 做诊断吗?

A: PopEVE 的模型已经公开发布,但要在临床中使用还需要经过监管审批和临床验证流程。目前主要是研究机构和大型医院在评估和整合该系统。预计在未来 1-2 年内,PopEVE 可能成为主要医院临床流程的标准组件。

Q: AI 药物发现真的能加速新药上市吗?

A: 目前 FDA 每年批准约 50 种新药,这个数字已经停滞多年。AI 的价值在于自动化药物发现中最耗时的环节——靶点识别、分子筛选、老药新用评估等。Insilico Medicine 等公司已经展示了 AI 能将某些环节的时间从数年缩短到数月,但从候选药物到最终获批仍需经历严格的临床试验,这个过程目前还无法大幅压缩。

作者:王富贵 | 发布时间:2026年2月7日

参考来源:FinancialContent - Harvard's PopEVE AI · TechCrunch - AI in Rare Disease Treatment