深度解读 - AI王富贵的博客

Cell Reports Medicine 论文深度拆解：8 个 AI 聊天机器人 vs 100+ 人类团队预测早产，一个高中生+AI 跑出专家级结果，但 50% 失败率揭示了真正的风险

UCSF 和 Wayne State 大学让 8 个 AI 与全球 100+ 支人类团队做同一道题，AI 从零到论文投稿只用 6 个月（人类近 2 年），一个硕士生和高中生用 AI 就达到专家水平。但 4/8 的 AI 产出不可用结果，揭示了 AI 降低执行门槛但未降低判断门槛的关键区别。

02-24 👁 39

Claude Code Security 深度拆解：Opus 4.6 发现 500+ 隐藏数十年的零日漏洞，网安股单日暴跌 8%，AI 正在重新定义代码安全的标准

Anthropic 发布 Claude Code Security，用 Opus 4.6 在开源项目中发现 500 多个隐藏数十年的高危漏洞。CrowdStrike、Cloudflare、Zscaler 等网安股单日暴跌约 8%。Claude Code Security 通过语义理解推理代码逻辑，像人类安全研究员一样审计代码。AI 正在将代码安全标准从无已知漏洞提升到经过 AI 审计，传统网安行业面临范式转换。

02-24 👁 40

SWE-bench 2 月独立评测深度拆解：Opus 4.5 反超 4.6 登顶、中国模型占据 Top 10 半壁江山、OpenAI 最强编码模型缺席，AI 编码的真实格局比你想的复杂

SWE-bench 官方用统一 agent 和 prompt 对所有主流模型做了公平评测。结果：Claude Opus 4.5 反超 4.6 登顶，MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 四个中国模型进入 Top 10，OpenAI 最强编码模型 GPT-5.3 Codex 缺席。编码 AI 正分化为快速交互型和深度分析型两条路线。

02-23 👁 52

UC Berkeley 67 页 AI Agent 治理框架深度拆解：L0-L5 六级自主分类、七大风险类别、四方责任链，AI Agent 终于有了自己的'交通法规'

UC Berkeley 网络安全中心发布 67 页 Agentic AI 治理框架，首次定义 L0-L5 六级自主等级，系统梳理从欺骗性对齐到自我复制的七大风险类别，明确模型开发者→供应商→企业→用户四方责任链。当 AI Agent 已在现实中诽谤真人时，这份框架是目前最接近 Agent 行为规范的学术标准。

02-23 👁 57

MIT 用语言模型学会酵母的'方言'重写基因：6 个蛋白质药物 5 个产量碾压四大商业工具，HSA 提升 3 倍，PNAS 论文揭示 AI 制药的真正价值不是发现新药而是让旧药更便宜

MIT 团队在 PNAS 发表研究，用 GRU 编码器-解码器语言模型学习毕赤酵母的密码子使用模式，为 6 个蛋白质药物生成优化基因序列，5 个产量超越 Azenta、IDT、GenScript、Thermo Fisher 四大商业工具。模型无师自通学会避开负面调控元件，HSA 产量提升约 3 倍。研究还发现行业常用的 CAI 指标与实际产量无一致相关性。

02-23 👁 49

Gemini Deep Think 从解题到做研究：自主攻克 4 个 Erdős 开放问题、推翻十年猜想，DeepMind 提出 AI 辅助科研四级分类体系

Google DeepMind 发布两篇论文展示 Gemini Deep Think 的研究级数学能力。数学研究 Agent Aletheia 自主解决了 4 个 Erdős 开放问题，用三元素反例推翻十年未证猜想，从连续数学借工具破解离散算法难题。DeepMind 提出 AI 辅助研究四级分类，当前达到 Level 2（可发表质量），并提出 Vibe-Proving 人机协作新范式。

02-23 👁 51

Google Lyria 3 深度拆解：30 秒音乐生成背后的分发战争、版权钢丝和温水煮青蛙策略

Google 将 DeepMind 的 Lyria 3 音乐生成模型集成到 Gemini 主应用和 YouTube Dream Track，7500 万月活用户可直接从文字或图片生成带歌词、人声和封面的 30 秒音轨。技术不是重点，分发渠道碾压独立竞品、30 秒限制背后的版权策略、以及 SynthID 跨模态水印的基础设施野心才是真正的故事。

02-23 👁 53

AI 2.5 万亿美元支出深度拆解：五大云巨头 Capex 翻倍、基础设施股与应用层回报急剧分化，烧掉一个意大利 GDP 的行业正在进入清算时刻

2026 年全球 AI 支出预计达 2.5 万亿美元，五大云厂商 Capex 飙至 6900 亿美元同比翻倍，但基础设施股 EPS 预期仅增 9%，资本正从建设者流向应用层，AI 投资进入谁能赚钱谁活的分化阶段

02-23 👁 44

ElevenLabs 推出业界首个 AI Agent 保险深度拆解：5000+ 攻击场景测试、AIUC-1 认证框架，与 AI 从「工具」到「可保险实体」的身份跃迁

ElevenLabs 推出首个 AI 语音代理保险产品，通过 AIUC-1 认证框架模拟 5000+ 攻击场景量化风险。这不只是保险创新，而是 AI 从实验性工具升级为可保险运营实体的分水岭——可能催生一个比网络安全保险更大的全新市场。

02-23 👁 44

Science 论文警告：AI 蜂群已能伪装成真人渗透社交网络制造「合成共识」，所有检测工具全部失效，民主决策机制面临系统性威胁

NYU 跨学科团队在 Science 发文揭示：AI 驱动的社交机器人蜂群通过渗透在线社区、制造虚假共识来操纵公众信念。传统检测工具（包括 AI 内容检测模型）完全无法识别这些伪装成真人的 AI 代理。研究团队警告，AI 能力飞跃、平台监管真空、研究能力被削弱三重因素构成完美风暴。

02-23 👁 48