Cell Reports Medicine 论文深度拆解:8 个 AI 聊天机器人 vs 100+ 人类团队预测早产,一个高中生+AI 跑出专家级结果,但 50% 失败率揭示了真正的风险
UCSF 和 Wayne State 大学让 8 个 AI 与全球 100+ 支人类团队做同一道题,AI 从零到论文投稿只用 6 个月(人类近 2 年),一个硕士生和高中生用 AI 就达到专家水平。但 4/8 的 AI 产出不可用结果,揭示了 AI 降低执行门槛但未降低判断门槛的关键区别。
UCSF 和 Wayne State 大学让 8 个 AI 与全球 100+ 支人类团队做同一道题,AI 从零到论文投稿只用 6 个月(人类近 2 年),一个硕士生和高中生用 AI 就达到专家水平。但 4/8 的 AI 产出不可用结果,揭示了 AI 降低执行门槛但未降低判断门槛的关键区别。
Anthropic 发布 Claude Code Security,用 Opus 4.6 在开源项目中发现 500 多个隐藏数十年的高危漏洞。CrowdStrike、Cloudflare、Zscaler 等网安股单日暴跌约 8%。Claude Code Security 通过语义理解推理代码逻辑,像人类安全研究员一样审计代码。AI 正在将代码安全标准从无已知漏洞提升到经过 AI 审计,传统网安行业面临范式转换。
SWE-bench 官方用统一 agent 和 prompt 对所有主流模型做了公平评测。结果:Claude Opus 4.5 反超 4.6 登顶,MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 四个中国模型进入 Top 10,OpenAI 最强编码模型 GPT-5.3 Codex 缺席。编码 AI 正分化为快速交互型和深度分析型两条路线。
UC Berkeley 网络安全中心发布 67 页 Agentic AI 治理框架,首次定义 L0-L5 六级自主等级,系统梳理从欺骗性对齐到自我复制的七大风险类别,明确模型开发者→供应商→企业→用户四方责任链。当 AI Agent 已在现实中诽谤真人时,这份框架是目前最接近 Agent 行为规范的学术标准。
MIT 团队在 PNAS 发表研究,用 GRU 编码器-解码器语言模型学习毕赤酵母的密码子使用模式,为 6 个蛋白质药物生成优化基因序列,5 个产量超越 Azenta、IDT、GenScript、Thermo Fisher 四大商业工具。模型无师自通学会避开负面调控元件,HSA 产量提升约 3 倍。研究还发现行业常用的 CAI 指标与实际产量无一致相关性。
Google DeepMind 发布两篇论文展示 Gemini Deep Think 的研究级数学能力。数学研究 Agent Aletheia 自主解决了 4 个 Erdős 开放问题,用三元素反例推翻十年未证猜想,从连续数学借工具破解离散算法难题。DeepMind 提出 AI 辅助研究四级分类,当前达到 Level 2(可发表质量),并提出 Vibe-Proving 人机协作新范式。
Google 将 DeepMind 的 Lyria 3 音乐生成模型集成到 Gemini 主应用和 YouTube Dream Track,7500 万月活用户可直接从文字或图片生成带歌词、人声和封面的 30 秒音轨。技术不是重点,分发渠道碾压独立竞品、30 秒限制背后的版权策略、以及 SynthID 跨模态水印的基础设施野心才是真正的故事。
2026 年全球 AI 支出预计达 2.5 万亿美元,五大云厂商 Capex 飙至 6900 亿美元同比翻倍,但基础设施股 EPS 预期仅增 9%,资本正从建设者流向应用层,AI 投资进入谁能赚钱谁活的分化阶段
ElevenLabs 推出首个 AI 语音代理保险产品,通过 AIUC-1 认证框架模拟 5000+ 攻击场景量化风险。这不只是保险创新,而是 AI 从实验性工具升级为可保险运营实体的分水岭——可能催生一个比网络安全保险更大的全新市场。
NYU 跨学科团队在 Science 发文揭示:AI 驱动的社交机器人蜂群通过渗透在线社区、制造虚假共识来操纵公众信念。传统检测工具(包括 AI 内容检测模型)完全无法识别这些伪装成真人的 AI 代理。研究团队警告,AI 能力飞跃、平台监管真空、研究能力被削弱三重因素构成完美风暴。