26年02月17日-富贵早报-蚂蚁集团万亿参数开源模型,Google Gemini遭10万次克隆攻击,三星S26 AI隐私屏幕,Agent自生成技能被证无效

📌 一句话总结:蚂蚁集团发布万亿参数开源模型 Ling-2.5-1T,Google 披露 Gemini 遭 10 万次「模型克隆」攻击,三星 Galaxy S26 用 AI 像素级隐私屏幕重新定义手机安全,SkillsBench 论文揭示 AI Agent 自生成技能几乎无效。

2026年02月17日 · 每日晨报 · 阅读时间约 5 分钟

今日速览

类别 要闻
大模型 蚂蚁集团发布 Ling-2.5-1T 万亿参数开源模型 + Ring-2.5-1T 首个混合线性架构推理模型
安全 Google 披露 Gemini 遭 10 万+ 次「蒸馏攻击」,攻击者试图克隆模型能力
产品 三星 Galaxy S26 确认搭载 AI 隐私屏幕,Flex Magic Pixel 像素级防偷窥
论文 SkillsBench 研究:AI Agent 自生成技能平均无效,人工策划技能提升 16.2 个百分点
产业 FT 警告中国机器人行业面临「内卷」风险,可能重演电动车价格战
军事AI Scale AI 起诉美国国防部,指控 Maven 项目合同分配不公
开源 PocketBlue 开源情报平台走红 GitHub,模块化隐私优先的 AI 研究工具
隐私 研究揭示蓝牙设备泄露大量个人信息,追踪风险远超预期

大模型动态

蚂蚁集团发布 Ling-2.5-1T 和 Ring-2.5-1T

蚂蚁集团正式发布两款重磅开源模型:Ling-2.5-1T 是其最新旗舰万亿参数大语言模型,支持 100 万 token 上下文,在 AIME 2026 基准测试中以仅约 5890 个 token 就达到了其他前沿推理模型需要 15000-23000 个 token 才能实现的性能。Ring-2.5-1T 则是全球首个混合线性架构推理模型,在 IMO 2025 数学竞赛中拿到金牌水平(35/42),CMO 2025 得分 105/126,超过中国国家队分数线。两款模型均已在 Hugging Face 和 ModelScope 开源。此外,蚂蚁还发布了 Ming-Flash-Omni-2.0,业界首个统一语音、音频和音乐的全模态模型。

Ling-2.5-1T 在推理效率上的突破值得关注——用不到其他模型三分之一的 token 达到同等性能,意味着推理成本大幅降低。
— 来源:Business Wire

安全事件

Google 披露 Gemini 遭 10 万+ 次「模型克隆」攻击

Google 在最新季度威胁评估报告中披露,商业驱动的攻击者对 Gemini 发起了超过 10 万次「蒸馏攻击」——通过大规模自动化提示词,系统性地提取模型输出,试图逆向工程 Gemini 的逻辑和训练数据来构建克隆模型。Google 将此定性为知识产权盗窃,并已调整模型防护措施。不过 Ars Technica 指出了其中的讽刺:Google 自己的大模型也是从互联网上未经许可抓取的数据训练而来。

Google 检测到来自全球私营企业和研究人员的频繁模型提取尝试,这些攻击违反了服务条款,可能面临法律追究。
— 来源:Ars Technica

产品发布

三星 Galaxy S26 确认搭载 AI 隐私屏幕

三星通过最新广告正式确认 Galaxy S26 系列将搭载「Privacy Display」隐私屏幕功能。该技术基于三星 Display 在 MWC 2024 首次展示的 Flex Magic Pixel 面板,通过实时调整单个像素的发光角度,在不影响正面观看体验的前提下,让侧面偷窥者无法看清屏幕内容。与传统贴膜式防窥屏不同,这是原生显示技术,不会降低亮度或色彩表现。系统可能结合 AI 实时判断哪些内容需要保护(如银行信息、验证码、私人消息),实现动态、上下文感知的隐私保护。Galaxy S26 系列将于 2 月 25 日正式发布。

不是每个 AI 功能都得是聊天机器人。「环境隐私」这类功能可能比下一个花哨的 AI 助手更有实际价值。
— 来源:The Verge

论文速递

SkillsBench:AI Agent 自生成技能几乎无效

一篇在 Hacker News 上引发热议的新论文 SkillsBench 对 AI Agent 的「技能」机制进行了系统性基准测试。研究团队构建了覆盖 11 个领域的 86 个任务,在 7 种 Agent-模型配置上运行了 7308 条轨迹。核心发现:人工策划的技能包平均提升通过率 16.2 个百分点(医疗领域高达 +51.9pp),但 Agent 自己生成的技能平均没有任何提升。这意味着模型无法可靠地编写它们自己受益的程序化知识。另一个有趣发现:包含 2-3 个模块的精简技能包效果优于全面文档,小模型配合技能包可以匹敌没有技能包的大模型。

人工策划的技能提升通过率 16.2pp,但自生成技能平均无效——模型无法可靠地编写自己受益的程序化知识。
— 来源:arXiv: SkillsBench

产业观察

FT 警告:中国机器人行业面临「内卷」风险

英国《金融时报》旗下 FT Alphaville 发表分析文章,提出一个尖锐问题:中国的超级内部竞争——即「内卷」——是否会将机器人和 AI 硬件推入类似电动车市场的利润崩塌?当大量有实力的企业竞相扩产相似产品时,价格下降速度可能超过创新成本,最终只有效率最高的制造商能存活。对全球科技行业而言,这意味着工业机器人、仓储自动化和服务机器人可能迅速变得极其便宜,全球采用加速,但利润池将集中在传感器、执行器等核心零部件、软件栈和系统集成服务上。中国以外的创业公司可能很难在硬件定价上竞争,需要转向安全认证垂直机器人、高可靠性场景或深度集成的 AI 软件。

机器人行业可能步电动车后尘进入全球价格战,重塑创业公司的盈利空间。
— 来源:Financial Times Alphaville

Scale AI 起诉美国国防部

由 Mark Zuckerberg 支持的 AI 数据标注公司 Scale AI 将美国国防部告上法庭,指控 Maven 项目(美军核心 AI 情报项目)的合同分配过程不公平。Scale AI 于 2025 年 12 月向政府问责办公室提交了投标抗议,针对的是国家地理空间情报局的合同决定。Maven 项目是美军最重要的 AI 应用之一,旨在利用 AI 分析卫星图像和情报数据。这起诉讼凸显了军事 AI 领域日益激烈的商业竞争。

军事 AI 合同的争夺已经从技术竞争升级到法律战场。
— 来源:Times of India

GitHub 开源热榜

PocketBlue:隐私优先的开源情报平台

PocketBlue 是一个新上线的开源 AI 研究平台,正在 GitHub 上快速走红。它采用模块化、隐私优先的设计理念,为开发者提供 AI 驱动的情报分析能力。与商业情报工具不同,PocketBlue 强调数据本地化和用户隐私控制,所有分析都可以在本地运行。

蓝牙设备隐私泄露研究引发关注

一篇题为「What your Bluetooth devices reveal」的研究文章在 Hacker News 上获得 267 点赞和 105 条评论,揭示了蓝牙设备泄露个人信息的严重程度远超大多数人的认知。研究详细分析了蓝牙协议中的隐私漏洞,以及攻击者如何利用这些漏洞追踪和识别用户。

富贵点评

今天的新闻有一个隐藏主线:AI 竞争正在从「谁的模型更强」转向「谁的系统更完整」。蚂蚁集团一口气发布三个系列的模型(语言、推理、多模态),不是在秀肌肉,而是在构建生态。Google 被 10 万次克隆攻击,说明模型本身已经成为值得偷的「资产」——这在两年前是不可想象的。三星把 AI 塞进像素里做隐私保护,Scale AI 为军事合同打官司,中国机器人可能重演电动车价格战……所有这些都指向同一个趋势:AI 不再是一个独立的技术话题,它正在渗透进硬件、供应链、法律和地缘政治的每一个缝隙。而 SkillsBench 那篇论文最让我感慨——AI 能用好别人写的技能,却写不好自己的技能。这不就是我们很多人的写照吗?

📋 要点回顾

  • 蚂蚁集团三连发:Ling-2.5-1T(万亿参数LLM)、Ring-2.5-1T(首个混合线性推理模型,IMO金牌水平)、Ming-Flash-Omni-2.0(统一语音/音频/音乐),全部开源
  • Gemini 遭克隆攻击:Google 披露超 10 万次蒸馏攻击,模型安全从理论问题变成运营问题
  • Galaxy S26 隐私屏幕:Flex Magic Pixel 技术实现像素级防偷窥,AI 判断哪些内容需要保护
  • Agent 技能悖论:人工策划技能提升 16.2pp,自生成技能无效,小模型+技能可匹敌大模型
  • 机器人内卷警告:FT 分析中国机器人可能重演电动车价格战,利润向零部件和软件集中
  • 军事AI法律战:Scale AI 起诉国防部 Maven 项目合同不公

❓ 常见问题

Q: Ling-2.5-1T 和 Ring-2.5-1T 有什么区别?

A: Ling-2.5-1T 是通用大语言模型,强调推理效率和长上下文(100万token);Ring-2.5-1T 是专门的推理模型,采用混合线性架构,专攻数学等高难度推理任务,在国际数学奥林匹克竞赛中达到金牌水平。

Q: 什么是「模型蒸馏攻击」?普通用户需要担心吗?

A: 模型蒸馏攻击是通过大量精心设计的提示词提取模型输出,用这些输出训练一个「克隆」模型。普通用户不需要担心,这主要影响 AI 公司的商业利益和知识产权。

Q: Galaxy S26 的隐私屏幕和贴膜防窥屏有什么不同?

A: 传统防窥膜是物理覆盖,会降低亮度和色彩。Galaxy S26 的 Flex Magic Pixel 是原生显示技术,通过调整像素发光角度实现防窥,不影响正面观看体验,还能结合 AI 智能判断哪些内容需要保护。

作者:王富贵 | 发布时间:2026年02月17日

参考来源:Business Wire · Ars Technica · The Verge · arXiv · Financial Times · CNN