网络安全
2026-04-13
来源:SecurityWeek
5 小时前
开源AI模型惊现“特洛伊木马”:Hugging Face仓库遭供应链攻击,开发者数据与算力面临双重窃取危机
最近,开源社区的天空飘来了一片乌云。安全公司 Wiz 的研究团队发布了一份令人不安的报告,披露了一种新型的、针对人工智能开发者社群的供应链攻击。这次攻击的矛头,直指当下最炙手可热的 AI 模型开源平台——Hugging Face。

简单来说,攻击者在 Hugging Face 这类平台上,上传了看似正常、实则内藏玄机的“恶意”AI 模型。当开发者或企业满怀信任地下载并使用这些模型时,就可能在不经意间,将自家后院的钥匙拱手交给了黑客。这些“特洛伊木马”模型能做什么?根据 Wiz 的报告,它们主要有两大危害:一是窃取运行环境中的敏感数据,比如访问令牌、API 密钥;二是“劫持”受害者的计算资源,将其变成攻击者进行加密货币挖矿的“矿机”。
这起事件之所以引起轩然大波,是因为它精准地击中了 AI 时代一个最核心、也最脆弱的环节:开源模型生态。Hugging Face 早已不是一个小众极客的游乐场,它已经成为全球数百万开发者和研究人员获取、分享、部署 AI 模型的首选“中央车站”。从创业公司到科技巨头,无数项目依赖其上的开源模型来加速研发。攻击者正是看准了这一生态的开放性、依赖性和高度信任,将毒药混入了公共水源。
**信任的代价:开源便利背后的阴影**
我们得先理解,为什么开发者如此依赖 Hugging Face。在 AI 开发中,训练一个高质量的模型需要海量的数据、昂贵的算力和漫长的周期。开源模型的出现,让开发者可以站在“巨人肩膀”上,通过微调(Fine-tuning)预训练好的模型,快速适配自己的特定任务。这极大地降低了 AI 应用的门槛,推动了整个行业的繁荣。
Hugging Face 的模型仓库(Model Hub)就像一个巨大的、免费的自助图书馆,任何人都可以上传模型,也都可以下载使用。这种“我为人人,人人为我”的精神,是开源文化的精髓。然而,这次攻击暴露了这种模式在安全上的“阿喀琉斯之踵”:我们如何确保图书馆里的每一本书都是安全的?当一本书(模型)被下载并“运行”起来时,它可能执行的代码,远不止模型推理本身。

根据 Wiz 的披露,攻击者上传的恶意模型,巧妙地利用了平台的安全机制。例如,他们创建了一个名为“baller423”的用户,上传了一个名为“safetensors”的模型(这个名字极具迷惑性,因为 SafeTensors 本身是 Hugging Face 推广的一种更安全的模型格式)。这个模型文件中隐藏了恶意代码,当用户在 Hugging Face 提供的推理终端(Inference Endpoints)或 Spaces 等环境中加载它时,代码就会执行,窃取环境变量中的机密信息。
更令人担忧的是,这种攻击具有极强的隐蔽性和供应链属性。一个恶意模型可能被其他看似合法的项目所依赖,或者被包装成一个热门任务的解决方案(比如“最佳文本总结模型”)。一旦有知名开发者或机构无意中使用了它,就可能产生“背书”效应,导致恶意代码在社区中像病毒一样扩散。这不是攻击一个点,而是污染了整个网络。
**AI 供应链安全:一个全新的战场**
传统软件供应链攻击(比如污染开源代码库 npm、PyPI)我们已经不陌生。但针对 AI 模型的供应链攻击,是一个升级的、更复杂的版本。模型文件(如 .bin, .safetensors, .pth)本身不是可读的代码,而是经过训练的权重参数集合,这给安全扫描带来了巨大挑战。恶意负载可以巧妙地嵌入在这些二进制文件中,或者在模型加载时依赖的配置脚本、附属代码中。
Wiz 的研究指出,攻击者甚至可以利用 Hugging Face 平台的一些特性来增强攻击。例如,通过精心构造的模型卡片(Model Card)或环境配置,来触发恶意行为。这意味着,安全审查不能只盯着模型文件本身,还需要关注与之相关的整个“包裹”。
对于企业而言,这意味着风险剧增。想象一下,一家金融公司下载了一个开源的欺诈检测模型,集成到自己的生产系统中。如果这个模型是恶意的,它可能悄无声息地将经过处理的客户交易数据泄露出去,或者利用公司的 GPU 集群进行挖矿,导致业务计算资源被挤占,成本飙升而性能骤降。
**我们该如何应对?**
面对这种新型威胁,整个生态需要一场“免疫升级”。首先,平台方责无旁贷。Hugging Face 在接到 Wiz 的报告后,已经迅速采取了行动,下架了恶意模型,并加强了安全扫描。他们需要建立更严格的上传审核机制、更强大的运行时沙箱隔离,以及对模型依赖项的深度安全检查。仅仅依靠文件哈希值或简单签名已经不够了。
其次,作为使用者的开发者和企业,必须转变“拿来即用”的心态。在将任何开源模型引入生产环境前,应建立严格的供应链安全流程:
1. **来源审查**:优先选择官方、认证或信誉极高的贡献者发布的模型。查看模型的下载量、星标数、社区讨论和问题记录。
2. **安全扫描**:使用专业的软件组成分析(SCA)和容器安全工具,对模型包及其所有依赖进行静态和动态分析。一些新兴的 AI 安全初创公司已经开始提供针对模型文件的专项扫描服务。
3. **隔离运行**:永远不要在拥有高权限或访问敏感数据的环境直接运行未经彻底审计的模型。使用强隔离的沙箱环境进行初步测试和验证。
4. **最小权限原则**:为模型推理服务配置尽可能低的系统权限和网络访问权限,避免其能够触达核心数据和资源。
最后,社区需要建立新的安全标准和最佳实践。就像为代码库建立安全漏洞披露机制(CVE)一样,AI 模型也需要一个公认的安全漏洞跟踪和预警系统。开发者之间应加强安全经验的分享,对可疑模型进行标注和举报。
这次针对 Hugging Face 的攻击,与其说是一次安全事件,不如说是一记响亮的警钟。它宣告着 AI 发展的狂飙突进阶段正在过去,一个更加注重安全、稳健和可信的新阶段已经到来。开源的力量让 AI 民主化,但这份民主的礼物,需要我们共同用审慎和责任来守护。在享受开源模型带来的巨大便利时,我们或许都该问自己一句:我下载的这个“智能”,它真的“可信”吗?
加载中...