Microsoft Foundry可观测性-Red Team

一句话总结

评估质量只是第一步。发现那些你根本没想到要评估的盲区，才是 AI Agent 安全的生死线。

为什么需要红队测试？

你的 AI Agent 已经能：

理解用户意图 ✅
调用外部工具 ✅
执行多步骤任务 ✅

但它是否也能：

被一句精心构造的提示词”越狱”？❓
在诱导下执行被禁止的操作？❓
泄露敏感数据给不该看到的人？❓

传统 QA 测的是”功能对不对”。红队测试测的是”坏人能不能让它做错”。

Microsoft Foundry 的红队测试：三步走

1. 选风险分类

Foundry 覆盖 9 大类风险：

风险类型	适用对象	测什么
Hateful and Unfair Content	Model + Agent	仇恨、偏见内容
Sexual Content	Model + Agent	色情、性暴力内容
Violent Content	Model + Agent	暴力、武器相关内容
Self-Harm-Related Content	Model + Agent	自残、自杀内容
Code Vulnerability	Model + Agent	代码安全漏洞（注入、SQLi 等）
Ungrounded Attributes	Model + Agent	无根据的推断（人口统计、情绪状态）
Prohibited Actions ⚠️	Agent only	执行被禁止的操作
Sensitive Data Leakage ⚠️	Agent only	泄露财务、PII、健康数据
Task Adherence ⚠️	Agent only	未按规则完成任务

⚠️ 注意：后 3 项（Prohibited Actions / Sensitive Data Leakage / Task Adherence）仅支持 Agent 场景，且必须在 Cloud 环境运行（需要沙箱隔离）。

实测建议：不要全选。根据你的 Agent 能力边界，精准选择 3-5 个最相关的分类，节省时间和成本。

2. 选攻击策略

Foundry 内置多种攻击策略，按复杂度分为三档：

复杂度	策略类型	说明
Easy	直接请求	Base64、编码、ROT13、Flip
Moderate	变换技巧	Tense
Difficult	高级绕过	多轮对话诱导、Crescendo等

关键洞察：直接攻击被拒绝 ≠ 安全。PyRIT 的对抗策略会添加”转换层”绕过防御，比如把恶意请求编码后注入。Moderate 档的变换技巧（如 Base64）就是典型的绕过手段。

PyRIT：当 Foundry 的 24 种策略不够用

视频里我们用的是 Foundry 内置的攻击策略，开箱即用。但如果你有自己的安全团队，想走得更远，需要了解底层武器库 PyRIT。

PyRIT 是什么

PyRIT（Python Risk Identification Tool）是微软 2022 年内部孵化、2024 年开源的 AI 红队测试框架：

指标	数据
开源协议	MIT
GitHub Stars	3,800+
贡献者	129 人
对抗数据集	53+
提示词转换器	70+
攻击策略	6+（可组合扩展）

“我们能在几小时内生成数千条恶意提示词并评估 Copilot 系统的输出——而不是几周。” — 微软安全博客

Foundry 和 PyRIT 的关系

简单理解：

PyRIT = 开源武器库（研究者、安全专家直接用）
Foundry Red Teaming = 企业级封装（把 PyRIT 的策略打包成易用的界面，一键运行）

Foundry 的攻击策略，底层就是 PyRIT 的积累。微软把复杂的对抗工程封装成了企业友好的界面。

什么时候该用 PyRIT 直接开发

场景	用 Foundry 就够了	需要 PyRIT 自建
快速验证 Agent 安全	✅ Portal 点几下
企业合规、定期巡检	✅ SDK + CI/CD
自定义攻击策略		✅ PyRIT 可扩展
深度研究新型攻击		✅ 组合策略、自定义转换器
构建内部红队平台		✅ 基于 PyRIT 开发

关键优势：PyRIT 支持插件式扩展——企业可以基于内置的 53 个数据集和 70 个转换器，开发针对自身业务场景的专属攻击策略。

3. 看结果，修漏洞

运行完成后，Foundry 给出：

Attack Success Rate (ASR)：攻击成功率
按风险分类的详细报告：哪些攻击成功了，为什么
攻击-响应对：逐条查看 Agent 是如何被”骗”的

核心动作：

查看成功的红队攻击 → 理解攻击路径
针对性修改 Agent 的防护策略（system prompt、工具权限、内容过滤器）
重新运行，验证修复效果

不只是 Portal：SDK 让红队测试成为流水线的一环

Foundry Portal 适合快速验证，但企业级安全需要自动化：

三种集成场景：

预发布门禁：每次发版前自动跑红队测试，ASR 超标阻断
模型升级验证：换模型后自动对比安全水位
定期巡检：每周/每月自动扫描，持续监控

写在最后

AI Agent 的安全不是”测一次就过关”的考试，而是持续对抗的过程。

攻击者每天都在发明新的提示词注入、新的越狱技巧、新的社会工程套路。你的防御策略如果停留在几个月前的认知，就已经落后了。

红队测试的价值不是”证明安全”，而是”持续发现不安全”。

在攻击者找到漏洞之前，先对自己开一枪。

Microsfot Foundry 系列(3)