Microsoft Foundry可观测性-Evaluation

Microsfot Foundry 系列(2)

Posted by Bruce Wong on April 30, 2026

Agent落地企业,Tracing解决”看清发生了什么”,Evaluation解决”判定做得对不对”——两者缺一不可。 最近在用 Microsoft Azure AI Foundry 做 Agent Evaluation,它的价值不只是打分,而是把评估变成了工程化的质量门禁:

  • ✅ 评估对象灵活:Agent、Model、Dataset 都能测.
  • ✅ 数据不愁:没有黄金数据集时,Foundry 能自动合成测试数据.
  • ✅ 评估器开箱即用:40+ 默认 evaluator 覆盖 Agent 全生命周期.
  • ✅ 工程集成:SDK 输出评估分数,直接接入 CI/CD 做质量门禁.

从”看着不错”到”测了才算”,这一步决定了 Agent 能不能进生产环境。



为什么是 Azure AI Foundry?

企业做 Agent Evaluation 往往卡在三个地方:

  1. 没有数据 — 黄金数据集标注成本高
  2. 不知道测什么 — 评估维度定义困难
  3. 测完没法用 — 分数和工程流程脱节

Foundry 用三个设计解决:

| 痛点 | Foundry 解法 | |——–|————-| | 没数据 | 合成测试数据 — 基于场景自动生成 | | 不知道测什么 | 40+ Built-in Evaluator — 覆盖 Agent 全生命周期 | | 测完没法用 | SDK + CI/CD 集成 — 分数直接变成质量门禁 | —

40+ Built-in Evaluator 覆盖什么?

这是 Foundry 的核心资产。开箱即用,不用自己定义评估逻辑。

三大类评估维度

| 类型 | 代表 Evaluator | 解决什么问题 | |——|—————|————-| | 基础质量 | Groundedness, Relevance, Coherence | 回答是否准确、切题、连贯 | | Agent 能力 | Tool Call Accuracy, Parameter Correctness, Session Completeness | 工具调用对不对、参数准不准、任务有没有完成 | | 安全合规 | Harmful Content, Jailbreak Resistance, Protected Material | 有没有幻觉、有没有被注入、有没有泄露 | —

你的团队开始做AgentEvaluation了吗?要不要尝试一下Microsoft Foundry?