AI智能体可观测与评测:主流产品调研123
近期我在推进一个项目,需要系统梳理“智能体可观测性”和“智能体评测”相关的产品方向。因此,我对国内外的开源方案与商业闭源产品都做了一轮资料调研。
LangSmith 是 LangChain 团队推出的商业闭源平台,并不是开源项目。它主要想解决的是:在生产环境里,LLM 应用(尤其是智能体)常见的可观测性(Observability)和评测(Evaluation)落地难题。
需要注意的是,LangSmith 并非开源。它以 SaaS 形式提供,同时也支持企业自托管,整体属于专有产品路线。
关键区分在于:GitHub 上你能看到的 langsmith 相关库多是客户端 SDK(MIT 协议),用于把追踪数据从你的代码发到平台;而服务端完整能力属于闭源,你无法拿到社区版源码自行部署整套 LangSmith。
针对复杂的 Agent(智能体)场景,LangSmith 提供了接近 APM 的全链路追踪(Tracing)能力,帮助团队把“黑盒式”的智能体调试变得更可操作。
2.生产环境监控
相较于只做简单日志的工具,LangSmith 的重点在于更体系化的质量度量与评估能力。
2.数据集与回归测试
2.人工标注集成
langfuse 的 github 项目:https://github.com/langfuse/langfuse/tree/main 26.7K star 2.7K fork
Langfuse 是一套面向 LLM(大语言模型)应用的开源工程平台。它的核心目标是打破 AI 应用开发中的“黑盒感”,并在调试、分析到持续迭代过程中提供全流程支持。
Langfuse 平台拆解如下:
从定位看,Langfuse 更像是一个 LLMOps(大模型运维)平台。它试图弥合传统软件与 LLM 应用之间的差异:LLM 的输出并不完全确定(同样的输入可能产生不同结果),而且往往伴随多步链路调用(例如 RAG 检索与工具调用)。平台通过三块核心能力,形成团队可落地的工程化闭环:
1. Observability(可观测性):把每次调用变得可见。 这是 Langfuse 的基础能力。它能够自动采集应用中的各类 LLM 调用、外部 API 请求、检索环节等内容,并把它们串成完整的 Trace(追踪链路)。
2. Prompt Management(提示词管理):把 Prompt 工程化。 这也是区别于常规日志系统的关键点:Langfuse 将 Prompt 从代码里解耦出来,支持集中式管理与治理。
3. Evaluation(评估):用量化方式衡量 AI 表现。 为了回答“这个回答到底好不好?”这类主观问题,Langfuse 提供了更灵活的评估框架。
文档里也强调了简化的生命周期管理思路:
可以把 Langfuse 理解为 AI 应用场景里的“Datadog + Git + A/B Testing 平台”。如果你在做基于 LLM 的聊天机器人、智能体或 RAG 系统,它能帮助团队把流程串起来,例如:
从目前 LLMOps 生态来看,Langfuse 与 LangSmith 是两类最常被提及的可观测性平台。它们在功能上有交集(Tracing、Evaluation、Monitoring),但底层理念与适配场景并不相同。
LangSmith 的优势在于与 LangChain 生态绑定更深。如果你是 LangChain/LangGraph 的重度使用者,并且更希望获得“开箱即用”的评估体验,它通常是更直接的选择。
2.评估(Evaluation)能力
3.提示词管理(Prompt Management)
选择 Langfuse 的情况(✅)
选择 LangSmith 的情况(✅)
若你的目标是提升开发效率:不想过多投入运维成本,也愿意为官方 SLA 支持与企业级能力进行付费,那么这类取向更契合基于服务的平台。
如果项目涉及金融或数据敏感行业(例如本地金融机构),Langfuse 的自托管方式通常更稳妥,能够更好地对应网络安全法对数据出境与存储的合规要求;而当团队处于创业早期、需要快速验证 MVP 时,直接使用 LangSmith 的云服务往往能显著缩短前期开发周期。
Coze Loop 的 github 地址如下:https://github.com/coze-dev/coze-loop
5.4K star
Coze Loop 是开源项目,采用 Apache 2.0 协议。
Coze Loop(扣子罗盘)是字节跳动推出的 AgentOps 平台,专门针对 AI 智能体常见的“开发黑盒、评测靠猜、运维抓瞎”等痛点。它把评测(Evaluation)与观测(Observability)作为两条主线,让智能体开发从“凭感觉试错”走向“基于数据的工程迭代”。
其中,可观测性模块的关键在于让智能体的每一次“思考”过程透明化、可追溯。它不止是简单的日志堆叠,更像“飞行记录仪”,把决策链路尽量完整地还原。
1.全链路 Trace 追踪
2.性能与成本监控
3.BadCase 自动回流
这也是 Coze Loop 的一项亮点。系统支持从线上 Trace 中自动抽样,把真实用户对话接入在线评测;筛出低分(BadCase)对话后,再把这些样本自动回流到评测数据集中。这样你的测试集会持续吸收真实场景的边界情况,形成“越用越聪明”的数据闭环。
评测模块则希望用自动化与标准化的测试流程,替代“觉得差不多就行”的主观判断,为 Prompt 与模型选择提供更可验证的依据。
1.评测体系架构
常见评测流程通常遵循“评测集(Dataset)→ 评估器(Evaluator)→ 实验(Experiment)”的闭环逻辑:
2.核心评测维度
3.多模型对比与 A/B 测试
在同一套评测集上,它支持对比不同模型(例如 GPT-4 与 DeepSeek),或对比不同 Prompt 版本的效果。你可以借助数据更直观地选择性价比更高的方案,避免在模型迭代时盲目追新。
为了让你更直观地了解 Coze Loop 在智能体生命周期中的定位,下面给出一个汇总:
归纳
Coze Loop 的智能体可观测性让你能“看清楚”智能体内部每一步的执行细节;而智能体评测让你能“测得更准”,用数据证明每次迭代是确实提升还是产生了退化。两者叠加,才构成 AI 智能体从“能跑起来”到“用起来更好”的关键基础设施。
MLflow github 地址如下:https://github.com/mlflow/mlflow
25.8K star 5.7K fork
MLflow 是一个开源项目,其核心代码库(包括与智能体可观测性、评测相关的能力)整体遵循 Apache License 2.0 协议。
MLflow 已经从传统的机器学习生命周期管理平台,进一步发展为生成式 AI 与智能体(Agent)的可观测性平台首选。围绕你关心的智能体可观测性与评测,MLflow 2.x/3.x 重点通过 Trace(追踪)与 GenAI Evaluation(评估)两大模块,来解决智能体“黑盒”调试与量化评估的问题。
传统日志往往只能回答“发生了什么”,而 MLflow 的 Trace 系统更强调回答“为什么会发生”。它借助自动化的分布式链路追踪,把复杂的智能体工作流可视化呈现。
1.核心概念:Trace 与 Span
2.实战价值:从“盲猜”到“精准定位”
MLflow 的评估框架(mlflow.genai.evaluate)专门针对 GenAI 的复杂性设计,不仅覆盖最终答案的对错,也会对推理过程进行更细粒度的评估。
1.评测模式:离线与在线
2.内置“法官”(LLM-as-a-Judge)
MLflow 提供了较强的内置评估器,能够借助 LLM 来作为裁判,评估智能体的输出质量:
3.自定义评测逻辑
你还可以通过 @scorer 装饰器编写业务专属的评测规则。比如评测一个金融客服智能体:
归纳
对于智能体开发而言,MLflow 的核心价值主要体现在:
Arize Phoenix 项目 github 地址如下:https://github.com/Arize-ai/phoenix
9.6K star
其核心 Python 库采用 Mulan PSL 2.0(类似 Apache 2.0 的较宽松协议),部分客户端组件则使用 Apache 2.0。
1.智能体可观测性(Agent Observability)
Phoenix 基于 OpenTelemetry,并结合自研的 OpenInference 标准,能够自动追踪智能体执行的完整链路,解决“Agent 内部到底做了什么”的追问。
2. 智能体评测(Agent Evaluation)
这是 Phoenix 的另一项核心能力,用于把智能体表现量化出来,支持 LLM-as-a-Judge(用大模型自动打分)等评估模式。
如果你在成都本地开发,部署体验会更轻量:
# 1. 安装 pip install arize-phoenix # 2. 启动服务(会启动本地服务器和 UI) phoenix serve # 访问http://localhost:6006# 3. 在你的 Agent 代码中注入监控(以 OpenAI 为例) from openinference.instrumentation.openai import OpenAIInstrumentor from phoenix.otel import register tracer_provider = register(endpoint="http://localhost:4317") # OTLP 端点 OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)
在 LLM 可观测性方向,Phoenix 的定位非常明确:
小结:如果你需要一款开源、可私有化部署,并且能对智能体(Agent)每一步决策进行深度监控的工具,那么 Arize Phoenix 是一个更成熟的选项。
OpenCompass 的 github 如下:https://github.com/open-compass/opencompass
7K star
开源协议:Apache License 2.0
OpenCompass(司南评测体系)由上海人工智能实验室开源,是面向大模型及智能体的全维度评测平台。它不仅被业界广泛视作权威评测基准,也是在国内大模型榜单中常被引用的重要数据来源。