LLM 和代理追踪
为 LLM 调用、工具调用、检索步骤和其他应用逻辑捕获层级化追踪。可按用户、会话、成本、延迟或自定义元数据筛选并检查追踪。
Langfuse 是一个开源 AI 工程平台,用于追踪、评估并改进 LLM 应用和代理。它将可观测性、提示管理、实验和人工标注整合到一个工作流中,让团队能够借助真实使用数据从原型走向生产。
该平台围绕兼容 OpenTelemetry 的追踪、原生 SDK 和广泛集成构建,使团队能够捕获 LLM 和非 LLM 活动,而不会被锁定在单一框架中。Langfuse 还支持云部署和自托管,其产品和核心功能采用 MIT 许可。
为 LLM 调用、工具调用、检索步骤和其他应用逻辑捕获层级化追踪。可按用户、会话、成本、延迟或自定义元数据筛选并检查追踪。
将多轮对话作为会话进行跟踪,并添加用户跟踪,以便进行生产调试和使用分析。代理还可以表示为图结构,以支持更复杂的工作流。
将提示与应用代码分离管理,支持版本控制、按标签部署、回滚、提示缓存和 playground 测试。提示历史和变更跟踪可帮助团队审查提示如何演进。
在生产数据或实验上使用 LLM-as-a-judge、启发式函数或人工审核运行评估。支持数据集、实验、评估分数和人工标注,有助于比较随时间变化的结果。
通过仪表板、告警和与追踪关联的指标监控质量、成本和延迟。这使得理解提示或模型变更对生产行为的影响更加容易。
通过原生 SDK、OpenTelemetry、基于代理的日志记录、API、导出以及 100 多个集成进行连接。该平台还支持自托管和数据可移植性。
为生产环境中的 LLM 应用添加埋点,以便在调试延迟、成本激增或意外输出时检查追踪、会话和用户级行为。
将提示作为带版本的资产进行管理,按标签部署,回滚更改,并在发布更新前在 playground 中比较提示变体。
在数据集上运行离线或在线评估,然后使用 LLM-as-a-judge、启发式方法或人工审核比较实验,以评估质量变化。
创建人工标注队列并审查追踪,以构建黄金数据集或与协作者一起验证模型行为。
在原型和生产系统中使用同一平台,将埋点、实验和迭代连接到一个工作流中。
Langfuse 面向希望在一个系统中追踪 LLM 和代理工作流、管理提示并评估输出的团队。它支持追踪、提示管理、评估、实验和人工标注。
源内容强调了适用于 Python 和 JavaScript 的原生 SDK、OpenTelemetry 支持、100 多个集成,以及通过像 LiteLLM 这样的 LLM 网关捕获追踪的选项。该产品旨在与现有技术栈协同工作,而不是要求使用单一框架。
Langfuse 支持追踪、会话、用户跟踪、提示版本管理、提示部署、playground 测试、实验、评估分数、数据集和人工审核工作流。文档将其描述为从原型到生产的连贯工作流。
定价页面显示有免费的 Hobby 方案、付费 Cloud 方案和自托管选项。它还列出了托管云方案,提供更长的数据保留时间、更高的限制,以及 SSO、SCIM、审计日志和支持选项等企业功能。
该产品面向 LLM 应用和代理。文档强调对 LLM 和非 LLM 调用的追踪、生产调试、提示迭代,以及质量、成本和延迟监控。
AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.
Happycapy is a browser-based agent platform that lets users run Claude Code, manage skills, and delegate tasks inside a secure sandbox. It offers a free tier plus paid plans for more automation, email handoff, and larger workloads.
OpenAI is an AI research and deployment company centered on ChatGPT, the API, Platform tools, and Codex. The site helps individuals, developers, and businesses explore conversational AI, build with models, and follow product and research updates.
DDS Hub 是面向 Claude 和 OpenAI 系列模型工作流的 AI API 平台,提供按 token 计费、模型选择和 Claude Code 配置指引,帮助开发者集中完成 API 接入、用量计费和基础故障排查。
Devin Desktop is Windsurf’s desktop product for managing local and cloud agents from one workspace. It supports Mac, Windows, and Linux, with additional access through a JetBrains plugin and a local CLI.
LiteLLM 提供与 OpenAI 兼容的方式,通过 Python SDK 或代理服务器调用和管理 100+ 个 LLM。支持统一路由、费用追踪和多供应商接入。