LLM 與代理追蹤
擷取 LLM 呼叫、工具呼叫、檢索步驟與其他應用邏輯的階層式追蹤。可依使用者、session、成本、延遲或自訂中繼資料篩選與檢視追蹤。
Langfuse 是一款開源 AI 工程平台,專為追蹤、評估與改進 LLM 應用和代理而設計。它整合可觀測性、提示管理、實驗與人工標註於單一工作流程中,讓團隊能以實際使用資料從原型邁向正式上線。
此平台以相容 OpenTelemetry 的追蹤、原生 SDK 與廣泛整合為基礎,讓團隊可擷取 LLM 與非 LLM 活動,而不必綁定單一框架。Langfuse 也支援雲端部署與自架,且產品與核心功能皆採用 MIT 授權。
擷取 LLM 呼叫、工具呼叫、檢索步驟與其他應用邏輯的階層式追蹤。可依使用者、session、成本、延遲或自訂中繼資料篩選與檢視追蹤。
將多輪對話視為 sessions 進行追蹤,並加入使用者追蹤以利正式環境除錯與使用分析。代理也可以圖形方式呈現,以支援更複雜的工作流程。
將提示與應用程式程式碼分開管理,並提供版本控制、依標籤部署、回滾、提示快取與 playground 測試。提示歷史與變更追蹤可協助團隊檢視提示如何演進。
可在正式資料或實驗資料上,使用 LLM-as-a-judge、啟發式函式或人工審閱執行評估。支援資料集、實驗、評分與人工標註,有助於比較不同變更隨時間的差異。
透過儀表板、警示與追蹤連結指標監控品質、成本與延遲。這能更容易理解提示或模型變更對正式環境行為的影響。
透過原生 SDK、OpenTelemetry、代理式記錄、API、匯出功能與 100+ 種整合進行連接。此平台也支援自架與資料可攜性。
為正式環境中的 LLM 應用加入監測,以便在除錯延遲、成本暴增或非預期輸出時檢視追蹤、sessions 與使用者層級行為。
將提示視為可版本化資產來管理,依標籤部署、回滾變更,並在發佈更新前於 playground 中比較不同提示版本。
在資料集上執行離線或線上評估,接著使用 LLM-as-a-judge、啟發式方法或人工審閱比較實驗,以評估品質變化。
建立人工標註佇列並審閱追蹤,與協作者一起建立黃金資料集或驗證模型行為。
在原型與正式系統之間使用同一平台,將儀器化、實驗與迭代串接於單一工作流程中。
Langfuse 旨在協助團隊在同一套系統中追蹤 LLM 與代理工作流程、管理提示,並評估輸出。它支援追蹤、提示管理、評估、實驗與人工標註。
來源重點提到 Python 與 JavaScript 的原生 SDK、OpenTelemetry 支援、100+ 種整合,以及可透過像 LiteLLM 這類 LLM gateway 擷取追蹤資料的選項。此產品設計上可與既有技術堆疊協作,而不需要依賴單一框架。
Langfuse 支援追蹤、sessions、使用者追蹤、提示版本管理、提示部署、playground 測試、實驗、評估分數、資料集與人工審閱流程。文件將其描述為從原型到正式上線的串連工作流程。
定價頁顯示有免費 Hobby 方案、付費 Cloud 方案與自架選項。它也列出託管雲端方案,包含更長的保留期、更高的限制,以及 SSO、SCIM、稽核日誌與支援選項等企業功能。
此產品是為 LLM 應用與代理所設計。文件強調可追蹤 LLM 與非 LLM 呼叫、正式環境除錯、提示迭代,以及品質、成本與延遲監控。
AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.
Happycapy is a browser-based agent platform that lets users run Claude Code, manage skills, and delegate tasks inside a secure sandbox. It offers a free tier plus paid plans for more automation, email handoff, and larger workloads.
OpenAI is an AI research and deployment company centered on ChatGPT, the API, Platform tools, and Codex. The site helps individuals, developers, and businesses explore conversational AI, build with models, and follow product and research updates.
DDS Hub 是一個支援 Claude 與 OpenAI 家族模型工作流程的 AI API 平台,提供 token 計價、模型選擇與 Claude Code 設定指引,方便開發者在同一處取得 API 存取、用量計費與基本疑難排解。
Devin Desktop is Windsurf’s desktop product for managing local and cloud agents from one workspace. It supports Mac, Windows, and Linux, with additional access through a JetBrains plugin and a local CLI.
LiteLLM 以相容 OpenAI 的方式,透過 Python SDK 或 proxy server 管理並呼叫 100+ 個 LLM,協助團隊以單一介面路由請求、追蹤支出並串接多家供應商。