Langfuse

Langfuse 是一款開源 AI 工程平台，專為追蹤、評估與優化 LLM 應用和代理而設計，整合可觀測性、提示管理、實驗與人工標註，讓團隊以實際使用資料串接完整工作流程。

AI代理開發

AI開發者工具

監控與日誌管理

大型語言模型

提示詞

訪問網站

開源 AI 工程平台

Langfuse 是一款開源 AI 工程平台，專為追蹤、評估與改進 LLM 應用和代理而設計。它整合可觀測性、提示管理、實驗與人工標註於單一工作流程中，讓團隊能以實際使用資料從原型邁向正式上線。

此平台以相容 OpenTelemetry 的追蹤、原生 SDK 與廣泛整合為基礎，讓團隊可擷取 LLM 與非 LLM 活動，而不必綁定單一框架。Langfuse 也支援雲端部署與自架，且產品與核心功能皆採用 MIT 授權。

核心能力

LLM 與代理追蹤

擷取 LLM 呼叫、工具呼叫、檢索步驟與其他應用邏輯的階層式追蹤。可依使用者、session、成本、延遲或自訂中繼資料篩選與檢視追蹤。

Sessions、使用者與代理圖

將多輪對話視為 sessions 進行追蹤，並加入使用者追蹤以利正式環境除錯與使用分析。代理也可以圖形方式呈現，以支援更複雜的工作流程。

提示管理工作流程

將提示與應用程式程式碼分開管理，並提供版本控制、依標籤部署、回滾、提示快取與 playground 測試。提示歷史與變更追蹤可協助團隊檢視提示如何演進。

評估與人工審閱

可在正式資料或實驗資料上，使用 LLM-as-a-judge、啟發式函式或人工審閱執行評估。支援資料集、實驗、評分與人工標註，有助於比較不同變更隨時間的差異。

營運指標與警示

透過儀表板、警示與追蹤連結指標監控品質、成本與延遲。這能更容易理解提示或模型變更對正式環境行為的影響。

開放整合與部署選項

透過原生 SDK、OpenTelemetry、代理式記錄、API、匯出功能與 100+ 種整合進行連接。此平台也支援自架與資料可攜性。

常見使用情境

正式環境可觀測性
為正式環境中的 LLM 應用加入監測，以便在除錯延遲、成本暴增或非預期輸出時檢視追蹤、sessions 與使用者層級行為。
提示迭代
將提示視為可版本化資產來管理，依標籤部署、回滾變更，並在發佈更新前於 playground 中比較不同提示版本。
評估工作流程
在資料集上執行離線或線上評估，接著使用 LLM-as-a-judge、啟發式方法或人工審閱比較實驗，以評估品質變化。
人機協作審閱
建立人工標註佇列並審閱追蹤，與協作者一起建立黃金資料集或驗證模型行為。
端到端 LLM 開發
在原型與正式系統之間使用同一平台，將儀器化、實驗與迭代串接於單一工作流程中。

Pros and Cons

Pros

將追蹤、提示管理、評估、實驗與人工標註整合在同一平台。
可透過 OpenTelemetry、原生 SDK、API 存取與多種整合，與既有技術堆疊協作。
同時支援雲端託管與自架，核心功能為開源且採 MIT 授權。
提供有助於正式環境迭代的工作流程功能，例如提示版本控制、回滾、資料集與並排比較。

Cons

來源未明確說明單一的一鍵式設定流程，因此導入工作量會依你選擇的技術堆疊與整合方式而定。
部分進階功能，例如企業級 SSO、SCIM、稽核日誌與專屬支援，屬於較高階方案或加購項目。

FAQ

Langfuse 解決什麼問題？

Langfuse 旨在協助團隊在同一套系統中追蹤 LLM 與代理工作流程、管理提示，並評估輸出。它支援追蹤、提示管理、評估、實驗與人工標註。

團隊要如何整合 Langfuse？

來源重點提到 Python 與 JavaScript 的原生 SDK、OpenTelemetry 支援、100+ 種整合，以及可透過像 LiteLLM 這類 LLM gateway 擷取追蹤資料的選項。此產品設計上可與既有技術堆疊協作，而不需要依賴單一框架。

收集資料後，團隊可以做什麼？

Langfuse 支援追蹤、sessions、使用者追蹤、提示版本管理、提示部署、playground 測試、實驗、評估分數、資料集與人工審閱流程。文件將其描述為從原型到正式上線的串連工作流程。

Langfuse 是否同時提供雲端與自架部署？

定價頁顯示有免費 Hobby 方案、付費 Cloud 方案與自架選項。它也列出託管雲端方案，包含更長的保留期、更高的限制，以及 SSO、SCIM、稽核日誌與支援選項等企業功能。

Langfuse 最適合哪些使用者？

此產品是為 LLM 應用與代理所設計。文件強調可追蹤 LLM 與非 LLM 呼叫、正式環境除錯、提示迭代，以及品質、成本與延遲監控。

Quick Facts

分類: AI 工程平台
主要用途: LLM 可觀測性、提示管理與評估
部署方式: 雲端或自架
授權: 核心產品功能採 MIT 授權
整合: 100+ 種整合與 OpenTelemetry 支援
定價: 免費 Hobby 方案，加上付費雲端方案與自架選項

Langfuse 替代品

AakarDev AI

AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.

Happycapy

Happycapy is a browser-based agent platform that lets users run Claude Code, manage skills, and delegate tasks inside a secure sandbox. It offers a free tier plus paid plans for more automation, email handoff, and larger workloads.

OpenAI

OpenAI is an AI research and deployment company centered on ChatGPT, the API, Platform tools, and Codex. The site helps individuals, developers, and businesses explore conversational AI, build with models, and follow product and research updates.

DDS Hub

DDS Hub 是一個支援 Claude 與 OpenAI 家族模型工作流程的 AI API 平台，提供 token 計價、模型選擇與 Claude Code 設定指引，方便開發者在同一處取得 API 存取、用量計費與基本疑難排解。

Devin Desktop

Devin Desktop is Windsurf’s desktop product for managing local and cloud agents from one workspace. It supports Mac, Windows, and Linux, with additional access through a JetBrains plugin and a local CLI.

LiteLLM

LiteLLM 以相容 OpenAI 的方式，透過 Python SDK 或 proxy server 管理並呼叫 100+ 個 LLM，協助團隊以單一介面路由請求、追蹤支出並串接多家供應商。