LLMとエージェントのトレース
LLM呼び出し、ツールの実行、検索ステップ、その他のアプリケーションロジックについて、階層化されたトレースを記録します。ユーザー、セッション、コスト、レイテンシー、またはカスタムメタデータでトレースを絞り込み、確認できます。
Langfuseは、LLMアプリケーションとエージェントのトレース、評価、改善を行うためのオープンソースAIエンジニアリングプラットフォームです。可観測性、プロンプト管理、実験、人手による注釈を1つのワークフローに統合し、実際の利用データを使ってチームがプロトタイプから本番環境へ移行できるようにします。
このプラットフォームは、OpenTelemetry互換のトレース、ネイティブSDK、幅広い統合を中心に構築されており、単一のフレームワークに固定されることなくLLMおよび非LLMのアクティビティを収集できます。Langfuseはクラウドデプロイとセルフホスティングの両方をサポートしており、製品とコア機能はMITライセンスで提供されています。
LLM呼び出し、ツールの実行、検索ステップ、その他のアプリケーションロジックについて、階層化されたトレースを記録します。ユーザー、セッション、コスト、レイテンシー、またはカスタムメタデータでトレースを絞り込み、確認できます。
マルチターンの会話をセッションとして追跡し、本番デバッグや利用状況分析のためにユーザー追跡を追加します。エージェントは、より複雑なワークフロー向けにグラフとして表現することもできます。
バージョン管理、ラベルによるデプロイ、ロールバック、プロンプトキャッシュ、プレイグラウンドでのテストを備え、アプリケーションコードとは別にプロンプトを管理します。プロンプト履歴と変更追跡により、プロンプトの進化を確認しやすくなります。
本番データまたは実験データに対して、LLM-as-a-judge、ヒューリスティック関数、または人手レビューを使って評価を実行します。データセット、実験、評価スコア、人手による注釈のサポートにより、時間経過に伴う変更を比較しやすくなります。
ダッシュボード、アラート、トレースに紐づくメトリクスを通じて、品質、コスト、レイテンシーを監視します。これにより、プロンプトやモデルの変更が本番の挙動に与える影響を把握しやすくなります。
ネイティブSDK、OpenTelemetry、プロキシベースのロギング、API、エクスポート、100以上の統合を通じて接続できます。プラットフォームはセルフホスティングとデータの可搬性もサポートします。
本番のLLMアプリケーションに計測を追加し、レイテンシー、コスト急増、予期しない出力のデバッグ時にトレース、セッション、ユーザー単位の挙動を確認します。
プロンプトをバージョン管理された資産として扱い、ラベルでデプロイし、変更をロールバックし、更新前にプレイグラウンドでプロンプトのバリアントを比較します。
データセットに対してオフラインまたはオンラインの評価を実行し、その後LLM-as-a-judge、ヒューリスティック、または人手レビューで実験を比較して品質の変化を評価します。
人手による注釈キューを作成し、トレースをレビューして、ゴールデンデータセットを構築したり、共同作業者とともにモデルの挙動を検証したりします。
試作から本番システムまで同じプラットフォームを使い、計測、実験、反復を1つのワークフローにまとめます。
Langfuseは、LLMとエージェントのワークフローをトレースし、プロンプトを管理し、出力を1つのシステムで評価したいチーム向けに作られています。トレース、プロンプト管理、評価、実験、人手による注釈をサポートします。
ソースでは、PythonとJavaScript向けのネイティブSDK、OpenTelemetry対応、100以上の統合、さらにLiteLLMのようなLLMゲートウェイを通じてトレースを収集するオプションが強調されています。製品は、単一のフレームワークを必須とせず、既存のスタックと連携するよう設計されています。
Langfuseでは、トレース、セッション、ユーザー追跡、プロンプトのバージョン管理、プロンプトのデプロイ、プレイグラウンドでのテスト、実験、評価スコア、データセット、人手レビューのワークフローを利用できます。ドキュメントでは、プロトタイプから本番環境までをつなぐ一貫したワークフローとして説明されています。
料金ページには、無料のHobbyプラン、有料のCloudプラン、セルフホストオプションが示されています。また、保持期間の延長、上限の拡大、SSO、SCIM、監査ログ、サポートオプションなどのエンタープライズ機能を備えたマネージドクラウドプランも記載されています。
この製品はLLMアプリケーションとエージェント向けに設計されています。ドキュメントでは、LLMおよび非LLM呼び出しのトレース、本番デバッグ、プロンプトの反復、品質、コスト、レイテンシーの監視が重視されています。
AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.
Happycapy is a browser-based agent platform that lets users run Claude Code, manage skills, and delegate tasks inside a secure sandbox. It offers a free tier plus paid plans for more automation, email handoff, and larger workloads.
OpenAI is an AI research and deployment company centered on ChatGPT, the API, Platform tools, and Codex. The site helps individuals, developers, and businesses explore conversational AI, build with models, and follow product and research updates.
DDS Hubは、ClaudeとOpenAI系モデルのワークフロー向けAI APIプラットフォーム。トークン課金、モデル選択、Claude Codeのセットアップ案内まで、開発者向けにまとめて利用できます。
Devin Desktop is Windsurf’s desktop product for managing local and cloud agents from one workspace. It supports Mac, Windows, and Linux, with additional access through a JetBrains plugin and a local CLI.
LiteLLMは、OpenAI互換のAPIで100以上のLLMをPython SDKまたはプロキシサーバーから呼び出し・管理できる開発者向けプラットフォーム。複数プロバイダーを1つの画面で扱えます。