Langfuse icon

Langfuse

Langfuseは、LLMアプリケーションとエージェントのトレース、評価、改善を行うためのオープンソースAIエンジニアリングプラットフォームです。可観測性、プロンプト管理、実験、人手による注釈を1つのワークフローに統合します。

Langfuse

オープンソースのAIエンジニアリングプラットフォーム

Langfuseは、LLMアプリケーションとエージェントのトレース、評価、改善を行うためのオープンソースAIエンジニアリングプラットフォームです。可観測性、プロンプト管理、実験、人手による注釈を1つのワークフローに統合し、実際の利用データを使ってチームがプロトタイプから本番環境へ移行できるようにします。

このプラットフォームは、OpenTelemetry互換のトレース、ネイティブSDK、幅広い統合を中心に構築されており、単一のフレームワークに固定されることなくLLMおよび非LLMのアクティビティを収集できます。Langfuseはクラウドデプロイとセルフホスティングの両方をサポートしており、製品とコア機能はMITライセンスで提供されています。

主な機能

LLMとエージェントのトレース

LLM呼び出し、ツールの実行、検索ステップ、その他のアプリケーションロジックについて、階層化されたトレースを記録します。ユーザー、セッション、コスト、レイテンシー、またはカスタムメタデータでトレースを絞り込み、確認できます。

セッション、ユーザー、エージェントグラフ

マルチターンの会話をセッションとして追跡し、本番デバッグや利用状況分析のためにユーザー追跡を追加します。エージェントは、より複雑なワークフロー向けにグラフとして表現することもできます。

プロンプト管理ワークフロー

バージョン管理、ラベルによるデプロイ、ロールバック、プロンプトキャッシュ、プレイグラウンドでのテストを備え、アプリケーションコードとは別にプロンプトを管理します。プロンプト履歴と変更追跡により、プロンプトの進化を確認しやすくなります。

評価と人手レビュー

本番データまたは実験データに対して、LLM-as-a-judge、ヒューリスティック関数、または人手レビューを使って評価を実行します。データセット、実験、評価スコア、人手による注釈のサポートにより、時間経過に伴う変更を比較しやすくなります。

運用メトリクスとアラート

ダッシュボード、アラート、トレースに紐づくメトリクスを通じて、品質、コスト、レイテンシーを監視します。これにより、プロンプトやモデルの変更が本番の挙動に与える影響を把握しやすくなります。

オープンな統合とデプロイオプション

ネイティブSDK、OpenTelemetry、プロキシベースのロギング、API、エクスポート、100以上の統合を通じて接続できます。プラットフォームはセルフホスティングとデータの可搬性もサポートします。

主なユースケース

  • 本番可観測性

    本番のLLMアプリケーションに計測を追加し、レイテンシー、コスト急増、予期しない出力のデバッグ時にトレース、セッション、ユーザー単位の挙動を確認します。

  • プロンプトの反復

    プロンプトをバージョン管理された資産として扱い、ラベルでデプロイし、変更をロールバックし、更新前にプレイグラウンドでプロンプトのバリアントを比較します。

  • 評価ワークフロー

    データセットに対してオフラインまたはオンラインの評価を実行し、その後LLM-as-a-judge、ヒューリスティック、または人手レビューで実験を比較して品質の変化を評価します。

  • Human-in-the-loopレビュー

    人手による注釈キューを作成し、トレースをレビューして、ゴールデンデータセットを構築したり、共同作業者とともにモデルの挙動を検証したりします。

  • エンドツーエンドのLLM開発

    試作から本番システムまで同じプラットフォームを使い、計測、実験、反復を1つのワークフローにまとめます。

Pros and Cons

Pros

  • トレース、プロンプト管理、評価、実験、人手による注釈を1つのプラットフォームに統合しています。
  • OpenTelemetry、ネイティブSDK、APIベースのアクセス、多数の統合を通じて既存のスタックと連携できます。
  • クラウドホスティングとセルフホスティングの両方をサポートし、オープンソースかつMITライセンスのコア機能を備えています。
  • プロンプトのバージョン管理、ロールバック、データセット、並列比較など、本番での反復作業に役立つワークフロー機能を備えています。

Cons

  • ソースでは、すぐに使える単一の導入手順は明示されていないため、実装の手間は選択するスタックと統合方法によって異なります。
  • SSO、SCIM、監査ログ、専用サポートなど一部の高度な機能は、上位プランまたは追加オプションに含まれます。

FAQ

Langfuseはどのような課題を解決しますか?

Langfuseは、LLMとエージェントのワークフローをトレースし、プロンプトを管理し、出力を1つのシステムで評価したいチーム向けに作られています。トレース、プロンプト管理、評価、実験、人手による注釈をサポートします。

チームはどのようにLangfuseを統合しますか?

ソースでは、PythonとJavaScript向けのネイティブSDK、OpenTelemetry対応、100以上の統合、さらにLiteLLMのようなLLMゲートウェイを通じてトレースを収集するオプションが強調されています。製品は、単一のフレームワークを必須とせず、既存のスタックと連携するよう設計されています。

データ収集後にチームは何ができますか?

Langfuseでは、トレース、セッション、ユーザー追跡、プロンプトのバージョン管理、プロンプトのデプロイ、プレイグラウンドでのテスト、実験、評価スコア、データセット、人手レビューのワークフローを利用できます。ドキュメントでは、プロトタイプから本番環境までをつなぐ一貫したワークフローとして説明されています。

Langfuseはクラウドとセルフホストの両方のデプロイを提供しますか?

料金ページには、無料のHobbyプラン、有料のCloudプラン、セルフホストオプションが示されています。また、保持期間の延長、上限の拡大、SSO、SCIM、監査ログ、サポートオプションなどのエンタープライズ機能を備えたマネージドクラウドプランも記載されています。

Langfuseはどのようなチームに最適ですか?

この製品はLLMアプリケーションとエージェント向けに設計されています。ドキュメントでは、LLMおよび非LLM呼び出しのトレース、本番デバッグ、プロンプトの反復、品質、コスト、レイテンシーの監視が重視されています。

Quick Facts

カテゴリ
AIエンジニアリングプラットフォーム
主な用途
LLMの可観測性、プロンプト管理、評価
デプロイ
クラウドまたはセルフホスト
ライセンス
コア製品機能はMIT
統合
100以上の統合とOpenTelemetryサポート
価格
無料のHobbyプランと有料のクラウドプラン、セルフホストオプション