LiteLLM icon

LiteLLM

LiteLLM 以相容 OpenAI 的方式,透過 Python SDK 或 proxy server 管理並呼叫 100+ 個 LLM,協助團隊以單一介面路由請求、追蹤支出並串接多家供應商。

LiteLLM

LiteLLM 的功能

LiteLLM 是一個 developer platform,可透過 Python SDK 或 proxy server 呼叫與管理大型語言模型。其核心目的是提供相容 OpenAI 的介面,並在背後將請求轉譯到多個供應商專屬的 endpoints。

文件將 LiteLLM 描述為支援 100+ 個模型與多種 endpoint 類型,包括 chat completions、responses、embeddings、images、audio、batches、routing,以及以 proxy 為基礎的 gateway workflows。這使它很適合需要單一存取層來使用多供應商 LLM、追蹤成本與管理請求的團隊。

核心功能

跨供應商的 OpenAI 風格存取

透過相容 OpenAI 的介面呼叫 100+ 個 LLM,並將這些呼叫轉譯為各供應商特定的 endpoints,例如 chat completions、responses、embeddings、images、audio 與 batches。

集中式 proxy 與存取控制

將 proxy 作為集中式 LLM gateway 使用,提供 authentication 與 authorization、virtual keys,以及用於監控與管理的 admin dashboard。

多租戶成本管理

依 project 與 user 追蹤支出、設定 budgets,並套用 per-project 自訂功能,例如 logging、guardrails 與 caching。

路由、fallback 與負載平衡

透過 retry 與 fallback 邏輯在各部署之間路由請求,包含 cooldowns、timeouts、queueing,以及跨 Azure、OpenAI 與其他供應商的 load balancing 支援。

廣泛的 endpoint 覆蓋

透過 proxy 提供多種支援的介面,包括 chat completions、embeddings、image generation、RAG endpoints、guardrails、memory 與其他供應商特定 endpoints。

可觀測性與 SDK 易用性

整合 Lunary、MLflow 與 Langfuse 等 observability callbacks,並使用相容 OpenAI 的錯誤來進行應用層處理。

團隊常見的 LiteLLM 使用方式

  • 集中式模型 gateway

    當多個應用程式需要受控地存取共用模型供應商時,可將 proxy 作為中央 LLM gateway。文件強調此設定中的 authentication、authorization、virtual keys、admin monitoring 與 per-project policy controls。

  • 直接整合到應用程式

    當你希望將 LiteLLM 直接嵌入應用程式程式碼時,可使用 Python SDK。文件將此路徑定位為適合建立 LLM 專案、且不想操作獨立 proxy 的開發者。

  • 跨部署路由與故障移轉

    當流量必須分散到同一 model alias 的多個部署時,可使用 Router。路由文件描述了 load balancing、retry、fallback、cooldowns、queueing,以及考量延遲或成本的策略選項。

  • 預算與支出監控

    當需要在團隊或專案之間追蹤支出並管理 budgets 時,可使用此平台。首頁提到 per-project 的支出追蹤與 budgets,而 proxy 文件則補充了多租戶成本管理與 user/project-level 控制。

  • 多 endpoint 供應商存取

    當你需要透過單一介面存取多種供應商特定 endpoints 時,可使用 LiteLLM。支援的 endpoints 頁面顯示其範圍不只 chat,還包括 embeddings、images、audio、RAG、memory、guardrails 以及其他專門 API。

Pros and Cons

Pros

  • 為許多供應商提供相容 OpenAI 的介面,可減少供應商特定程式碼修改。
  • 同時支援 proxy server 與 Python SDK,讓團隊可選擇集中式 gateway 或直接函式庫整合。
  • 包含 retry、fallback、cooldowns、timeouts 與跨部署 load balancing 等 routing 功能。
  • 提供成本與 budgets 控制,支援 per-project 支出追蹤以及 user/project-level 管理。
  • 文件說明了廣泛支援的 endpoints,從 chat completions、embeddings 到 image generation、RAG、guardrails 與 memory。

Cons

  • 公開來源中的 pricing 頁面無法存取,因此無法從這些文件確認 pricing。
  • 提供的來源中最強的證據集中在 proxy、routing 與 endpoint 支援;pricing 與更廣泛的 integrations 等部分在此仍只屬於部分文件化。

FAQ

如何使用 LiteLLM?

LiteLLM 可透過 Proxy Server 或直接使用 Python SDK。文件將這兩種方式視為同一產品的一部分,其中 proxy 定位為中央 LLM gateway,而 SDK 則適合直接在 Python 程式碼中使用。

LiteLLM 支援哪些類型的 endpoints?

文件強調 LiteLLM 會在維持 OpenAI 風格輸入與輸出格式的同時,將請求轉譯為各供應商特定的 endpoints。它支援 chat completions、responses、embeddings、images、audio、batches 等。

LiteLLM 有處理 routing 和 failover 嗎?

LiteLLM Router 可在多個同一 model alias 的部署之間進行 load balancing,並支援 retry、fallback、cooldowns、timeouts 與 queueing。proxy 文件也提到在生產環境中管理 token-per-minute 和 requests-per-minute 限制時,可使用基於 Redis 的 cooldown 與使用量追蹤。

文件中有列出 pricing 嗎?

蒐集到的來源沒有顯示公開價格資訊。pricing URL 回傳的是 page not found 訊息,因此應視為無法從提供的文件中確認 pricing。

LiteLLM 適合哪些人?

proxy 被描述為適用於 GenAI enablement 和 ML platform 團隊,而 Python SDK 則適用於正在建立 LLM 專案的開發者。這表示此產品同時可支援集中式平台工作流程與直接的應用程式整合。

Quick Facts

分類
Developer Tool
主要工作流程
透過 proxy 或 SDK,以相容 OpenAI 的方式存取多供應商 LLM
主要使用者
Gen AI enablement 團隊、ML platform 團隊與開發者
來源網域
docs.litellm.ai
支援的供應商
跨供應商支援 100+ 個 LLM 與 endpoints,例如 OpenAI、Anthropic、Azure、Vertex AI、NVIDIA、Hugging Face、Ollama、OpenRouter、Novita AI 與 Vercel AI Gateway
價格
未收錄於蒐集到的文件中

LiteLLM 替代品