FreeLLMAPI

FreeLLMAPI は、複数の LLM プロバイダーの無料枠を 1 つの /v1 エンドポイントに集約する OpenAI 互換プロキシです。個人利用の実験向けに、自動フェイルオーバー、暗号化キー保管、管理ダッシュボードを備えています。

概要

FreeLLMAPI は、単一の /v1 エンドポイントの背後で複数の LLM プロバイダーの無料枠にまたがってリクエストをルーティングする OpenAI 互換プロキシです。このプロジェクトは、個々の無料プランを 1 つの共有推論面にまとめ、個人利用の実験に使うことを想定しています。

Google、Groq、Cerebras、NVIDIA、Mistral、OpenRouter、GitHub Models、Cohere、Cloudflare、HuggingFace、Z.ai、Ollama、Kilo、Pollinations、LLM7、OVH AI Endpoints、OpenCode Zen などの多数のプロバイダー連携に加え、llama.cpp、LM Studio、vLLM、ローカルの Ollama インスタンスのような任意の OpenAI 互換エンドポイントにも対応します。プロキシはモデルルーティング、自動フェイルオーバー、上流キーの暗号化保存、キー管理と使用状況確認のためのダッシュボードを処理します。

機能

複数の無料プロバイダーをまとめて利用

自動ルーティングとフェイルオーバー

各リクエストに対してモデルを選ぶルーターを使用し、あるプロバイダーがレート制限に達したり、429/5xx を返したり、タイムアウトした場合は次のプロバイダーにフォールバックし、失敗したキーには短いクールダウンを適用します。

キーごとの使用状況追跡

プロバイダー、モデル、キーごとに RPM、RPD、TPM、TPD を追跡し、マルチターン会話中は約 30 分間、同じモデルにスティッキーセッションを維持します。

暗号化されたキーと統一アプリ認証

プロバイダーの API キーを SQLite 内で AES-256-GCM により暗号化して保存し、クライアントは単一の統一された bearer token でプロキシに認証します。

OpenAI 互換 API サーフェス

/v1/chat/completions、/v1/models、/v1/responses、/v1/embeddings、ストリーミング、非ストリーミング、OpenAI 形式のツール呼び出しを互換クライアント向けに公開します。

組み込みダッシュボードと分析

キー管理、フォールバックチェーンの並び替え、分析の閲覧、プレイグラウンドでのプロンプト実行ができる React + Vite の管理ダッシュボードを含みます。

ユースケース

LLM アプリで単一の API エンドポイントを使う
OpenAI SDK、LangChain、LlamaIndex、Continue などのクライアントの接続先をこのプロキシにし、上流のパスを /v1 に切り替えながら同じアプリケーションコードを維持します。
リクエストを無料枠全体に分散する
複数の無料枠サービスのプロバイダーキーを追加し、ルーターに利用可能なモデルを選ばせて、あるプロバイダーが制限されたり利用不可になったりしたときは自動でフェイルオーバーします。
個人用プロキシスタックをセルフホストする
Docker Compose のセットアップをローカルまたは小規模サーバーで実行し、API、ダッシュボード、SQLite データを 1 つのセルフホスト環境にまとめます。
キーを管理し使用状況を監視する
管理ダッシュボードを使ってフォールバックチェーンを並べ替え、レイテンシとトークン使用量を確認し、クライアントをプロキシに接続する前にプロンプトをテストします。
カスタムのローカルまたはリモートエンドポイントにルーティングする
LM Studio、llama.cpp、vLLM、ローカル Ollama などの OpenAI 互換バックエンドを、同じ統一ルーター経由で接続します。

Pros and Cons

Pros

1 つの OpenAI 互換エンドポイントの背後に多くの無料枠プロバイダーをまとめられます。
プロバイダーがレート制限、エラー、タイムアウトになった場合に自動でフォールバックします。
上流キーを AES-256-GCM で保存時に暗号化します。
ベース URL を変更するだけで、幅広い OpenAI 互換クライアントや SDK で利用できます。
キー管理と分析用のセルフホストダッシュボードを備えています。

Cons

個人向けの実験および単一ユーザー構成に明確に限定されており、マルチテナントのチーム課金には対応していません。
画像生成、音声、旧形式の completions、moderation、n > 1 の completions を含む、いくつかの OpenAI API 領域は実装されていません。

FAQ

どのクライアントが FreeLLMAPI を使用できますか？

FreeLLMAPI は OpenAI 互換クライアント向けに設計されています。README では、ベース URL を変更することで、OpenAI SDK や LangChain、LlamaIndex、Continue、Hermes などの互換クライアントをこのプロキシに向けられると説明しています。

FreeLLMAPI は通常どのようにデプロイされますか？

Docker ガイドによると、個人利用では Docker Compose で実行する方法が推奨されています。API とダッシュボードは 1 つのプロセスでポート 3001 から提供され、SQLite は名前付きボリュームに永続化されます。

どの OpenAI 形式のエンドポイントとワークフローがサポートされていますか？

README では、このプロキシが /v1/chat/completions、/v1/models、/v1/responses、/v1/embeddings、ストリーミングおよび非ストリーミング応答、そして OpenAI 形式のツール呼び出しを実装していると説明しています。画像生成、音声、旧形式の completions、moderation、1 リクエストあたり複数 completions、またはユーザーごとの課金は実装されていません。

チームはマルチテナント認証で利用できますか？

このプロジェクトは単一ユーザー構成を前提にしています。README では、ユーザーごとの課金やマルチテナント認証はまだサポートされていないと明記されています。

Quick Facts

カテゴリ: 開発者向けツール
主な用途: OpenAI 互換 LLM プロキシ
デプロイ: Docker Compose または Node 20+ のセルフホスティング
認証モデル: アプリ用の統一 bearer token、管理者用のメール/パスワードログイン
ソースドメイン: github.com
価格: オープンソースプロジェクト。ホスティングの文脈では GitHub の価格ページが確認されていますが、製品自体に有料プランは示されていません

FreeLLMAPIの代替品

DDS Hub

DDS Hubは、ClaudeとOpenAI系モデルのワークフロー向けAI APIプラットフォーム。トークン課金、モデル選択、Claude Codeのセットアップ案内まで、開発者向けにまとめて利用できます。

NavtoAI API

NavtoAI API is a unified AI API gateway that lets developers and teams route requests across 200+ models through one account and one API shape. The collected pages also show API key usage lookup, routing controls, and centralized management for keys, quota, billing, users, and observability.

EvoLink

EvoLinkは、複数プロバイダのテキスト、画像、動画、音楽モデルをOpenAI互換の単一エンドポイントで利用できるAIモデルAPIプラットフォーム。比較、ルーティング、従量課金にも対応します。

ZenMux

ZenMux is an enterprise LLM platform with a unified API for multiple model providers, automatic prompt-based routing, and usage-based or subscription pricing. It is aimed at developers and teams building AI applications that need multi-model access, cost visibility, and compensation for certain model failures.

Kie.ai

Kie.aiは、チャット・画像・動画・音楽モデルを1つのAPIで扱える開発者向けAI APIプラットフォーム。モデル比較、APIキー、課金、利用ログ、モデル別料金に対応。

AIHubMix

AIHubMixは、ChatGPT、Claude、Gemini、DeepSeek、Doubao、Qwenなど複数のモデルを1つのAPIでルーティングできる開発者向けAIゲートウェイです。無制限同時実行にも対応。