FreeLLMAPI

FreeLLMAPI ist ein OpenAI-kompatibler Proxy für /v1 mit automatischem Failover, verschlüsselter Key-Speicherung und Admin-Dashboard für persönliche Experimente.

KI API Design

Sprachmodelle

Website Besuchen

Überblick

FreeLLMAPI ist ein OpenAI-kompatibler Proxy zum Weiterleiten von Anfragen über die kostenlosen Tarife mehrerer LLM-Anbieter hinter einem einzigen /v1-Endpunkt. Das Projekt versteht sich als Möglichkeit, einzelne kostenlose Pläne zu einer gemeinsamen Inferenzoberfläche für persönliche Experimente zu bündeln.

Es unterstützt eine lange Liste von Anbieter-Integrationen sowie jeden benutzerdefinierten OpenAI-kompatiblen Endpunkt wie llama.cpp, LM Studio, vLLM oder eine lokale Ollama-Instanz. Der Proxy übernimmt das Modellrouting, automatisches Failover, verschlüsselte Speicherung der Upstream-Keys und ein Dashboard zum Verwalten von Keys und Prüfen der Nutzung.

Funktionen

Bündelt mehrere kostenlose Anbieter

Fasst die kostenlosen Tarife von Anbietern wie Google, Groq, Cerebras, NVIDIA, Mistral, OpenRouter, GitHub Models, Cohere, Cloudflare, HuggingFace, Z.ai, Ollama, Kilo, Pollinations, LLM7, OVH AI Endpoints und OpenCode Zen hinter einer OpenAI-kompatiblen Oberfläche zusammen.

Automatisches Routing und Failover

Verwendet einen Router, der für jede Anfrage ein Modell auswählt, beim nächsten Anbieter weiterschaltet, wenn einer rate-limited ist, 429/5xx zurückgibt oder ausläuft, und kurze Cooldowns für fehlgeschlagene Keys beibehält.

Nutzungsverfolgung pro Key

Verfolgt RPM, RPD, TPM und TPD pro Anbieter, Modell und Key und hält bei mehrstufigen Gesprächen für etwa 30 Minuten Sticky Sessions auf demselben Modell.

Verschlüsselte Keys und einheitlicher App-Zugriff

Speichert Anbieter-API-Keys verschlüsselt mit AES-256-GCM in SQLite, während sich Clients mit einem einzigen einheitlichen Bearer-Token beim Proxy authentifizieren.

OpenAI-kompatible API-Oberfläche

Stellt eine /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, Streaming, Nicht-Streaming und OpenAI-ähnliches Tool-Calling für kompatible Clients bereit.

Integriertes Dashboard und Analysen

Enthält ein Admin-Dashboard auf Basis von React + Vite zum Verwalten von Keys, Ordnen von Fallback-Ketten, Anzeigen von Analysen und Ausführen von Prompts in einem Playground.

Anwendungsfälle

Einen einzigen API-Endpunkt für LLM-Apps nutzen
Richten Sie einen OpenAI-SDK-, LangChain-, LlamaIndex-, Continue- oder ähnlichen Client auf den Proxy und behalten Sie denselben Anwendungscode bei, während Sie den Upstream-Pfad auf /v1 umstellen.
Anfragen über Free-Tiers verteilen
Hinterlegen Sie Anbieter-Keys für mehrere Free-Tier-Dienste und lassen Sie den Router ein verfügbares Modell auswählen; bei Drosselung oder Ausfall eines Anbieters erfolgt das Failover automatisch.
Einen persönlichen Proxy-Stack selbst hosten
Betreiben Sie das Docker-Compose-Setup lokal oder auf einem kleinen Server, um API, Dashboard und SQLite-Daten in einer selbst gehosteten Umgebung zu halten.
Keys verwalten und Nutzung überwachen
Verwenden Sie das Admin-Dashboard, um Fallback-Ketten neu zu ordnen, Latenz und Token-Nutzung zu prüfen und Prompts zu testen, bevor Sie einen Client an den Proxy anbinden.
Zu benutzerdefinierten lokalen oder entfernten Endpunkten routen
Verbinden Sie ein benutzerdefiniertes OpenAI-kompatibles Backend wie LM Studio, llama.cpp, vLLM oder lokales Ollama über denselben einheitlichen Router.

Pros and Cons

Pros

Bündelt viele Free-Tier-Anbieter hinter einem einzigen OpenAI-kompatiblen Endpunkt.
Unterstützt automatisches Failover, wenn ein Anbieter rate-limited ist, Fehler zurückgibt oder ausläuft.
Speichert Upstream-Keys im Ruhezustand mit AES-256-GCM verschlüsselt.
Funktioniert mit einer breiten Auswahl an OpenAI-kompatiblen Clients und SDKs durch Ändern der Base-URL.
Enthält ein selbst gehostetes Dashboard für Key-Management und Analysen.

Cons

Es ist ausdrücklich auf persönliche Experimente und ein Single-User-Setup beschränkt, nicht auf teamweises Multi-Tenant-Billing.
Mehrere OpenAI-API-Bereiche sind nicht implementiert, darunter Bilderzeugung, Audio, Legacy-Completions, Moderation und n > 1 Completions.

FAQ

Welche Clients können FreeLLMAPI verwenden?

FreeLLMAPI ist dafür ausgelegt, mit OpenAI-kompatiblen Clients zu funktionieren. In der README steht, dass Sie jeden OpenAI-SDK oder kompatiblen Client wie LangChain, LlamaIndex, Continue oder Hermes an den Proxy anbinden können, indem Sie die Base-URL ändern.

Wie wird FreeLLMAPI typischerweise bereitgestellt?

In der Docker-Anleitung heißt es, dass Docker Compose die empfohlene Methode für den persönlichen Einsatz ist. Es stellt die API und das Dashboard in einem Prozess auf Port 3001 bereit, wobei SQLite in einem benannten Volume persistiert wird.

Welche OpenAI-ähnlichen Endpunkte und Workflows werden unterstützt?

In der README steht, dass der Proxy /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, Streaming- und Nicht-Streaming-Antworten sowie OpenAI-ähnliches Tool-Calling implementiert. Er implementiert keine Bilderzeugung, Audio, Legacy-Completions, Moderation, mehrere Completions pro Anfrage oder nutzerbezogene Abrechnung.

Können Teams es mit Multi-Tenant-Authentifizierung nutzen?

Das Projekt ist auf ein Single-User-Setup ausgelegt. In der README steht ausdrücklich, dass nutzerbezogene Abrechnung und Multi-Tenant-Authentifizierung noch nicht unterstützt werden.

Quick Facts

Kategorie: Entwicklertool
Hauptverwendung: OpenAI-kompatibler LLM-Proxy
Bereitstellung: Docker Compose oder Self-Hosting mit Node 20+
Authentifizierungsmodell: Einheitliches Bearer-Token für Apps; Admin-Login mit E-Mail und Passwort
Quell-Domain: github.com
Preisgestaltung: Open-Source-Projekt; die Pricing-Seite von GitHub wurde für den Hosting-Kontext geprüft, aber das Produkt selbst bietet keinen kostenpflichtigen Plan an

FreeLLMAPI Alternativen

DDS Hub

DDS Hub is an AI API platform for Claude and OpenAI-family model workflows, with token-based pricing, model selection, and Claude Code setup guidance. It is aimed at developers who want API access, usage-based billing, and basic troubleshooting in one place.

NavtoAI API

NavtoAI API is a unified AI API gateway that lets developers and teams route requests across 200+ models through one account and one API shape. The collected pages also show API key usage lookup, routing controls, and centralized management for keys, quota, billing, users, and observability.

EvoLink

EvoLink is an AI model API platform that gives developers one OpenAI-compatible endpoint for accessing text, image, video, and music models from multiple providers. It is positioned for production apps, agents, and workflows that need model comparison, routing, and usage-based access.

ZenMux

ZenMux is an enterprise LLM platform with a unified API for multiple model providers, automatic prompt-based routing, and usage-based or subscription pricing. It is aimed at developers and teams building AI applications that need multi-model access, cost visibility, and compensation for certain model failures.

Kie.ai

Kie.ai is a developer-focused AI API platform for accessing chat, image, video, and music models through one interface. It combines model browsing, API keys, billing, usage logs, and per-model pricing for integration-focused workflows.

AIHubMix

AIHubMix is a developer-oriented AI gateway for routing requests through a single API across multiple model families, including ChatGPT, Claude, Gemini, DeepSeek, Doubao, and Qwen. The site also states support for unlimited concurrency.