FreeLLMAPI

FreeLLMAPI est un proxy compatible OpenAI qui route les requêtes vers les offres gratuites de plusieurs fournisseurs LLM via un seul endpoint /v1, avec bascule automatique et dashboard.

Conception API IA

Modèles de Langage

Visiter le Site Web

Présentation

FreeLLMAPI est un proxy compatible OpenAI qui route les requêtes entre les offres gratuites de plusieurs fournisseurs LLM derrière un seul endpoint /v1. Le projet se présente comme un moyen de combiner des abonnements gratuits individuels en une surface d’inférence partagée pour des expérimentations personnelles.

Il prend en charge une longue liste d’intégrations de fournisseurs, ainsi que tout endpoint personnalisé compatible OpenAI comme llama.cpp, LM Studio, vLLM ou une instance Ollama locale. Le proxy gère le routage des modèles, la bascule automatique, le stockage chiffré des clés amont et un dashboard pour gérer les clés et consulter l’utilisation.

Fonctionnalités

Superpose plusieurs fournisseurs gratuits

Agrège les offres gratuites de fournisseurs tels que Google, Groq, Cerebras, NVIDIA, Mistral, OpenRouter, GitHub Models, Cohere, Cloudflare, HuggingFace, Z.ai, Ollama, Kilo, Pollinations, LLM7, OVH AI Endpoints et OpenCode Zen derrière une seule surface compatible OpenAI.

Routage et bascule automatiques

Utilise un routeur qui sélectionne un modèle pour chaque requête, bascule vers le fournisseur suivant lorsqu’un service est limité en débit, renvoie 429/5xx ou expire, et conserve de courts temps de refroidissement pour les clés en échec.

Suivi de l’utilisation par clé

Suit les RPM, RPD, TPM et TPD par fournisseur, modèle et clé, et conserve des sessions collantes sur le même modèle pendant environ 30 minutes lors des conversations à plusieurs tours.

Clés chiffrées et accès applicatif unifié

Stocke les clés API des fournisseurs chiffrées avec AES-256-GCM dans SQLite, tandis que les clients s’authentifient auprès du proxy avec un seul jeton bearer unifié.

Surface d’API compatible OpenAI

Expose /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, le streaming, le non-streaming et l’appel d’outils au style OpenAI pour les clients compatibles.

Dashboard et analytics intégrés

Inclut un dashboard d’administration React + Vite pour gérer les clés, ordonner les chaînes de bascule, consulter les analytics et exécuter des prompts dans un playground.

Cas d’utilisation

Utiliser un seul endpoint API pour des applications LLM
Pointez un SDK OpenAI, LangChain, LlamaIndex, Continue ou un client similaire vers le proxy et conservez le même code applicatif tout en remplaçant le chemin amont par /v1.
Répartir les requêtes sur plusieurs offres gratuites
Ajoutez des clés de fournisseur pour plusieurs services à offre gratuite et laissez le routeur choisir un modèle disponible, puis basculer automatiquement lorsqu’un fournisseur est limité ou indisponible.
Auto-héberger une pile proxy personnelle
Exécutez la configuration Docker Compose en local ou sur un petit serveur pour garder l’API, le dashboard et les données SQLite dans un environnement auto-hébergé unique.
Gérer les clés et surveiller l’utilisation
Utilisez le dashboard d’administration pour réordonner les chaînes de bascule, inspecter la latence et l’utilisation des jetons, et tester des prompts avant de brancher un client sur le proxy.
Router vers des endpoints locaux ou distants personnalisés
Connectez un backend personnalisé compatible OpenAI tel que LM Studio, llama.cpp, vLLM ou Ollama local via le même routeur unifié.

Pros and Cons

Pros

Combine de nombreux fournisseurs gratuits derrière un seul endpoint compatible OpenAI.
Prend en charge une bascule automatique lorsqu’un fournisseur est limité en débit, en erreur ou en délai d’attente dépassé.
Stocke les clés amont chiffrées au repos avec AES-256-GCM.
Fonctionne avec un large éventail de clients et SDK compatibles OpenAI en changeant l’URL de base.
Inclut un dashboard auto-hébergé pour la gestion des clés et les analytics.

Cons

Il est explicitement limité à une expérimentation personnelle et à une configuration mono-utilisateur, et non à une facturation d’équipe multi-tenant.
Plusieurs domaines de l’API OpenAI ne sont pas implémentés, notamment la génération d’images, l’audio, les complétions héritées, la modération et n > 1 complétions.

FAQ

Quels clients peuvent utiliser FreeLLMAPI ?

FreeLLMAPI est conçu pour fonctionner avec des clients compatibles OpenAI. Le README indique que vous pouvez pointer n’importe quel SDK OpenAI ou un client compatible tel que LangChain, LlamaIndex, Continue ou Hermes vers le proxy en modifiant l’URL de base.

Comment FreeLLMAPI est-il généralement déployé ?

Le guide Docker indique que Docker Compose est la méthode recommandée pour l’exécuter à titre personnel. Il sert l’API et le dashboard depuis un seul processus sur le port 3001, avec SQLite persisté dans un volume nommé.

Quels endpoints et workflows de style OpenAI sont pris en charge ?

Le README indique que le proxy implémente /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, les réponses en streaming et hors streaming, ainsi que l’appel d’outils au style OpenAI. Il n’implémente pas la génération d’images, l’audio, les complétions héritées, la modération, plusieurs complétions par requête, ni la facturation par utilisateur.

Les équipes peuvent-elles l’utiliser avec une authentification multi-tenant ?

Le projet est conçu autour d’une configuration à utilisateur unique. Le README indique explicitement que la facturation par utilisateur et l’authentification multi-tenant ne sont pas encore prises en charge.

Quick Facts

Catégorie: Outil développeur
Usage principal: Proxy LLM compatible OpenAI
Déploiement: Docker Compose ou auto-hébergement avec Node 20+
Modèle d’authentification: Jeton bearer unifié pour les applications ; connexion administrateur par e-mail/mot de passe
Domaine source: github.com
Tarification: Projet open source ; la page de tarification de GitHub a été consultée pour le contexte d’hébergement, mais le produit lui-même n’affiche pas de plan payant

Alternatives à FreeLLMAPI

DDS Hub

DDS Hub is an AI API platform for Claude and OpenAI-family model workflows, with token-based pricing, model selection, and Claude Code setup guidance. It is aimed at developers who want API access, usage-based billing, and basic troubleshooting in one place.

NavtoAI API

NavtoAI API is a unified AI API gateway that lets developers and teams route requests across 200+ models through one account and one API shape. The collected pages also show API key usage lookup, routing controls, and centralized management for keys, quota, billing, users, and observability.

EvoLink

EvoLink is an AI model API platform that gives developers one OpenAI-compatible endpoint for accessing text, image, video, and music models from multiple providers. It is positioned for production apps, agents, and workflows that need model comparison, routing, and usage-based access.

ZenMux

ZenMux is an enterprise LLM platform with a unified API for multiple model providers, automatic prompt-based routing, and usage-based or subscription pricing. It is aimed at developers and teams building AI applications that need multi-model access, cost visibility, and compensation for certain model failures.

Kie.ai

Kie.ai is a developer-focused AI API platform for accessing chat, image, video, and music models through one interface. It combines model browsing, API keys, billing, usage logs, and per-model pricing for integration-focused workflows.

AIHubMix

AIHubMix is a developer-oriented AI gateway for routing requests through a single API across multiple model families, including ChatGPT, Claude, Gemini, DeepSeek, Doubao, and Qwen. The site also states support for unlimited concurrency.