FreeLLMAPI

FreeLLMAPI es un proxy compatible con OpenAI que enruta solicitudes entre los planes gratis de varios proveedores LLM en un único endpoint /v1.

Diseño de API IA

Modelos de Lenguaje

Visitar Sitio Web

Resumen

FreeLLMAPI es un proxy compatible con OpenAI para enrutar solicitudes entre los planes gratis de varios proveedores LLM detrás de un único endpoint /v1. El proyecto se presenta como una forma de combinar planes gratuitos individuales en una única superficie de inferencia compartida para experimentación personal.

Admite una larga lista de integraciones de proveedores, además de cualquier endpoint personalizado compatible con OpenAI, como llama.cpp, LM Studio, vLLM o una instancia local de Ollama. El proxy gestiona el enrutamiento de modelos, el failover automático, el almacenamiento cifrado de claves upstream y un panel para administrar claves y revisar el uso.

Características

Combina varios proveedores gratuitos

Agrega los planes gratis de proveedores como Google, Groq, Cerebras, NVIDIA, Mistral, OpenRouter, GitHub Models, Cohere, Cloudflare, HuggingFace, Z.ai, Ollama, Kilo, Pollinations, LLM7, OVH AI Endpoints y OpenCode Zen detrás de una sola superficie compatible con OpenAI.

Enrutamiento y failover automáticos

Usa un enrutador que selecciona un modelo para cada solicitud, pasa al siguiente proveedor cuando uno está limitado por tasa, devuelve 429/5xx o agota el tiempo, y mantiene períodos de enfriamiento cortos para las claves fallidas.

Seguimiento de uso por clave

Rastrea RPM, RPD, TPM y TPD por proveedor, modelo y clave, y mantiene sesiones persistentes en el mismo modelo durante unos 30 minutos en conversaciones de varios turnos.

Claves cifradas y acceso unificado a la app

Almacena las claves API de los proveedores cifradas con AES-256-GCM en SQLite, mientras que los clientes se autentican en el proxy con un único token bearer unificado.

Superficie API compatible con OpenAI

Expone /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, streaming, sin streaming y llamadas a herramientas al estilo de OpenAI para clientes compatibles.

Panel integrado y analíticas

Incluye un panel de administración en React + Vite para gestionar claves, ordenar cadenas de fallback, ver analíticas y ejecutar prompts en un entorno de prueba.

Casos de uso

Usar un único endpoint de API para apps LLM
Apunta un SDK de OpenAI, LangChain, LlamaIndex, Continue o un cliente similar al proxy y mantén el mismo código de aplicación mientras cambias la ruta upstream a /v1.
Distribuir solicitudes entre planes gratuitos
Añade claves de proveedor para varios servicios de nivel gratuito y deja que el enrutador elija un modelo disponible; luego realiza failover automáticamente cuando un proveedor esté limitado o no disponible.
Autoalojar una pila de proxy personal
Ejecuta la configuración de Docker Compose localmente o en un servidor pequeño para mantener la API, el panel de control y los datos de SQLite en un único entorno autoalojado.
Gestionar claves y supervisar el uso
Usa el panel de administración para reordenar cadenas de fallback, inspeccionar la latencia y el uso de tokens, y probar prompts antes de conectar un cliente al proxy.
Enrutar a endpoints locales o remotos personalizados
Conecta un backend personalizado compatible con OpenAI como LM Studio, llama.cpp, vLLM o Ollama local a través del mismo enrutador unificado.

Pros and Cons

Pros

Combina muchos proveedores gratuitos detrás de un único endpoint compatible con OpenAI.
Admite fallback automático cuando un proveedor tiene limitación de tasa, errores o tiempos de espera agotados.
Almacena las claves upstream cifradas en reposo con AES-256-GCM.
Funciona con una amplia gama de clientes y SDKs compatibles con OpenAI cambiando la base URL.
Incluye un panel autoalojado para la gestión de claves y analíticas.

Cons

Está explícitamente orientado a la experimentación personal y a una configuración de un solo usuario, no a facturación de equipos multiusuario.
Varias áreas de la API de OpenAI no están implementadas, incluida la generación de imágenes, audio, completions heredados, moderación y completions con n > 1.

FAQ

¿Qué clientes pueden usar FreeLLMAPI?

FreeLLMAPI está diseñado para funcionar con clientes compatibles con OpenAI. El README dice que puedes apuntar cualquier SDK de OpenAI o cliente compatible como LangChain, LlamaIndex, Continue o Hermes al proxy cambiando la URL base.

¿Cómo se implementa normalmente FreeLLMAPI?

La guía de Docker indica que Docker Compose es la forma recomendada de ejecutarlo para uso personal. Sirve la API y el panel de control desde un solo proceso en el puerto 3001, con SQLite persistido en un volumen con nombre.

¿Qué endpoints y flujos de trabajo al estilo de OpenAI son compatibles?

El README dice que el proxy implementa /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, respuestas en streaming y sin streaming, y llamadas a herramientas al estilo de OpenAI. No implementa generación de imágenes, audio, completions heredados, moderación, múltiples completions por solicitud ni facturación por usuario.

¿Pueden usarlo equipos con autenticación multiusuario?

El proyecto está diseñado en torno a una configuración de un solo usuario. El README indica explícitamente que la facturación por usuario y la autenticación multiusuario no se admiten todavía.

Quick Facts

Categoría: Herramienta para desarrolladores
Uso principal: Proxy de LLM compatible con OpenAI
Implementación: Docker Compose o autoalojamiento con Node 20+
Modelo de autenticación: Token bearer unificado para apps; inicio de sesión de administrador con correo y contraseña
Dominio de origen: github.com
Precio: Proyecto de código abierto; se revisó la página de precios de GitHub para contexto de alojamiento, pero el producto en sí no presenta un plan de pago

Alternativas a FreeLLMAPI

DDS Hub

DDS Hub is an AI API platform for Claude and OpenAI-family model workflows, with token-based pricing, model selection, and Claude Code setup guidance. It is aimed at developers who want API access, usage-based billing, and basic troubleshooting in one place.

NavtoAI API

NavtoAI API is a unified AI API gateway that lets developers and teams route requests across 200+ models through one account and one API shape. The collected pages also show API key usage lookup, routing controls, and centralized management for keys, quota, billing, users, and observability.

EvoLink

EvoLink is an AI model API platform that gives developers one OpenAI-compatible endpoint for accessing text, image, video, and music models from multiple providers. It is positioned for production apps, agents, and workflows that need model comparison, routing, and usage-based access.

ZenMux

ZenMux is an enterprise LLM platform with a unified API for multiple model providers, automatic prompt-based routing, and usage-based or subscription pricing. It is aimed at developers and teams building AI applications that need multi-model access, cost visibility, and compensation for certain model failures.

Kie.ai

Kie.ai is a developer-focused AI API platform for accessing chat, image, video, and music models through one interface. It combines model browsing, API keys, billing, usage logs, and per-model pricing for integration-focused workflows.

AIHubMix

AIHubMix is a developer-oriented AI gateway for routing requests through a single API across multiple model families, including ChatGPT, Claude, Gemini, DeepSeek, Doubao, and Qwen. The site also states support for unlimited concurrency.