FreeLLMAPI

FreeLLMAPI è un proxy compatibile con OpenAI che instrada le richieste tra i tier gratuiti di più provider LLM dietro un unico endpoint /v1.

Progettazione API AI

Modelli Linguistici

Visita il Sito Web

Panoramica

FreeLLMAPI è un proxy compatibile con OpenAI per instradare le richieste tra i tier gratuiti di più provider LLM dietro un singolo endpoint /v1. Il progetto si propone come un modo per combinare piani gratuiti individuali in un'unica superficie di inferenza condivisa per sperimentazione personale.

Supporta un lungo elenco di integrazioni con provider, oltre a qualsiasi endpoint personalizzato compatibile con OpenAI come llama.cpp, LM Studio, vLLM o un'istanza locale di Ollama. Il proxy gestisce il routing dei modelli, il failover automatico, l'archiviazione cifrata delle chiavi upstream e una dashboard per gestire le chiavi e rivedere l'utilizzo.

Funzionalità

Riunisce più provider gratuiti

Aggrega i tier gratuiti di provider tra cui Google, Groq, Cerebras, NVIDIA, Mistral, OpenRouter, GitHub Models, Cohere, Cloudflare, HuggingFace, Z.ai, Ollama, Kilo, Pollinations, LLM7, OVH AI Endpoints e OpenCode Zen dietro un'unica superficie compatibile con OpenAI.

Routing e failover automatici

Usa un router che seleziona un modello per ogni richiesta, passa al provider successivo quando uno è limitato nel rate, restituisce 429/5xx o va in timeout, e mantiene brevi cooldown per le chiavi fallite.

Tracciamento dell'utilizzo per chiave

Tiene traccia di RPM, RPD, TPM e TPD per provider, modello e chiave, e mantiene sessioni sticky sullo stesso modello per circa 30 minuti durante conversazioni multi-turno.

Chiavi cifrate e accesso unificato all'app

Memorizza le chiavi API dei provider cifrate con AES-256-GCM in SQLite, mentre i client si autenticano al proxy con un unico bearer token unificato.

Superficie API compatibile con OpenAI

Espone /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, streaming, non-streaming e il tool calling in stile OpenAI per client compatibili.

Dashboard e analisi integrate

Include una dashboard di amministrazione React + Vite per gestire le chiavi, ordinare le catene di fallback, visualizzare le analisi ed eseguire prompt in una playground.

Casi d'uso

Usa un singolo endpoint API per app LLM
Punta un SDK OpenAI, LangChain, LlamaIndex, Continue o un client simile al proxy e mantieni lo stesso codice dell'applicazione mentre sostituisci il percorso upstream con /v1.
Distribuisci le richieste tra i tier gratuiti
Aggiungi chiavi dei provider per diversi servizi a tier gratuito e lascia che il router scelga un modello disponibile, quindi esegui il failover automatico quando un provider è limitato o non disponibile.
Self-host di uno stack proxy personale
Esegui la configurazione Docker Compose in locale o su un piccolo server per mantenere API, dashboard e dati SQLite in un unico ambiente self-hosted.
Gestisci le chiavi e monitora l'utilizzo
Usa la dashboard di amministrazione per riordinare le catene di fallback, ispezionare latenza e utilizzo dei token, e testare i prompt prima di collegare un client al proxy.
Instrada verso endpoint locali o remoti personalizzati
Collega un backend personalizzato compatibile con OpenAI come LM Studio, llama.cpp, vLLM o Ollama locale tramite lo stesso router unificato.

Pros and Cons

Pros

Combina molti provider a tier gratuito dietro un unico endpoint compatibile con OpenAI.
Supporta il fallback automatico quando un provider è rate-limited, va in errore o va in timeout.
Memorizza le chiavi upstream cifrate a riposo con AES-256-GCM.
Funziona con un'ampia gamma di client e SDK compatibili con OpenAI cambiando la base URL.
Include una dashboard self-hosted per la gestione delle chiavi e l'analisi.

Cons

È esplicitamente limitato alla sperimentazione personale e a una configurazione single-user, non alla fatturazione di team multi-tenant.
Alcune aree dell'API OpenAI non sono implementate, tra cui la generazione di immagini, l'audio, i completions legacy, la moderation e i completions con n > 1.

FAQ

Quali client possono usare FreeLLMAPI?

FreeLLMAPI è progettato per funzionare con client compatibili con OpenAI. Il README indica che puoi puntare qualsiasi SDK OpenAI o client compatibile come LangChain, LlamaIndex, Continue o Hermes al proxy cambiando l'URL di base.

Come viene normalmente distribuito FreeLLMAPI?

La guida Docker dice che Docker Compose è il modo consigliato per eseguirlo per uso personale. Serve l'API e la dashboard da un solo processo sulla porta 3001, con SQLite persistito in un volume nominato.

Quali endpoint e flussi in stile OpenAI sono supportati?

Il README dice che il proxy implementa /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, risposte in streaming e non in streaming, e il tool calling in stile OpenAI. Non implementa generazione di immagini, audio, completions legacy, moderation, più completions per richiesta o fatturazione per utente.

I team possono usarlo con autenticazione multi-tenant?

Il progetto è costruito attorno a una configurazione single-user. Il README afferma esplicitamente che la fatturazione per utente e l'autenticazione multi-tenant non sono ancora supportate.

Quick Facts

Categoria: Strumento per sviluppatori
Uso principale: Proxy LLM compatibile con OpenAI
Distribuzione: Docker Compose o self-hosting con Node 20+
Modello di autenticazione: Bearer token unificato per le app; accesso admin con email/password
Dominio sorgente: github.com
Prezzo: Progetto open source; la pagina prezzi di GitHub è stata esaminata per il contesto di hosting, ma il prodotto in sé non presenta un piano a pagamento

Alternative a FreeLLMAPI

DDS Hub

DDS Hub is an AI API platform for Claude and OpenAI-family model workflows, with token-based pricing, model selection, and Claude Code setup guidance. It is aimed at developers who want API access, usage-based billing, and basic troubleshooting in one place.

NavtoAI API

NavtoAI API is a unified AI API gateway that lets developers and teams route requests across 200+ models through one account and one API shape. The collected pages also show API key usage lookup, routing controls, and centralized management for keys, quota, billing, users, and observability.

EvoLink

EvoLink is an AI model API platform that gives developers one OpenAI-compatible endpoint for accessing text, image, video, and music models from multiple providers. It is positioned for production apps, agents, and workflows that need model comparison, routing, and usage-based access.

ZenMux

ZenMux is an enterprise LLM platform with a unified API for multiple model providers, automatic prompt-based routing, and usage-based or subscription pricing. It is aimed at developers and teams building AI applications that need multi-model access, cost visibility, and compensation for certain model failures.

Kie.ai

Kie.ai is a developer-focused AI API platform for accessing chat, image, video, and music models through one interface. It combines model browsing, API keys, billing, usage logs, and per-model pricing for integration-focused workflows.

AIHubMix

AIHubMix is a developer-oriented AI gateway for routing requests through a single API across multiple model families, including ChatGPT, Claude, Gemini, DeepSeek, Doubao, and Qwen. The site also states support for unlimited concurrency.