FreeLLMAPI

FreeLLMAPI — OpenAI-compatible proxy для /v1: маршрутизация запросов по free-tier LLM-провайдерам, автоматический failover, шифрование ключей и admin dashboard.

Дизайн AI API

Большие языковые модели

Посетить Сайт

Обзор

FreeLLMAPI — это OpenAI-compatible proxy для маршрутизации запросов по free tiers нескольких LLM-провайдеров через единый /v1 endpoint. Проект позиционируется как способ объединить индивидуальные бесплатные планы в одну общую inference surface для личных экспериментов.

Он поддерживает длинный список интеграций провайдеров, а также любой custom OpenAI-compatible endpoint, например llama.cpp, LM Studio, vLLM или локальный экземпляр Ollama. Прокси обрабатывает маршрутизацию моделей, автоматический failover, зашифрованное хранение upstream keys и dashboard для управления ключами и просмотра usage.

Возможности

Объединяет несколько бесплатных провайдеров

Объединяет free tiers провайдеров, включая Google, Groq, Cerebras, NVIDIA, Mistral, OpenRouter, GitHub Models, Cohere, Cloudflare, HuggingFace, Z.ai, Ollama, Kilo, Pollinations, LLM7, OVH AI Endpoints и OpenCode Zen, за одним OpenAI-compatible интерфейсом.

Автоматическая маршрутизация и failover

Использует router, который выбирает model для каждого запроса, переключается на следующего провайдера при rate limit, ответе 429/5xx или timeout, и держит короткие cooldown для неудачных ключей.

Отслеживание использования по ключам

Отслеживает RPM, RPD, TPM и TPD по провайдеру, модели и ключу, а также сохраняет sticky sessions на одной модели примерно на 30 минут во время многоходовых разговоров.

Зашифрованные ключи и единый доступ к приложению

Хранит provider API keys в зашифрованном виде с AES-256-GCM в SQLite, а клиенты аутентифицируются в прокси с помощью одного unified bearer token.

OpenAI-compatible API surface

Открывает /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, streaming, non-streaming и OpenAI-style tool calling для совместимых клиентов.

Встроенная панель и аналитика

Включает React + Vite admin dashboard для управления ключами, настройки fallback chains, просмотра analytics и тестирования prompts в playground.

Сценарии использования

Использовать один API endpoint для LLM-приложений
Подключите OpenAI SDK, LangChain, LlamaIndex, Continue или похожий клиент к прокси и сохраните тот же код приложения, лишь изменив upstream path на /v1.
Распределять запросы по бесплатным tiers
Добавьте provider keys для нескольких free-tier сервисов и позвольте router выбирать доступную модель, а затем автоматически переходить на другую при throttling или недоступности провайдера.
Запустить личный proxy stack
Запустите Docker Compose локально или на небольшом сервере, чтобы держать API, dashboard и данные SQLite в одной self-hosted среде.
Управлять ключами и отслеживать использование
Используйте admin dashboard, чтобы менять порядок fallback chains, смотреть latency и token usage, а также тестировать prompts перед подключением клиента к прокси.
Маршрутизировать к локальным или удалённым endpoints
Подключите custom OpenAI-compatible backend, такой как LM Studio, llama.cpp, vLLM или local Ollama, через тот же unified router.

Pros and Cons

Pros

Объединяет множество free-tier провайдеров за одним OpenAI-compatible endpoint.
Поддерживает automatic fallback, когда провайдер ограничен по rate limit, возвращает ошибку или timeout.
Хранит upstream keys в зашифрованном виде at rest с AES-256-GCM.
Работает с широким набором OpenAI-compatible клиентов и SDK при смене base URL.
Включает self-hosted dashboard для управления ключами и analytics.

Cons

Он явно предназначен для personal experimentation и single-user setup, а не для multi-tenant team billing.
Некоторые области OpenAI API не реализованы, включая image generation, audio, legacy completions, moderation и n > 1 completions.

FAQ

Какие клиенты могут использовать FreeLLMAPI?

FreeLLMAPI предназначен для работы с OpenAI-compatible клиентами. В README указано, что к прокси можно подключить любой OpenAI SDK или совместимый клиент, такой как LangChain, LlamaIndex, Continue или Hermes, просто изменив base URL.

Как обычно разворачивается FreeLLMAPI?

В руководстве по Docker указано, что для личного использования рекомендуется запускать проект через Docker Compose. Он обслуживает API и dashboard из одного процесса на порту 3001, а SQLite хранится в именованном томе.

Какие OpenAI-style endpoints и workflows поддерживаются?

В README указано, что прокси реализует /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, потоковые и непотоковые ответы, а также OpenAI-style tool calling. Он не реализует генерацию изображений, аудио, legacy completions, moderation, multiple completions per request или per-user billing.

Можно ли использовать его командам с multi-tenant authentication?

Проект рассчитан на single-user setup. В README прямо сказано, что per-user billing и multi-tenant auth пока не поддерживаются.

Quick Facts

Категория: Developer Tool
Основное назначение: OpenAI-compatible LLM proxy
Развертывание: Docker Compose или self-hosting на Node 20+
Модель аутентификации: Unified bearer token для приложений; email/password admin login
Источник: github.com
Цена: Open source project; страница pricing GitHub была просмотрена для контекста хостинга, но сам продукт не предлагает платный план

Альтернативы FreeLLMAPI

DDS Hub

DDS Hub is an AI API platform for Claude and OpenAI-family model workflows, with token-based pricing, model selection, and Claude Code setup guidance. It is aimed at developers who want API access, usage-based billing, and basic troubleshooting in one place.

NavtoAI API

NavtoAI API is a unified AI API gateway that lets developers and teams route requests across 200+ models through one account and one API shape. The collected pages also show API key usage lookup, routing controls, and centralized management for keys, quota, billing, users, and observability.

EvoLink

EvoLink is an AI model API platform that gives developers one OpenAI-compatible endpoint for accessing text, image, video, and music models from multiple providers. It is positioned for production apps, agents, and workflows that need model comparison, routing, and usage-based access.

ZenMux

ZenMux is an enterprise LLM platform with a unified API for multiple model providers, automatic prompt-based routing, and usage-based or subscription pricing. It is aimed at developers and teams building AI applications that need multi-model access, cost visibility, and compensation for certain model failures.

Kie.ai

Kie.ai is a developer-focused AI API platform for accessing chat, image, video, and music models through one interface. It combines model browsing, API keys, billing, usage logs, and per-model pricing for integration-focused workflows.

AIHubMix

AIHubMix is a developer-oriented AI gateway for routing requests through a single API across multiple model families, including ChatGPT, Claude, Gemini, DeepSeek, Doubao, and Qwen. The site also states support for unlimited concurrency.