Meridian
Gateway privado de inferencia LLM
Meridian es un gateway de inferencia LLM autoalojado. Se sitúa entre tu aplicación y tu flota de GPUs — enrutando solicitudes por capacidad, gestionando colas de prioridad y escalando instancias GPU bajo demanda. Un único binario Go con una API compatible con OpenAI. Sin código de terceros en la ruta de datos.
Las aplicaciones declaran lo que necesitan — “reasoning”, “fast”, “long-context” — no qué modelo usar. El gateway resuelve el mejor backend disponible por capacidad, carga, latencia y coste. Cambia modelos o proveedores sin modificar el código de la aplicación.
Tus modelos se ejecutan en tus GPUs: hardware on-premise o proveedores cloud con sede en la UE (Hetzner, OVHcloud, Scaleway, Genesis Cloud). Ningún tráfico de inferencia pasa por infraestructura bajo jurisdicción estadounidense. Sin exposición al CLOUD Act.
Meridian es la capa de inferencia detrás de LumaVista, nuestra plataforma de investigación con IA — y funciona igualmente bien como gateway independiente para cualquier aplicación que necesite inferencia LLM privada y enrutada.
Capacidades
Enrutamiento basado en capacidades
Los agentes declaran lo que necesitan — “reasoning”, “fast”, “long-context” — no qué modelo usar. El gateway empareja las solicitudes con el mejor backend disponible por capacidad, carga, latencia y coste. Cambia modelos sin modificar el código de la aplicación.
Cola de prioridad de tres niveles
Las solicitudes críticas (chat en tiempo real) se atienden primero. El trabajo normal (procesamiento en segundo plano) le sigue. Los trabajos por lotes de baja prioridad llenan la capacidad restante. Encolamiento justo ponderado con envejecimiento para evitar inanición. Los niveles de suscripción controlan la concurrencia, no la prioridad.
Autoescalado de flota GPU
GPUs siempre activas gestionan el tráfico constante. Cuando la demanda aumenta, el escalador aprovisiona instancias adicionales de proveedores cloud de la UE. Las instancias en enfriamiento se rellenan con trabajo por lotes hasta que expira su hora de facturación. Controles de presupuesto previenen costes desbocados.
Soberanía total de datos
Sin proxy de terceros, sin telemetría externa, sin API de inferencia que vea tus prompts. Tus modelos se ejecutan en tus GPUs — on-premise o en proveedores con sede en la UE sin exposición al CLOUD Act estadounidense. El gateway es un único binario Go que tú despliegas y controlas.
Panel de flota GPU
Visibilidad en tiempo real de cada instancia GPU — utilización, temperatura, rendimiento, tasa de coste, estado de salud. Interfaz de administración integrada con profundidad de cola en vivo, línea temporal de escalado, desglose de facturación y uso por tenant. Configuración dinámica sin reinicios.
Prometheus + Webhooks
Métricas nativas de Prometheus para analítica a largo plazo — latencia de solicitudes, rendimiento de tokens, profundidad de cola, utilización GPU, seguimiento de costes. Alertas webhook configurables para Slack, PagerDuty o cualquier endpoint. Umbrales de presupuesto, alertas de salud, notificaciones de escalado — todo personalizable en tiempo de ejecución.
Especificaciones técnicas
| Lenguaje | Go |
| Compatibilidad API | OpenAI chat/completions (streaming + no-streaming) |
| Motores compatibles | vLLM, SGLang, TensorRT-LLM, Ollama, cualquier compatible con OpenAI |
| Protocolo | HTTP/1.1 + SSE, gRPC (previsto) |
| Despliegue | Librería Go integrada, imagen Docker independiente, SaaS gestionado (previsto) |
| Observabilidad | Métricas Prometheus, alertas webhook, panel integrado |
| Proveedores de escalado | Hetzner, OVHcloud, Scaleway, Genesis Cloud |
| Autenticación | Clave API por tenant, mTLS entre gateway y backends |
| Requisitos mín. | Un núcleo, 128 MB RAM (solo gateway, sin motores de inferencia) |
Modos de despliegue
Librería integrada
Importa como módulo Go. Sin sobrecarga de red. El gateway se ejecuta en el mismo proceso junto a tu aplicación.
go get lumavista.eu/meridian Servicio independiente
API compatible con OpenAI. Reemplazo directo de LiteLLM, OpenRouter o cualquier proxy de inferencia. Una sola imagen Docker.
docker run meridian SaaS gestionado
Lo ejecutamos por ti en infraestructura de la UE. Multi-tenant con aislamiento por clave. Pago por token más tarifa de plataforma.
Próximamente