Meridian
Gateway d'inférence LLM privé
Meridian est un gateway d'inférence LLM auto-hébergé. Il se place entre votre application et votre flotte GPU — routant les requêtes par capacité, gérant les files de priorité, et dimensionnant les instances GPU à la demande. Un seul binaire Go avec une API compatible OpenAI. Zéro code tiers dans le chemin de données.
Les applications déclarent ce dont elles ont besoin — « raisonnement », « rapide », « contexte long » — et non quel modèle utiliser. Le gateway sélectionne le meilleur backend disponible selon la capacité, la charge, la latence et le coût. Changez de modèle ou de fournisseur sans modifier le code applicatif.
Vos modèles tournent sur vos GPU : matériel sur site ou fournisseurs cloud à siège européen (Hetzner, OVHcloud, Scaleway, Genesis Cloud). Aucun trafic d'inférence ne transite par une infrastructure sous juridiction américaine. Aucune exposition au CLOUD Act.
Meridian est la couche d'inférence derrière LumaVista, notre plateforme de recherche IA — et fonctionne tout aussi bien en gateway autonome pour toute application nécessitant une inférence LLM privée et routée.
Capacités
Routage par capacités
Les agents déclarent ce dont ils ont besoin — « raisonnement », « rapide », « contexte long » — et non quel modèle utiliser. Le gateway associe les requêtes au meilleur backend disponible selon la capacité, la charge, la latence et le coût. Changez de modèle sans modifier le code applicatif.
File de priorité à trois niveaux
Les requêtes critiques (chat en temps réel) sont servies en premier. Le travail normal (traitement en arrière-plan) suit. Les tâches batch de faible priorité comblent la capacité restante. L'équilibrage équitable pondéré avec vieillissement empêche la famine. Les niveaux d'abonnement contrôlent la concurrence, pas la priorité.
Auto-scaling de flotte GPU
Les GPU permanents gèrent le trafic régulier. Lors des pics de demande, le scaler provisionne des instances burst auprès de fournisseurs cloud UE. Les instances en refroidissement absorbent le travail batch jusqu'à l'expiration de leur heure de facturation. Les garde-fous budgétaires préviennent les dépassements de coûts.
Souveraineté complète des données
Aucun proxy tiers, aucune télémétrie externe, aucune API d'inférence qui voit vos prompts. Vos modèles tournent sur vos GPU — sur site ou chez des fournisseurs à siège européen sans exposition au CLOUD Act américain. Le gateway est un seul binaire Go que vous déployez et contrôlez.
Tableau de bord de flotte GPU
Visibilité en temps réel sur chaque instance GPU — utilisation, température, débit, taux de coût, état de santé. Interface d'administration intégrée avec profondeur de file en direct, chronologie de scaling, ventilation de facturation et usage par locataire. Configuration dynamique sans redémarrage.
Prometheus + Webhooks
Métriques Prometheus natives pour l'analytique long terme — latence des requêtes, débit de tokens, profondeur de file, utilisation GPU, suivi des coûts. Alertes webhook configurables pour Slack, PagerDuty ou tout endpoint. Seuils budgétaires, alertes de santé, notifications de scaling — le tout personnalisable à chaud.
Spécifications techniques
| Langage | Go |
| Compatibilité API | OpenAI chat/completions (streaming + non-streaming) |
| Moteurs supportés | vLLM, SGLang, TensorRT-LLM, Ollama, tout moteur compatible OpenAI |
| Protocole | HTTP/1.1 + SSE, gRPC (prévu) |
| Déploiement | Bibliothèque Go intégrée, image Docker autonome, SaaS managé (prévu) |
| Observabilité | Métriques Prometheus, alertes webhook, tableau de bord intégré |
| Fournisseurs de scaling | Hetzner, OVHcloud, Scaleway, Genesis Cloud |
| Authentification | Clé API par locataire, mTLS entre le gateway et les backends |
| Config. minimale | Mono-cœur, 128 Mo RAM (gateway seul, hors moteurs d’inférence) |
Modes de déploiement
Bibliothèque intégrée
Importez comme module Go. Zéro surcoût réseau. Le gateway s'exécute dans le même processus que votre application.
go get lumavista.eu/meridian Service autonome
API compatible OpenAI. Remplacement direct de LiteLLM, OpenRouter ou tout proxy d'inférence. Une seule image Docker.
docker run meridian SaaS managé
Nous l'opérons pour vous sur une infrastructure UE. Multi-locataire avec isolation par clé. Paiement au token plus frais de plateforme.
Bientôt disponible