Meridian
Privates LLM-Inferenz-Gateway
Meridian ist ein selbst gehostetes LLM-Inferenz-Gateway. Es befindet sich zwischen Ihrer Anwendung und Ihrer GPU-Flotte — routet Anfragen nach Fähigkeit, verwaltet Prioritätswarteschlangen und skaliert GPU-Instanzen bei Bedarf. Ein einzelnes Go-Binary mit einer OpenAI-kompatiblen API. Kein Drittanbieter-Code im Datenpfad.
Anwendungen deklarieren, was sie benötigen — „Reasoning“, „Fast“, „Long-Context“ — nicht welches Modell verwendet werden soll. Das Gateway wählt das beste verfügbare Backend nach Fähigkeit, Last, Latenz und Kosten. Modelle oder Anbieter wechseln, ohne Anwendungscode zu ändern.
Ihre Modelle laufen auf Ihren GPUs: auf eigener Hardware oder bei EU-ansässigen Cloud-Anbietern (Hetzner, OVHcloud, Scaleway, Genesis Cloud). Kein Inferenz-Traffic berührt US-jurisdiktionelle Infrastruktur. Keine CLOUD Act Exposition.
Meridian ist die Inferenz-Schicht hinter LumaVista, unserer KI-Forschungsplattform — und funktioniert ebenso gut als eigenständiges Gateway für jede Anwendung, die private, geroutete LLM-Inferenz benötigt.
Fähigkeiten
Fähigkeitsbasiertes Routing
Agenten deklarieren, was sie benötigen — „Reasoning“, „Fast“, „Long-Context“ — nicht welches Modell verwendet werden soll. Das Gateway ordnet Anfragen dem besten verfügbaren Backend nach Fähigkeit, Last, Latenz und Kosten zu. Modelle wechseln, ohne Anwendungscode zu ändern.
Dreistufige Prioritätswarteschlange
Kritische Anfragen (Echtzeit-Chat) werden zuerst bedient. Normale Aufgaben (Hintergrundverarbeitung) folgen. Niedrigprioritäre Batch-Jobs füllen die verbleibende Kapazität. Gewichtetes Fair Queuing mit Alterung verhindert Aushungerung. Abonnement-Stufen steuern die Parallelität, nicht die Priorität.
GPU-Flotten-Autoskalierung
Dauerhaft aktive Basis-GPUs bewältigen den laufenden Traffic. Bei Lastspitzen provisioniert der Skaler Burst-Instanzen von EU-Cloud-Anbietern. Abkühlende Instanzen werden mit Batch-Arbeit gefüllt, bis ihre Abrechnungsstunde abläuft. Budget-Schutzmaßnahmen verhindern unkontrollierte Kosten.
Vollständige Datensouveränität
Kein Drittanbieter-Proxy, keine externe Telemetrie, keine Inferenz-API, die Ihre Prompts sieht. Ihre Modelle laufen auf Ihren GPUs — on-premise oder bei EU-ansässigen Anbietern ohne CLOUD Act Exposition. Das Gateway ist ein einzelnes Go-Binary, das Sie selbst bereitstellen und kontrollieren.
GPU-Flotten-Dashboard
Echtzeit-Überblick über jede GPU-Instanz — Auslastung, Temperatur, Durchsatz, Kostenrate, Gesundheitsstatus. Integrierte Admin-Oberfläche mit Live-Warteschlangentiefe, Skalierungs-Timeline, Abrechnungsübersicht und mandantenspezifischer Nutzung. Dynamische Konfiguration ohne Neustart.
Prometheus + Webhooks
Native Prometheus-Metriken für Langzeitanalysen — Anfrage-Latenz, Token-Durchsatz, Warteschlangentiefe, GPU-Auslastung, Kostenverfolgung. Konfigurierbare Webhook-Alarme für Slack, PagerDuty oder beliebige Endpunkte. Budget-Schwellenwerte, Gesundheitsalarme, Skalierungsbenachrichtigungen — alles zur Laufzeit anpassbar.
Technische Spezifikationen
| Sprache | Go |
| API-Kompatibilität | OpenAI chat/completions (Streaming + Nicht-Streaming) |
| Unterstützte Engines | vLLM, SGLang, TensorRT-LLM, Ollama, jede OpenAI-kompatible |
| Protokoll | HTTP/1.1 + SSE, gRPC (geplant) |
| Bereitstellung | Eingebettete Go-Bibliothek, eigenständiges Docker-Image, verwaltetes SaaS (geplant) |
| Observability | Prometheus-Metriken, Webhook-Alarme, integriertes Dashboard |
| Skalierungsanbieter | Hetzner, OVHcloud, Scaleway, Genesis Cloud |
| Authentifizierung | API-Schlüssel pro Mandant, mTLS zwischen Gateway und Backends |
| Min. Anforderungen | Single-Core, 128 MB RAM (nur Gateway, exkl. Inferenz-Engines) |
Bereitstellungsmodi
Eingebettete Bibliothek
Als Go-Modul importieren. Kein Netzwerk-Overhead. Das Gateway läuft im selben Prozess wie Ihre Anwendung.
go get lumavista.eu/meridian Eigenständiger Dienst
OpenAI-kompatible API. Drop-in-Ersatz für LiteLLM, OpenRouter oder jeden Inferenz-Proxy. Ein einzelnes Docker-Image.
docker run meridian Verwaltetes SaaS
Wir betreiben es für Sie auf EU-Infrastruktur. Multi-Mandantenfähig mit Isolation pro Schlüssel. Bezahlung pro Token plus Plattformgebühr.
Demnächst verfügbar