Skip to content
Demnächst verfügbar EU-Souverän

Meridian

Privates LLM-Inferenz-Gateway

Abstrakte Visualisierung der Anfragenweiterleitung durch ein privates Inferenz-Gateway

Meridian ist ein selbst gehostetes LLM-Inferenz-Gateway. Es befindet sich zwischen Ihrer Anwendung und Ihrer GPU-Flotte — routet Anfragen nach Fähigkeit, verwaltet Prioritätswarteschlangen und skaliert GPU-Instanzen bei Bedarf. Ein einzelnes Go-Binary mit einer OpenAI-kompatiblen API. Kein Drittanbieter-Code im Datenpfad.

Anwendungen deklarieren, was sie benötigen — „Reasoning“, „Fast“, „Long-Context“ — nicht welches Modell verwendet werden soll. Das Gateway wählt das beste verfügbare Backend nach Fähigkeit, Last, Latenz und Kosten. Modelle oder Anbieter wechseln, ohne Anwendungscode zu ändern.

Ihre Modelle laufen auf Ihren GPUs: auf eigener Hardware oder bei EU-ansässigen Cloud-Anbietern (Hetzner, OVHcloud, Scaleway, Genesis Cloud). Kein Inferenz-Traffic berührt US-jurisdiktionelle Infrastruktur. Keine CLOUD Act Exposition.

Meridian ist die Inferenz-Schicht hinter LumaVista, unserer KI-Forschungsplattform — und funktioniert ebenso gut als eigenständiges Gateway für jede Anwendung, die private, geroutete LLM-Inferenz benötigt.

Fähigkeiten

Fähigkeitsbasiertes Routing

Agenten deklarieren, was sie benötigen — „Reasoning“, „Fast“, „Long-Context“ — nicht welches Modell verwendet werden soll. Das Gateway ordnet Anfragen dem besten verfügbaren Backend nach Fähigkeit, Last, Latenz und Kosten zu. Modelle wechseln, ohne Anwendungscode zu ändern.

Dreistufige Prioritätswarteschlange

Kritische Anfragen (Echtzeit-Chat) werden zuerst bedient. Normale Aufgaben (Hintergrundverarbeitung) folgen. Niedrigprioritäre Batch-Jobs füllen die verbleibende Kapazität. Gewichtetes Fair Queuing mit Alterung verhindert Aushungerung. Abonnement-Stufen steuern die Parallelität, nicht die Priorität.

GPU-Flotten-Autoskalierung

Dauerhaft aktive Basis-GPUs bewältigen den laufenden Traffic. Bei Lastspitzen provisioniert der Skaler Burst-Instanzen von EU-Cloud-Anbietern. Abkühlende Instanzen werden mit Batch-Arbeit gefüllt, bis ihre Abrechnungsstunde abläuft. Budget-Schutzmaßnahmen verhindern unkontrollierte Kosten.

Vollständige Datensouveränität

Kein Drittanbieter-Proxy, keine externe Telemetrie, keine Inferenz-API, die Ihre Prompts sieht. Ihre Modelle laufen auf Ihren GPUs — on-premise oder bei EU-ansässigen Anbietern ohne CLOUD Act Exposition. Das Gateway ist ein einzelnes Go-Binary, das Sie selbst bereitstellen und kontrollieren.

GPU-Flotten-Dashboard

Echtzeit-Überblick über jede GPU-Instanz — Auslastung, Temperatur, Durchsatz, Kostenrate, Gesundheitsstatus. Integrierte Admin-Oberfläche mit Live-Warteschlangentiefe, Skalierungs-Timeline, Abrechnungsübersicht und mandantenspezifischer Nutzung. Dynamische Konfiguration ohne Neustart.

Prometheus + Webhooks

Native Prometheus-Metriken für Langzeitanalysen — Anfrage-Latenz, Token-Durchsatz, Warteschlangentiefe, GPU-Auslastung, Kostenverfolgung. Konfigurierbare Webhook-Alarme für Slack, PagerDuty oder beliebige Endpunkte. Budget-Schwellenwerte, Gesundheitsalarme, Skalierungsbenachrichtigungen — alles zur Laufzeit anpassbar.

Technische Spezifikationen

Sprache Go
API-Kompatibilität OpenAI chat/completions (Streaming + Nicht-Streaming)
Unterstützte Engines vLLM, SGLang, TensorRT-LLM, Ollama, jede OpenAI-kompatible
Protokoll HTTP/1.1 + SSE, gRPC (geplant)
Bereitstellung Eingebettete Go-Bibliothek, eigenständiges Docker-Image, verwaltetes SaaS (geplant)
Observability Prometheus-Metriken, Webhook-Alarme, integriertes Dashboard
Skalierungsanbieter Hetzner, OVHcloud, Scaleway, Genesis Cloud
Authentifizierung API-Schlüssel pro Mandant, mTLS zwischen Gateway und Backends
Min. Anforderungen Single-Core, 128 MB RAM (nur Gateway, exkl. Inferenz-Engines)

Bereitstellungsmodi

Eingebettete Bibliothek

Als Go-Modul importieren. Kein Netzwerk-Overhead. Das Gateway läuft im selben Prozess wie Ihre Anwendung.

go get lumavista.eu/meridian

Eigenständiger Dienst

OpenAI-kompatible API. Drop-in-Ersatz für LiteLLM, OpenRouter oder jeden Inferenz-Proxy. Ein einzelnes Docker-Image.

docker run meridian

Verwaltetes SaaS

Wir betreiben es für Sie auf EU-Infrastruktur. Multi-Mandantenfähig mit Isolation pro Schlüssel. Bezahlung pro Token plus Plattformgebühr.

Demnächst verfügbar

Frühzugang anfordern

Kontakt aufnehmen