LLMs vergessen.
Compresh erinnert sich.

Lassen Sie KI-Gespräche länger leben.

Wo wir stehen

Compresh hat drei primäre Zielgruppen. Wir sind bei jeder in einem anderen Stadium.

Bereit

Für Agent- und Chatbot-Entwickler

Wenn Sie Tools bauen, die lange, mehrstufige Gespräche mit Nutzern führen — Agents, Copilots, Kundenservice-Bots — ist Compresh produktionsbereit. Tauschen Sie Ihre base_url, und Ihre Gespräche werden automatisch komprimiert. Sie werden bei tieferen Gesprächen innerhalb von Stunden spürbare Token-Einsparungen sehen.

Was wir von Ihnen brauchen: echte Workloads. Compresh lernt am schnellsten aus Produktions-Traffic, nicht aus synthetischen Benchmarks.

Jetzt einbinden →

Erkundend

Für RAG-Entwickler

Episodisches Gedächtnis und Retrieval-Augmented Generation teilen eine gemeinsame Frage: Wie wählt man aus, was relevant ist? Compreshs tag-basierter Ansatz ergänzt RAG in manchen Workflows, ersetzt Teile davon in anderen. Erste Signale sind vielversprechend.

Wenn Sie Retrieval im großen Maßstab lösen, würden wir die Überschneidung gern gemeinsam testen.

Überschneidung testen →

Kontaktieren Sie uns

Für Teams, die KI intern nutzen

Wenn Ihre Mitarbeiter ChatGPT, Claude oder eine LLM-API für die tägliche Arbeit nutzen, fügt sich Compresh davor ein. Eine base_url-Änderung pro Entwickler, ein Master-Konto für die IT. Komprimierte Gespräche, geteilte System-Prompt-Einsparungen, Nutzungsanalysen pro Mitarbeiter — ohne die Arbeitsweise zu ändern.

Was wir von Ihnen brauchen: Teamgröße, primäre Anwendungsfälle, Compliance-Anforderungen.

Team-Preise anfragen →

Enterprise (Multi-Tenant-SaaS, geteilte System-Prompts im großen Maßstab) — Scoping mit ausgewählten Partnern. Wenn Ihre Plattform bei jeder Anfrage einen 10K-Token-System-Prompt sendet, kontaktieren Sie uns.

Compresh ausprobieren

Sehen Sie den Unterschied live. Gleicher Prompt, gleiches Modell — einer roh, einer durch Compresh.

Compresh berührt die ersten 4 Turns nicht — es gibt noch nichts zu komprimieren. Die Einsparungen beginnen ab Turn 5 und wachsen mit jedem weiteren Turn.

Model

System prompt

Without CompreshRaw

Responses will appear here...

With CompreshEMA

Responses will appear here...

Compresh activates after turn 4 — deeper conversations, bigger savings

Savings appear after turn 4

0/15 prompts usedLive · GPT-4o mini · 15 free per session

Es muss vergessen. Vorerst.

Nicht als Fehler — absichtlich so gebaut. Jedes Gespräch, jedes Context Window, jede Wiedergeburt von Grund auf.

Wir bauen Agents, die sich „erinnern“ müssen, was drei Turns zuvor besprochen wurde. Die Lösung ist Brute Force: die gesamte Historie jedes Mal mitsenden. Das Modell liest sie erneut. Wir bezahlen dafür. Die Latenz wächst. Das Muster wiederholt sich, bis das Window voll ist.

Das ist kein „Skalierungsproblem.“ Es ist ein strukturelles.

memory

forget

structural

Wofür wir bezahlen

Jede Wiedergeburt hat einen Preis:

Sichtbar: Tokens. Dieselben Absätze, tausendfach übertragen. Die Rechnung wächst linear damit, wie interessant Ihr Gespräch wird.

tokens

latency

Unsichtbar — Zeit: Langer Kontext bedeutet langsame Inferenz. Ihr Nutzer wartet. Ihr Latenz-Budget schrumpft Turn für Turn.

Unsichtbar — Qualität: Aufmerksamkeit verdünnt sich. Das Modell „sieht“ alles, fokussiert aber nichts. Aktuelle Forschung nennt das Attention Degradation. Die meisten Entwickler haben es erlebt.

attention

energy

Unsichtbar — Ressourcen: Jeder Token kostet Strom, Wasser, Rechenzeit. Der ökologische Fußabdruck von KI skaliert mit der Gesprächslänge, nicht mit der Gesprächsqualität.

Unsichtbar — Lebensdauer: Ein Modell hat ein endliches Leben — sein Context Window. Wenn das Window voll ist, endet das Gespräch, oder es vergisst. Die meisten Teams akzeptieren das und fangen neu an. Aber jede Wiedergeburt kostet dasselbe — das Modell erneut einarbeiten, das Projekt erneut erklären, den Kontext erneut aufbauen. Lebensdauer ist der Kostenfaktor, den niemand einpreist, und den Sie am stärksten spüren, wenn das Gespräch an die Wand fährt.

Die Lösung ist strukturell

Compresh erinnert Gespräche so, wie Menschen es tun — über Ankerpunkte, nicht über Transkripte. Nicht „das gesamte Gespräch bisher“, sondern „was wichtig war, was entschieden wurde, was korrigiert wurde.“

decision

fact

Wir verwandeln lange Gespräche in strukturiertes episodisches Gedächtnis:

▶ Tag Clouds, keine Transkripte
▶ Entscheidungen nachverfolgt, nicht nur Nachrichten
▶ Korrekturen bewahrt, nicht in Zusammenfassungen eingeebnet
▶ Komprimierung geschieht vor dem API-Aufruf — nicht darin

anchor

Das Ergebnis sind nicht nur günstigere Tokens. Es ist eine andere Form, wie Gespräche Kontext tragen — eine, in der Geschichte nicht nacherzählt werden muss, um erinnert zu werden. Gespräche leben länger. Wiedergeburten passieren seltener. Wenn sie passieren, dann weil die Arbeit erledigt ist — nicht weil das Window voll war.

Wir bauen das offen

Das Protokoll ist offen (TCCP — Tag Cloud Context Protocol). Der Proxy ist Open Source. Der Komprimierungsalgorithmus ist zum Patent angemeldet und proprietär — damit verdienen wir.

Wenn Sie Agents, Chatbots oder Assistenten auf LLM APIs bauen, sitzt Compresh zwischen Ihnen und dem Anbieter. Eine Zeile: Ändern Sie Ihre base_url. Wir übernehmen den Rest.

Wir haben etwas entdeckt. Lassen Sie es uns gemeinsam weiterentwickeln.

protocol

proxy

invitation

— Compresh

Integrate

Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.

Direct SDK / IDE

Drop-in proxy

Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.

→ Anthropic / OpenAI Python or JS SDK
→ Cursor, Aider, LangChain
→ Provider key passes through Compresh

Read integration docs

Managed agent

Hook / MCP

Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.

→ OpenClaw, Claude Code (soon), Cowork (soon)
→ Compresh-MCP runs locally
→ Provider key stays with you

See hook docs

Get an API key Read the docs

Open Source

Protokoll offen, Implementierung differenziert.

Offen

TCCP — Tag Cloud Context Protocol

Das Datenformat und die Konventionen für Gesprächsidentität und Komprimierungssignalisierung. Jeder kann einen TCCP-kompatiblen Proxy oder SDK implementieren.

github.com/compresh

Patent angemeldet

Komprimierungsalgorithmus

Episodic Memory Architecture — turn-gebundene semantische Tags, epistemische Klassifikation und progressiv bewertete Komprimierung. Damit verdienen wir. Patentanmeldung eingereicht (TR).

So funktionieren offene Standards — das Protokoll ist frei, die beste Implementierung konkurriert.

Bleiben Sie dran

Wir entwickeln das offen. Folgen Sie mit oder kontaktieren Sie uns direkt.

LLMs vergessen. Compresh erinnert sich.