compresh

LLMs vergessen.
Compresh erinnert sich.

Lassen Sie KI-Gespräche länger leben.

Wo wir stehen

Compresh hat drei primäre Zielgruppen. Wir sind bei jeder in einem anderen Stadium.

Bereit

Für Agent- und Chatbot-Entwickler

Wenn Sie Tools bauen, die lange, mehrstufige Gespräche mit Nutzern führen — Agents, Copilots, Kundenservice-Bots — ist Compresh produktionsbereit. Tauschen Sie Ihre base_url, und Ihre Gespräche werden automatisch komprimiert. Sie werden bei tieferen Gesprächen innerhalb von Stunden spürbare Token-Einsparungen sehen.

Was wir von Ihnen brauchen: echte Workloads. Compresh lernt am schnellsten aus Produktions-Traffic, nicht aus synthetischen Benchmarks.

Jetzt einbinden →
Erkundend

Für RAG-Entwickler

Episodisches Gedächtnis und Retrieval-Augmented Generation teilen eine gemeinsame Frage: Wie wählt man aus, was relevant ist? Compreshs tag-basierter Ansatz ergänzt RAG in manchen Workflows, ersetzt Teile davon in anderen. Erste Signale sind vielversprechend.

Wenn Sie Retrieval im großen Maßstab lösen, würden wir die Überschneidung gern gemeinsam testen.

Überschneidung testen →
Kontaktieren Sie uns

Für Teams, die KI intern nutzen

Wenn Ihre Mitarbeiter ChatGPT, Claude oder eine LLM-API für die tägliche Arbeit nutzen, fügt sich Compresh davor ein. Eine base_url-Änderung pro Entwickler, ein Master-Konto für die IT. Komprimierte Gespräche, geteilte System-Prompt-Einsparungen, Nutzungsanalysen pro Mitarbeiter — ohne die Arbeitsweise zu ändern.

Was wir von Ihnen brauchen: Teamgröße, primäre Anwendungsfälle, Compliance-Anforderungen.

Team-Preise anfragen →

Enterprise (Multi-Tenant-SaaS, geteilte System-Prompts im großen Maßstab) — Scoping mit ausgewählten Partnern. Wenn Ihre Plattform bei jeder Anfrage einen 10K-Token-System-Prompt sendet, kontaktieren Sie uns.

Compresh ausprobieren

Sehen Sie den Unterschied live. Gleicher Prompt, gleiches Modell — einer roh, einer durch Compresh.

Compresh berührt die ersten 4 Turns nicht — es gibt noch nichts zu komprimieren. Die Einsparungen beginnen ab Turn 5 und wachsen mit jedem weiteren Turn.

Model
System prompt
Without CompreshRaw
Responses will appear here...
With CompreshEMA
Responses will appear here...
Compresh activates after turn 4 — deeper conversations, bigger savings
Savings appear after turn 4
0/15 prompts usedLive · GPT-4o mini · 15 free per session

Es muss vergessen. Vorerst.

Nicht als Fehler — absichtlich so gebaut. Jedes Gespräch, jedes Context Window, jede Wiedergeburt von Grund auf.

Wir bauen Agents, die sich „erinnern“ müssen, was drei Turns zuvor besprochen wurde. Die Lösung ist Brute Force: die gesamte Historie jedes Mal mitsenden. Das Modell liest sie erneut. Wir bezahlen dafür. Die Latenz wächst. Das Muster wiederholt sich, bis das Window voll ist.

Das ist kein „Skalierungsproblem.“ Es ist ein strukturelles.

memory
forget
structural

Wofür wir bezahlen

Jede Wiedergeburt hat einen Preis:

Sichtbar: Tokens. Dieselben Absätze, tausendfach übertragen. Die Rechnung wächst linear damit, wie interessant Ihr Gespräch wird.

tokens
latency

Unsichtbar — Zeit: Langer Kontext bedeutet langsame Inferenz. Ihr Nutzer wartet. Ihr Latenz-Budget schrumpft Turn für Turn.

Unsichtbar — Qualität: Aufmerksamkeit verdünnt sich. Das Modell „sieht“ alles, fokussiert aber nichts. Aktuelle Forschung nennt das Attention Degradation. Die meisten Entwickler haben es erlebt.

attention
energy

Unsichtbar — Ressourcen: Jeder Token kostet Strom, Wasser, Rechenzeit. Der ökologische Fußabdruck von KI skaliert mit der Gesprächslänge, nicht mit der Gesprächsqualität.

Unsichtbar — Lebensdauer: Ein Modell hat ein endliches Leben — sein Context Window. Wenn das Window voll ist, endet das Gespräch, oder es vergisst. Die meisten Teams akzeptieren das und fangen neu an. Aber jede Wiedergeburt kostet dasselbe — das Modell erneut einarbeiten, das Projekt erneut erklären, den Kontext erneut aufbauen. Lebensdauer ist der Kostenfaktor, den niemand einpreist, und den Sie am stärksten spüren, wenn das Gespräch an die Wand fährt.

Die Lösung ist strukturell

Compresh erinnert Gespräche so, wie Menschen es tun — über Ankerpunkte, nicht über Transkripte. Nicht „das gesamte Gespräch bisher“, sondern „was wichtig war, was entschieden wurde, was korrigiert wurde.“

decision
fact

Wir verwandeln lange Gespräche in strukturiertes episodisches Gedächtnis:

  • Tag Clouds, keine Transkripte
  • Entscheidungen nachverfolgt, nicht nur Nachrichten
  • Korrekturen bewahrt, nicht in Zusammenfassungen eingeebnet
  • Komprimierung geschieht vor dem API-Aufruf — nicht darin
anchor

Das Ergebnis sind nicht nur günstigere Tokens. Es ist eine andere Form, wie Gespräche Kontext tragen — eine, in der Geschichte nicht nacherzählt werden muss, um erinnert zu werden. Gespräche leben länger. Wiedergeburten passieren seltener. Wenn sie passieren, dann weil die Arbeit erledigt ist — nicht weil das Window voll war.

Wir bauen das offen

Das Protokoll ist offen (TCCP — Tag Cloud Context Protocol). Der Proxy ist Open Source. Der Komprimierungsalgorithmus ist zum Patent angemeldet und proprietär — damit verdienen wir.

Wenn Sie Agents, Chatbots oder Assistenten auf LLM APIs bauen, sitzt Compresh zwischen Ihnen und dem Anbieter. Eine Zeile: Ändern Sie Ihre base_url. Wir übernehmen den Rest.

Wir haben etwas entdeckt. Lassen Sie es uns gemeinsam weiterentwickeln.

protocol
proxy
invitation

— Compresh

Integrate

Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.

Direct SDK / IDE

Drop-in proxy

Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.

  • → Anthropic / OpenAI Python or JS SDK
  • → Cursor, Aider, LangChain
  • → Provider key passes through Compresh
Read integration docs
Managed agent

Hook / MCP

Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.

  • → OpenClaw, Claude Code (soon), Cowork (soon)
  • → Compresh-MCP runs locally
  • → Provider key stays with you
See hook docs

Open Source

Protokoll offen, Implementierung differenziert.

Offen

TCCP — Tag Cloud Context Protocol

Das Datenformat und die Konventionen für Gesprächsidentität und Komprimierungssignalisierung. Jeder kann einen TCCP-kompatiblen Proxy oder SDK implementieren.

github.com/compresh
Patent angemeldet

Komprimierungsalgorithmus

Episodic Memory Architecture — turn-gebundene semantische Tags, epistemische Klassifikation und progressiv bewertete Komprimierung. Damit verdienen wir. Patentanmeldung eingereicht (TR).

So funktionieren offene Standards — das Protokoll ist frei, die beste Implementierung konkurriert.

Bleiben Sie dran

Wir entwickeln das offen. Folgen Sie mit oder kontaktieren Sie uns direkt.