LLMs vergessen.
Compresh erinnert sich.
Lassen Sie KI-Gespräche länger leben.
Wo wir stehen
Compresh hat drei primäre Zielgruppen. Wir sind bei jeder in einem anderen Stadium.
Für Agent- und Chatbot-Entwickler
Wenn Sie Tools bauen, die lange, mehrstufige Gespräche mit Nutzern führen — Agents, Copilots, Kundenservice-Bots — ist Compresh produktionsbereit. Tauschen Sie Ihre base_url, und Ihre Gespräche werden automatisch komprimiert. Sie werden bei tieferen Gesprächen innerhalb von Stunden spürbare Token-Einsparungen sehen.
Was wir von Ihnen brauchen: echte Workloads. Compresh lernt am schnellsten aus Produktions-Traffic, nicht aus synthetischen Benchmarks.
Jetzt einbinden →Für RAG-Entwickler
Episodisches Gedächtnis und Retrieval-Augmented Generation teilen eine gemeinsame Frage: Wie wählt man aus, was relevant ist? Compreshs tag-basierter Ansatz ergänzt RAG in manchen Workflows, ersetzt Teile davon in anderen. Erste Signale sind vielversprechend.
Wenn Sie Retrieval im großen Maßstab lösen, würden wir die Überschneidung gern gemeinsam testen.
Überschneidung testen →Für Teams, die KI intern nutzen
Wenn Ihre Mitarbeiter ChatGPT, Claude oder eine LLM-API für die tägliche Arbeit nutzen, fügt sich Compresh davor ein. Eine base_url-Änderung pro Entwickler, ein Master-Konto für die IT. Komprimierte Gespräche, geteilte System-Prompt-Einsparungen, Nutzungsanalysen pro Mitarbeiter — ohne die Arbeitsweise zu ändern.
Was wir von Ihnen brauchen: Teamgröße, primäre Anwendungsfälle, Compliance-Anforderungen.
Team-Preise anfragen →Enterprise (Multi-Tenant-SaaS, geteilte System-Prompts im großen Maßstab) — Scoping mit ausgewählten Partnern. Wenn Ihre Plattform bei jeder Anfrage einen 10K-Token-System-Prompt sendet, kontaktieren Sie uns.
Compresh ausprobieren
Sehen Sie den Unterschied live. Gleicher Prompt, gleiches Modell — einer roh, einer durch Compresh.
Compresh berührt die ersten 4 Turns nicht — es gibt noch nichts zu komprimieren. Die Einsparungen beginnen ab Turn 5 und wachsen mit jedem weiteren Turn.
Es muss vergessen. Vorerst.
Nicht als Fehler — absichtlich so gebaut. Jedes Gespräch, jedes Context Window, jede Wiedergeburt von Grund auf.
Wir bauen Agents, die sich „erinnern“ müssen, was drei Turns zuvor besprochen wurde. Die Lösung ist Brute Force: die gesamte Historie jedes Mal mitsenden. Das Modell liest sie erneut. Wir bezahlen dafür. Die Latenz wächst. Das Muster wiederholt sich, bis das Window voll ist.
Das ist kein „Skalierungsproblem.“ Es ist ein strukturelles.
Wofür wir bezahlen
Jede Wiedergeburt hat einen Preis:
Sichtbar: Tokens. Dieselben Absätze, tausendfach übertragen. Die Rechnung wächst linear damit, wie interessant Ihr Gespräch wird.
Unsichtbar — Zeit: Langer Kontext bedeutet langsame Inferenz. Ihr Nutzer wartet. Ihr Latenz-Budget schrumpft Turn für Turn.
Unsichtbar — Qualität: Aufmerksamkeit verdünnt sich. Das Modell „sieht“ alles, fokussiert aber nichts. Aktuelle Forschung nennt das Attention Degradation. Die meisten Entwickler haben es erlebt.
Unsichtbar — Ressourcen: Jeder Token kostet Strom, Wasser, Rechenzeit. Der ökologische Fußabdruck von KI skaliert mit der Gesprächslänge, nicht mit der Gesprächsqualität.
Unsichtbar — Lebensdauer: Ein Modell hat ein endliches Leben — sein Context Window. Wenn das Window voll ist, endet das Gespräch, oder es vergisst. Die meisten Teams akzeptieren das und fangen neu an. Aber jede Wiedergeburt kostet dasselbe — das Modell erneut einarbeiten, das Projekt erneut erklären, den Kontext erneut aufbauen. Lebensdauer ist der Kostenfaktor, den niemand einpreist, und den Sie am stärksten spüren, wenn das Gespräch an die Wand fährt.
Die Lösung ist strukturell
Compresh erinnert Gespräche so, wie Menschen es tun — über Ankerpunkte, nicht über Transkripte. Nicht „das gesamte Gespräch bisher“, sondern „was wichtig war, was entschieden wurde, was korrigiert wurde.“
Wir verwandeln lange Gespräche in strukturiertes episodisches Gedächtnis:
- ▶ Tag Clouds, keine Transkripte
- ▶ Entscheidungen nachverfolgt, nicht nur Nachrichten
- ▶ Korrekturen bewahrt, nicht in Zusammenfassungen eingeebnet
- ▶ Komprimierung geschieht vor dem API-Aufruf — nicht darin
Das Ergebnis sind nicht nur günstigere Tokens. Es ist eine andere Form, wie Gespräche Kontext tragen — eine, in der Geschichte nicht nacherzählt werden muss, um erinnert zu werden. Gespräche leben länger. Wiedergeburten passieren seltener. Wenn sie passieren, dann weil die Arbeit erledigt ist — nicht weil das Window voll war.
Wir bauen das offen
Das Protokoll ist offen (TCCP — Tag Cloud Context Protocol). Der Proxy ist Open Source. Der Komprimierungsalgorithmus ist zum Patent angemeldet und proprietär — damit verdienen wir.
Wenn Sie Agents, Chatbots oder Assistenten auf LLM APIs bauen, sitzt Compresh zwischen Ihnen und dem Anbieter. Eine Zeile: Ändern Sie Ihre base_url. Wir übernehmen den Rest.
Wir haben etwas entdeckt. Lassen Sie es uns gemeinsam weiterentwickeln.
— Compresh
Integrate
Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.
Drop-in proxy
Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.
- → Anthropic / OpenAI Python or JS SDK
- → Cursor, Aider, LangChain
- → Provider key passes through Compresh
Hook / MCP
Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.
- → OpenClaw, Claude Code (soon), Cowork (soon)
- → Compresh-MCP runs locally
- → Provider key stays with you
Open Source
Protokoll offen, Implementierung differenziert.
TCCP — Tag Cloud Context Protocol
Das Datenformat und die Konventionen für Gesprächsidentität und Komprimierungssignalisierung. Jeder kann einen TCCP-kompatiblen Proxy oder SDK implementieren.
github.com/compreshKomprimierungsalgorithmus
Episodic Memory Architecture — turn-gebundene semantische Tags, epistemische Klassifikation und progressiv bewertete Komprimierung. Damit verdienen wir. Patentanmeldung eingereicht (TR).
So funktionieren offene Standards — das Protokoll ist frei, die beste Implementierung konkurriert.