compresh

Les LLM oublient.
Compresh se souvient.

Faites vivre vos conversations IA plus longtemps.

Où nous en sommes

Compresh s'adresse à trois publics principaux. Nous en sommes à des stades différents avec chacun.

Prêt

Pour les créateurs d'agents et de chatbots

Si vous construisez des outils qui maintiennent de longues conversations multi-tours avec les utilisateurs — agents, copilotes, bots de service client — Compresh est prêt pour la production. Changez votre base_url, et vos conversations sont compressées automatiquement. Vous constaterez des réductions significatives de tokens sur les conversations profondes en quelques heures.

Ce que nous attendons de vous : des charges de travail réelles. Compresh apprend plus vite à partir du trafic de production que des benchmarks synthétiques.

Intégrez-nous →
En exploration

Pour les développeurs RAG

La mémoire épisodique et la génération augmentée par récupération partagent une question commune : comment sélectionner ce qui est pertinent ? L'approche par tags de Compresh complète le RAG dans certains workflows, en remplace des parties dans d'autres. Les premiers signaux sont prometteurs.

Si vous travaillez sur la récupération à grande échelle, nous aimerions tester le chevauchement ensemble.

Tester le chevauchement →
Contactez-nous

Pour les équipes utilisant l'IA en interne

Si vos employés utilisent ChatGPT, Claude ou n'importe quelle API LLM pour leur travail quotidien, Compresh s'intercale en amont. Un seul changement de base_url par développeur, un seul compte maître pour l'IT. Conversations compressées, économies sur les prompts système partagés, analyses d'usage par employé — sans changer la façon dont chacun travaille.

Ce qu'il nous faut de vous : taille de l'équipe, principaux cas d'usage, exigences de conformité.

Demander des tarifs équipe →

Entreprise (SaaS multi-locataire, prompts système partagés à grande échelle) — en cours de cadrage avec des partenaires sélectionnés. Si votre plateforme envoie un prompt système de 10K tokens à chaque requête, contactez-nous.

Essayer Compresh

Voyez la différence en direct. Même prompt, même modèle — l'un brut, l'autre via Compresh.

Compresh ne touche pas aux 4 premiers tours — il n'y a encore rien à compresser. Les économies commencent au tour 5 et grandissent à chaque tour suivant.

Model
System prompt
Without CompreshRaw
Responses will appear here...
With CompreshEMA
Responses will appear here...
Compresh activates after turn 4 — deeper conversations, bigger savings
Savings appear after turn 4
0/15 prompts usedLive · GPT-4o mini · 15 free per session

Il doit oublier. Pour l'instant.

Pas par défaut — par conception. Chaque conversation, chaque fenêtre de contexte, chaque renaissance à partir de zéro.

Nous construisons des agents qui doivent « se souvenir » de ce qui a été discuté trois tours plus tôt. La solution est la force brute : envoyer l'historique complet à chaque fois. Le modèle le relit. Nous payons pour cela. La latence augmente. Le schéma se répète jusqu'à ce que la fenêtre soit pleine.

Ce n'est pas un « problème de passage à l'échelle ». C'est un problème structurel.

memory
forget
structural

Ce que nous payons réellement

Chaque renaissance a un prix :

Visible : Les tokens. Les mêmes paragraphes, transmis des milliers de fois. La facture croît linéairement à mesure que votre conversation devient intéressante.

tokens
latency

Invisible — le temps : Un long contexte signifie une inférence lente. Votre utilisateur attend. Votre budget de latence se réduit tour après tour.

Invisible — la qualité : L'attention se dilue. Le modèle « voit » tout mais ne se concentre sur rien. La recherche récente appelle cela la dégradation de l'attention. La plupart des développeurs l'ont ressenti.

attention
energy

Invisible — les ressources : Chaque token coûte de l'électricité, de l'eau, du temps de calcul. L'empreinte environnementale de l'IA évolue avec la longueur de la conversation, pas avec sa qualité.

Invisible — la durée de vie : Un modèle a une durée de vie finie — sa fenêtre de contexte. Quand la fenêtre se remplit, la conversation s'arrête, ou le modèle oublie. La plupart des équipes acceptent cela et repartent de zéro. Mais chaque renaissance coûte le même prix — réintégrer le modèle, réexpliquer le projet, rétablir le contexte. La durée de vie est le coût que personne ne chiffre, et celui que vous ressentez le plus quand la conversation heurte le mur.

La solution est structurelle

Compresh mémorise les conversations comme le font les humains — par des ancres, pas par des transcriptions. Non pas « toute la conversation jusqu'ici » mais « ce qui comptait, ce qui a été décidé, ce qui a été corrigé ».

decision
fact

Nous transformons les longues conversations en mémoire épisodique structurée :

  • Des nuages de tags, pas des transcriptions
  • Les décisions sont suivies, pas seulement les messages
  • Les corrections sont préservées, pas aplaties en résumés
  • La compression intervient avant l'appel API — pas à l'intérieur
anchor

Le résultat ne se limite pas à des tokens moins chers. C'est une forme différente de porter le contexte dans les conversations — une forme où l'historique n'a pas besoin d'être raconté à nouveau pour être mémorisé. Les conversations vivent plus longtemps. Les renaissances surviennent moins souvent. Quand elles surviennent, c'est parce que le travail est terminé — pas parce que la fenêtre s'est remplie.

Nous construisons cela au grand jour

Le protocole est ouvert (TCCP — Tag Cloud Context Protocol). Le proxy est open source. L'algorithme de compression est en cours de brevetage et propriétaire — c'est là que nous gagnons notre vie.

Si vous construisez des agents, des chatbots ou des assistants par-dessus les API LLM, Compresh s'intercale entre vous et le fournisseur. Une seule ligne : changez votre base_url. Nous nous occupons du reste.

Nous avons découvert quelque chose. Développons-le ensemble.

protocol
proxy
invitation

— Compresh

Integrate

Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.

Direct SDK / IDE

Drop-in proxy

Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.

  • → Anthropic / OpenAI Python or JS SDK
  • → Cursor, Aider, LangChain
  • → Provider key passes through Compresh
Read integration docs
Managed agent

Hook / MCP

Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.

  • → OpenClaw, Claude Code (soon), Cowork (soon)
  • → Compresh-MCP runs locally
  • → Provider key stays with you
See hook docs

Open source

Protocole ouvert, implémentation différenciée.

Ouvert

TCCP — Tag Cloud Context Protocol

Le format de transmission et les conventions pour l'identité de conversation et la signalisation de compression. N'importe qui peut implémenter un proxy ou un SDK compatible TCCP.

github.com/compresh
Brevet en cours

Algorithme de compression

Episodic Memory Architecture — tags sémantiques liés aux tours, classification épistémique et compression progressive par score. C'est là que nous gagnons notre vie. Demande de brevet déposée (TR).

C'est ainsi que fonctionnent les standards ouverts — le protocole est libre, la meilleure implémentation fait la différence.

Restez proches

Nous construisons cela au grand jour. Suivez-nous ou contactez-nous directement.