Les LLM oublient.
Compresh se souvient.
Faites vivre vos conversations IA plus longtemps.
Où nous en sommes
Compresh s'adresse à trois publics principaux. Nous en sommes à des stades différents avec chacun.
Pour les créateurs d'agents et de chatbots
Si vous construisez des outils qui maintiennent de longues conversations multi-tours avec les utilisateurs — agents, copilotes, bots de service client — Compresh est prêt pour la production. Changez votre base_url, et vos conversations sont compressées automatiquement. Vous constaterez des réductions significatives de tokens sur les conversations profondes en quelques heures.
Ce que nous attendons de vous : des charges de travail réelles. Compresh apprend plus vite à partir du trafic de production que des benchmarks synthétiques.
Intégrez-nous →Pour les développeurs RAG
La mémoire épisodique et la génération augmentée par récupération partagent une question commune : comment sélectionner ce qui est pertinent ? L'approche par tags de Compresh complète le RAG dans certains workflows, en remplace des parties dans d'autres. Les premiers signaux sont prometteurs.
Si vous travaillez sur la récupération à grande échelle, nous aimerions tester le chevauchement ensemble.
Tester le chevauchement →Pour les équipes utilisant l'IA en interne
Si vos employés utilisent ChatGPT, Claude ou n'importe quelle API LLM pour leur travail quotidien, Compresh s'intercale en amont. Un seul changement de base_url par développeur, un seul compte maître pour l'IT. Conversations compressées, économies sur les prompts système partagés, analyses d'usage par employé — sans changer la façon dont chacun travaille.
Ce qu'il nous faut de vous : taille de l'équipe, principaux cas d'usage, exigences de conformité.
Demander des tarifs équipe →Entreprise (SaaS multi-locataire, prompts système partagés à grande échelle) — en cours de cadrage avec des partenaires sélectionnés. Si votre plateforme envoie un prompt système de 10K tokens à chaque requête, contactez-nous.
Essayer Compresh
Voyez la différence en direct. Même prompt, même modèle — l'un brut, l'autre via Compresh.
Compresh ne touche pas aux 4 premiers tours — il n'y a encore rien à compresser. Les économies commencent au tour 5 et grandissent à chaque tour suivant.
Il doit oublier. Pour l'instant.
Pas par défaut — par conception. Chaque conversation, chaque fenêtre de contexte, chaque renaissance à partir de zéro.
Nous construisons des agents qui doivent « se souvenir » de ce qui a été discuté trois tours plus tôt. La solution est la force brute : envoyer l'historique complet à chaque fois. Le modèle le relit. Nous payons pour cela. La latence augmente. Le schéma se répète jusqu'à ce que la fenêtre soit pleine.
Ce n'est pas un « problème de passage à l'échelle ». C'est un problème structurel.
Ce que nous payons réellement
Chaque renaissance a un prix :
Visible : Les tokens. Les mêmes paragraphes, transmis des milliers de fois. La facture croît linéairement à mesure que votre conversation devient intéressante.
Invisible — le temps : Un long contexte signifie une inférence lente. Votre utilisateur attend. Votre budget de latence se réduit tour après tour.
Invisible — la qualité : L'attention se dilue. Le modèle « voit » tout mais ne se concentre sur rien. La recherche récente appelle cela la dégradation de l'attention. La plupart des développeurs l'ont ressenti.
Invisible — les ressources : Chaque token coûte de l'électricité, de l'eau, du temps de calcul. L'empreinte environnementale de l'IA évolue avec la longueur de la conversation, pas avec sa qualité.
Invisible — la durée de vie : Un modèle a une durée de vie finie — sa fenêtre de contexte. Quand la fenêtre se remplit, la conversation s'arrête, ou le modèle oublie. La plupart des équipes acceptent cela et repartent de zéro. Mais chaque renaissance coûte le même prix — réintégrer le modèle, réexpliquer le projet, rétablir le contexte. La durée de vie est le coût que personne ne chiffre, et celui que vous ressentez le plus quand la conversation heurte le mur.
La solution est structurelle
Compresh mémorise les conversations comme le font les humains — par des ancres, pas par des transcriptions. Non pas « toute la conversation jusqu'ici » mais « ce qui comptait, ce qui a été décidé, ce qui a été corrigé ».
Nous transformons les longues conversations en mémoire épisodique structurée :
- ▶ Des nuages de tags, pas des transcriptions
- ▶ Les décisions sont suivies, pas seulement les messages
- ▶ Les corrections sont préservées, pas aplaties en résumés
- ▶ La compression intervient avant l'appel API — pas à l'intérieur
Le résultat ne se limite pas à des tokens moins chers. C'est une forme différente de porter le contexte dans les conversations — une forme où l'historique n'a pas besoin d'être raconté à nouveau pour être mémorisé. Les conversations vivent plus longtemps. Les renaissances surviennent moins souvent. Quand elles surviennent, c'est parce que le travail est terminé — pas parce que la fenêtre s'est remplie.
Nous construisons cela au grand jour
Le protocole est ouvert (TCCP — Tag Cloud Context Protocol). Le proxy est open source. L'algorithme de compression est en cours de brevetage et propriétaire — c'est là que nous gagnons notre vie.
Si vous construisez des agents, des chatbots ou des assistants par-dessus les API LLM, Compresh s'intercale entre vous et le fournisseur. Une seule ligne : changez votre base_url. Nous nous occupons du reste.
Nous avons découvert quelque chose. Développons-le ensemble.
— Compresh
Integrate
Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.
Drop-in proxy
Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.
- → Anthropic / OpenAI Python or JS SDK
- → Cursor, Aider, LangChain
- → Provider key passes through Compresh
Hook / MCP
Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.
- → OpenClaw, Claude Code (soon), Cowork (soon)
- → Compresh-MCP runs locally
- → Provider key stays with you
Open source
Protocole ouvert, implémentation différenciée.
TCCP — Tag Cloud Context Protocol
Le format de transmission et les conventions pour l'identité de conversation et la signalisation de compression. N'importe qui peut implémenter un proxy ou un SDK compatible TCCP.
github.com/compreshAlgorithme de compression
Episodic Memory Architecture — tags sémantiques liés aux tours, classification épistémique et compression progressive par score. C'est là que nous gagnons notre vie. Demande de brevet déposée (TR).
C'est ainsi que fonctionnent les standards ouverts — le protocole est libre, la meilleure implémentation fait la différence.