compresh

I LLM dimenticano.
Compresh ricorda.

Fate vivere più a lungo le conversazioni con l'IA.

Dove siamo

Compresh ha tre pubblici principali. Siamo a fasi diverse con ciascuno.

Pronto

Per chi costruisce agenti e chatbot

Se state costruendo strumenti che gestiscono conversazioni lunghe e a più turni con gli utenti — agenti, copiloti, bot di assistenza clienti — Compresh è pronto per la produzione. Cambiate il vostro base_url e le conversazioni vengono compresse automaticamente. Vedrete riduzioni significative di token nelle conversazioni profonde nel giro di poche ore.

Ciò di cui abbiamo bisogno da voi: carichi di lavoro reali. Compresh impara più velocemente dal traffico di produzione, non da benchmark sintetici.

Collegateci →
In esplorazione

Per sviluppatori RAG

La memoria episodica e la generazione aumentata da recupero condividono una domanda comune: come si seleziona ciò che è rilevante? L'approccio basato su tag di Compresh complementa RAG in alcuni flussi di lavoro e ne sostituisce parti in altri. I segnali iniziali sono promettenti.

Se state risolvendo il recupero su scala, ci piacerebbe testare la sovrapposizione insieme.

Testare la sovrapposizione →
Contattateci

Per team che usano IA internamente

Se i vostri dipendenti usano ChatGPT, Claude o qualsiasi API LLM per il lavoro quotidiano, Compresh si inserisce davanti. Un solo cambio di base_url per sviluppatore, un master account per l'IT. Conversazioni compresse, risparmi sui system prompt condivisi, analisi d'uso per dipendente — senza cambiare il modo in cui chiunque lavora.

Ciò di cui abbiamo bisogno da voi: dimensione del team, casi d'uso principali, requisiti di conformità.

Richiedi prezzi per team →

Enterprise (SaaS multi-tenant, system prompt condivisi su scala) — definendo l'ambito con partner selezionati. Se la vostra piattaforma invia un system prompt da 10K token a ogni richiesta, contattateci.

Provate Compresh

Vedete la differenza dal vivo. Stesso prompt, stesso modello — uno grezzo, uno attraverso Compresh.

Compresh non tocca i primi 4 turn — non c'è ancora nulla da comprimere. Il risparmio inizia al turn 5 e cresce a ogni turn successivo.

Model
System prompt
Without CompreshRaw
Responses will appear here...
With CompreshEMA
Responses will appear here...
Compresh activates after turn 4 — deeper conversations, bigger savings
Savings appear after turn 4
0/15 prompts usedLive · GPT-4o mini · 15 free per session

Deve dimenticare. Per ora.

Non per un difetto — per progettazione. Ogni conversazione, ogni finestra di contesto, ogni rinascita da zero.

Costruiamo agenti che devono "ricordare" ciò che è stato discusso tre turni fa. La soluzione è la forza bruta: inviare l'intera cronologia ogni volta. Il modello la rilegge. Paghiamo per questo. La latenza cresce. Lo schema si ripete finché la finestra non si riempie.

Questo non è un "problema di scala." È un problema strutturale.

memory
forget
structural

Ciò per cui stiamo pagando

Ogni rinascita ha un prezzo:

Visibile: Token. Gli stessi paragrafi, trasmessi migliaia di volte. Il conto cresce linearmente con quanto diventa interessante la conversazione.

tokens
latency

Invisibile — tempo: Un contesto lungo significa inferenza lenta. L'utente aspetta. Il budget di latenza si riduce turno dopo turno.

Invisibile — qualità: L'attenzione si diluisce. Il modello "vede" tutto ma non si concentra su nulla. Ricerche recenti la chiamano degradazione dell'attenzione. La maggior parte degli sviluppatori l'ha provata.

attention
energy

Invisibile — risorse: Ogni token costa elettricità, acqua, tempo di silicio. L'impronta ambientale dell'IA scala con la lunghezza della conversazione, non con la sua qualità.

Invisibile — durata: Un modello ha una vita finita — la sua finestra di contesto. Quando la finestra si riempie, la conversazione termina, oppure il modello dimentica. La maggior parte dei team accetta e ricomincia. Ma ogni rinascita costa lo stesso — re-inserire il modello, ri-spiegare il progetto, ri-stabilire il contesto. La durata è il costo che nessuno calcola, e quello che si sente di più quando la conversazione sbatte contro il muro.

La soluzione è strutturale

Compresh ricorda le conversazioni come fanno gli esseri umani — attraverso ancore, non trascrizioni. Non "l'intera conversazione fino ad ora" ma "ciò che ha contato, ciò che è stato deciso, ciò che è stato corretto."

decision
fact

Trasformiamo conversazioni lunghe in memoria episodica strutturata:

  • Nuvole di tag, non trascrizioni
  • Decisioni tracciate, non solo messaggi
  • Correzioni preservate, non appiattite in riassunti
  • La compressione avviene prima della chiamata API — non al suo interno
anchor

Il risultato non sono solo token più economici. È una forma diversa di trasportare il contesto nelle conversazioni — una in cui la cronologia non deve essere raccontata di nuovo per essere ricordata. Le conversazioni vivono più a lungo. Le rinascite avvengono meno spesso. Quando accadono, è perché il lavoro è finito — non perché la finestra si è riempita.

Stiamo costruendo tutto questo apertamente

Il protocollo è aperto (TCCP — Tag Cloud Context Protocol). Il proxy è open source. L'algoritmo di compressione è in attesa di brevetto e proprietario — ed è lì che generiamo ricavi.

Se costruite agenti, chatbot o assistenti su API LLM, Compresh si posiziona tra voi e il fornitore. Una riga: cambiate il vostro base_url. Al resto pensiamo noi.

Abbiamo scoperto qualcosa. Sviluppiamolo insieme.

protocol
proxy
invitation

— Compresh

Integrate

Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.

Direct SDK / IDE

Drop-in proxy

Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.

  • → Anthropic / OpenAI Python or JS SDK
  • → Cursor, Aider, LangChain
  • → Provider key passes through Compresh
Read integration docs
Managed agent

Hook / MCP

Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.

  • → OpenClaw, Claude Code (soon), Cowork (soon)
  • → Compresh-MCP runs locally
  • → Provider key stays with you
See hook docs

Open source

Protocollo aperto, implementazione differenziata.

Aperto

TCCP — Tag Cloud Context Protocol

Il formato di trasmissione e le convenzioni per l'identità della conversazione e la segnalazione della compressione. Chiunque può implementare un proxy o SDK compatibile con TCCP.

github.com/compresh
Brevetto in corso

Algoritmo di compressione

Episodic Memory Architecture — tag semantici collegati ai turni, classificazione epistemica e compressione progressiva con punteggio. È qui che generiamo ricavi. Domanda di brevetto depositata (TR).

Così funzionano gli standard aperti — il protocollo è libero, la migliore implementazione compete.

Restate vicini

Lo stiamo condividendo apertamente. Seguici o contattaci direttamente.