I LLM dimenticano.
Compresh ricorda.
Fate vivere più a lungo le conversazioni con l'IA.
Dove siamo
Compresh ha tre pubblici principali. Siamo a fasi diverse con ciascuno.
Per chi costruisce agenti e chatbot
Se state costruendo strumenti che gestiscono conversazioni lunghe e a più turni con gli utenti — agenti, copiloti, bot di assistenza clienti — Compresh è pronto per la produzione. Cambiate il vostro base_url e le conversazioni vengono compresse automaticamente. Vedrete riduzioni significative di token nelle conversazioni profonde nel giro di poche ore.
Ciò di cui abbiamo bisogno da voi: carichi di lavoro reali. Compresh impara più velocemente dal traffico di produzione, non da benchmark sintetici.
Collegateci →Per sviluppatori RAG
La memoria episodica e la generazione aumentata da recupero condividono una domanda comune: come si seleziona ciò che è rilevante? L'approccio basato su tag di Compresh complementa RAG in alcuni flussi di lavoro e ne sostituisce parti in altri. I segnali iniziali sono promettenti.
Se state risolvendo il recupero su scala, ci piacerebbe testare la sovrapposizione insieme.
Testare la sovrapposizione →Per team che usano IA internamente
Se i vostri dipendenti usano ChatGPT, Claude o qualsiasi API LLM per il lavoro quotidiano, Compresh si inserisce davanti. Un solo cambio di base_url per sviluppatore, un master account per l'IT. Conversazioni compresse, risparmi sui system prompt condivisi, analisi d'uso per dipendente — senza cambiare il modo in cui chiunque lavora.
Ciò di cui abbiamo bisogno da voi: dimensione del team, casi d'uso principali, requisiti di conformità.
Richiedi prezzi per team →Enterprise (SaaS multi-tenant, system prompt condivisi su scala) — definendo l'ambito con partner selezionati. Se la vostra piattaforma invia un system prompt da 10K token a ogni richiesta, contattateci.
Provate Compresh
Vedete la differenza dal vivo. Stesso prompt, stesso modello — uno grezzo, uno attraverso Compresh.
Compresh non tocca i primi 4 turn — non c'è ancora nulla da comprimere. Il risparmio inizia al turn 5 e cresce a ogni turn successivo.
Deve dimenticare. Per ora.
Non per un difetto — per progettazione. Ogni conversazione, ogni finestra di contesto, ogni rinascita da zero.
Costruiamo agenti che devono "ricordare" ciò che è stato discusso tre turni fa. La soluzione è la forza bruta: inviare l'intera cronologia ogni volta. Il modello la rilegge. Paghiamo per questo. La latenza cresce. Lo schema si ripete finché la finestra non si riempie.
Questo non è un "problema di scala." È un problema strutturale.
Ciò per cui stiamo pagando
Ogni rinascita ha un prezzo:
Visibile: Token. Gli stessi paragrafi, trasmessi migliaia di volte. Il conto cresce linearmente con quanto diventa interessante la conversazione.
Invisibile — tempo: Un contesto lungo significa inferenza lenta. L'utente aspetta. Il budget di latenza si riduce turno dopo turno.
Invisibile — qualità: L'attenzione si diluisce. Il modello "vede" tutto ma non si concentra su nulla. Ricerche recenti la chiamano degradazione dell'attenzione. La maggior parte degli sviluppatori l'ha provata.
Invisibile — risorse: Ogni token costa elettricità, acqua, tempo di silicio. L'impronta ambientale dell'IA scala con la lunghezza della conversazione, non con la sua qualità.
Invisibile — durata: Un modello ha una vita finita — la sua finestra di contesto. Quando la finestra si riempie, la conversazione termina, oppure il modello dimentica. La maggior parte dei team accetta e ricomincia. Ma ogni rinascita costa lo stesso — re-inserire il modello, ri-spiegare il progetto, ri-stabilire il contesto. La durata è il costo che nessuno calcola, e quello che si sente di più quando la conversazione sbatte contro il muro.
La soluzione è strutturale
Compresh ricorda le conversazioni come fanno gli esseri umani — attraverso ancore, non trascrizioni. Non "l'intera conversazione fino ad ora" ma "ciò che ha contato, ciò che è stato deciso, ciò che è stato corretto."
Trasformiamo conversazioni lunghe in memoria episodica strutturata:
- ▶ Nuvole di tag, non trascrizioni
- ▶ Decisioni tracciate, non solo messaggi
- ▶ Correzioni preservate, non appiattite in riassunti
- ▶ La compressione avviene prima della chiamata API — non al suo interno
Il risultato non sono solo token più economici. È una forma diversa di trasportare il contesto nelle conversazioni — una in cui la cronologia non deve essere raccontata di nuovo per essere ricordata. Le conversazioni vivono più a lungo. Le rinascite avvengono meno spesso. Quando accadono, è perché il lavoro è finito — non perché la finestra si è riempita.
Stiamo costruendo tutto questo apertamente
Il protocollo è aperto (TCCP — Tag Cloud Context Protocol). Il proxy è open source. L'algoritmo di compressione è in attesa di brevetto e proprietario — ed è lì che generiamo ricavi.
Se costruite agenti, chatbot o assistenti su API LLM, Compresh si posiziona tra voi e il fornitore. Una riga: cambiate il vostro base_url. Al resto pensiamo noi.
Abbiamo scoperto qualcosa. Sviluppiamolo insieme.
— Compresh
Integrate
Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.
Drop-in proxy
Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.
- → Anthropic / OpenAI Python or JS SDK
- → Cursor, Aider, LangChain
- → Provider key passes through Compresh
Hook / MCP
Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.
- → OpenClaw, Claude Code (soon), Cowork (soon)
- → Compresh-MCP runs locally
- → Provider key stays with you
Open source
Protocollo aperto, implementazione differenziata.
TCCP — Tag Cloud Context Protocol
Il formato di trasmissione e le convenzioni per l'identità della conversazione e la segnalazione della compressione. Chiunque può implementare un proxy o SDK compatibile con TCCP.
github.com/compreshAlgoritmo di compressione
Episodic Memory Architecture — tag semantici collegati ai turni, classificazione epistemica e compressione progressiva con punteggio. È qui che generiamo ricavi. Domanda di brevetto depositata (TR).
Così funzionano gli standard aperti — il protocollo è libero, la migliore implementazione compete.