Los LLM olvidan.
Compresh recuerda.

Haga que las conversaciónes con IA vivan más.

Dónde estamos

Compresh tiene tres audiencias principales. Estamos en diferentes etapas con cada una.

Listo

Para constructores de agentes y chatbots

Si está construyendo herramientas que mantienen conversaciónes largas y de múltiples turnos con usuarios — agentes, copilotos, bots de atención al cliente — Compresh está listo para producción. Cambie su base_url y sus conversaciónes se comprimen automáticamente. Verá reducciones significativas de token en conversaciónes profundas en cuestión de horas.

Lo que necesitamos de usted: cargas de trabajo reales. Compresh aprende más rápido del tráfico de producción, no de benchmarks sintéticos.

Conéctenos →

Explorando

Para desarrolladores de RAG

La memoria episódica y la generación aumentada por recuperación comparten una pregunta común: ¿cómo se selecciona lo relevante? El enfoque basado en etiquetas de Compresh complementa RAG en algunos flujos de trabajo y reemplaza partes de él en otros. Las señales tempranas son prometedoras.

Si está resolviendo la recuperación a escala, nos gustaría probar la intersección juntos.

Probar la intersección →

Contáctenos

Para equipos que usan IA internamente

Si sus empleados usan ChatGPT, Claude o cualquier API de LLM para su trabajo diario, Compresh se coloca delante. Un cambio de base_url por desarrollador, una cuenta maestra para IT. Conversaciones comprimidas, ahorros en system prompts compartidos, analíticas de uso por empleado — sin cambiar la forma en que nadie trabaja.

Lo que necesitamos de usted: tamaño del equipo, casos de uso principales, requisitos de cumplimiento.

Pedir precios para equipo →

Enterprise (SaaS multi-tenant, system prompts compartidos a escala) — en fase de definición con socios seleccionados. Si su plataforma envía un system prompt de 10K tokens en cada solicitud, contáctenos.

Pruebe Compresh

Vea la diferencia en vivo. Mismo prompt, mismo modelo — uno crudo, otro a través de Compresh.

Compresh no toca los primeros 4 turnos — todavía no hay nada que comprimir. El ahorro empieza en el turno 5 y crece con cada turno siguiente.

Model

System prompt

Without CompreshRaw

Responses will appear here...

With CompreshEMA

Responses will appear here...

Compresh activates after turn 4 — deeper conversations, bigger savings

Savings appear after turn 4

0/15 prompts usedLive · GPT-4o mini · 15 free per session

Tiene que olvidar. Por ahora.

No como un defecto — por diseño. Cada conversación, cada ventana de contexto, cada renacimiento desde cero.

Construimos agentes que necesitan "recordar" lo que se discutió hace tres turnos. La solución es fuerza bruta: enviar todo el historial cada vez. El modelo lo relee. Pagamos por ello. La latencia crece. El patrón se repite hasta que la ventana se llena.

Esto no es un "problema de escala." Es un problema estructural.

memory

forget

structural

Lo que estamos pagando

Cada renacimiento tiene un precio:

Visible: Token. Los mismos párrafos, transmitidos miles de veces. La factura crece linealmente con lo interesante que se vuelve la conversación.

tokens

latency

Invisible — tiempo: Un contexto largo implica inferencia lenta. El usuario espera. El presupuesto de latencia se reduce turno a turno.

Invisible — calidad: La atención se diluye. El modelo "ve" todo pero no se enfoca en nada. Investigaciones recientes lo llaman degradación de atención. La mayoría de los desarrolladores lo ha sentido.

attention

energy

Invisible — recursos: Cada token cuesta electricidad, agua, tiempo de silicio. La huella ambiental de la IA escala con la longitud de la conversación, no con su calidad.

Invisible — vida útil: Un modelo tiene una vida finita — su ventana de contexto. Cuando la ventana se llena, la conversación termina, o el modelo olvida. La mayoría de los equipos lo aceptan y empiezan de nuevo. Pero cada renacimiento cuesta lo mismo — re-incorporar el modelo, re-explicar el proyecto, re-establecer el contexto. La vida útil es el costo que nadie calcula, y el que mas se siente cuando la conversación choca contra el muro.

La solución es estructural

Compresh recuerda las conversaciónes como lo hacen los humanos — a través de anclas, no de transcripciones. No "toda la conversación hasta ahora" sino "lo que importó, lo que se decidió, lo que se corrigió."

decision

fact

Convertimos conversaciónes largas en memoria episódica estructurada:

▶ Nubes de etiquetas, no transcripciones
▶ Decisiones rastreadas, no solo mensajes
▶ Correcciones preservadas, no aplanadas en resúmenes
▶ La compresión ocurre antes de la llamada API — no dentro de ella

anchor

El resultado no es solo tokens más baratos. Es una forma diferente de transportar contexto en las conversaciónes — una en la que el historial no tiene que ser recontado para ser recordado. Las conversaciónes viven más. Los renacimientos ocurren con menos frecuencia. Cuando suceden, es porque el trabajo terminó — no porque la ventana se llenó.

Estamos construyendo esto abiertamente

El protocolo es abierto (TCCP — Tag Cloud Context Protocol). El proxy es de código abierto. El algoritmo de compresión está en proceso de patente y es propietario — ahí es donde generamos ingresos.

Si construye agentes, chatbots o asistentes sobre API de LLM, Compresh se sitúa entre usted y el proveedor. Una línea: cambie su base_url. Nosotros nos encargamos del resto.

Descubrimos algo. Desarrollémoslo juntos.

protocol

proxy

invitation

— Compresh

Integrate

Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.

Direct SDK / IDE

Drop-in proxy

Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.

→ Anthropic / OpenAI Python or JS SDK
→ Cursor, Aider, LangChain
→ Provider key passes through Compresh

Read integration docs

Managed agent

Hook / MCP

Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.

→ OpenClaw, Claude Code (soon), Cowork (soon)
→ Compresh-MCP runs locally
→ Provider key stays with you

See hook docs

Get an API key Read the docs

Código abierto

Protocolo abierto, implementación diferenciada.

Abierto

TCCP — Tag Cloud Context Protocol

El formato de transmisión y las convenciones para identidad de conversación y señalización de compresión. Cualquiera puede implementar un proxy o SDK compatible con TCCP.

github.com/compresh

Patente en trámite

Algoritmo de compresión

Episodic Memory Architecture — etiquetas semánticas vinculadas a turnos, clasificación epistémica y compresión progresiva con puntuación. Aquí es donde generamos ingresos. Solicitud de patente presentada (TR).

Así funcionan los estándares abiertos — el protocolo es libre, la mejor implementación compite.

Manténgase cerca

Lo estamos compartiendo abiertamente. Síguenos o contáctanos directamente.

Los LLM olvidan. Compresh recuerda.