Los LLM olvidan.
Compresh recuerda.
Haga que las conversaciónes con IA vivan más.
Dónde estamos
Compresh tiene tres audiencias principales. Estamos en diferentes etapas con cada una.
Para constructores de agentes y chatbots
Si está construyendo herramientas que mantienen conversaciónes largas y de múltiples turnos con usuarios — agentes, copilotos, bots de atención al cliente — Compresh está listo para producción. Cambie su base_url y sus conversaciónes se comprimen automáticamente. Verá reducciones significativas de token en conversaciónes profundas en cuestión de horas.
Lo que necesitamos de usted: cargas de trabajo reales. Compresh aprende más rápido del tráfico de producción, no de benchmarks sintéticos.
Conéctenos →Para desarrolladores de RAG
La memoria episódica y la generación aumentada por recuperación comparten una pregunta común: ¿cómo se selecciona lo relevante? El enfoque basado en etiquetas de Compresh complementa RAG en algunos flujos de trabajo y reemplaza partes de él en otros. Las señales tempranas son prometedoras.
Si está resolviendo la recuperación a escala, nos gustaría probar la intersección juntos.
Probar la intersección →Para equipos que usan IA internamente
Si sus empleados usan ChatGPT, Claude o cualquier API de LLM para su trabajo diario, Compresh se coloca delante. Un cambio de base_url por desarrollador, una cuenta maestra para IT. Conversaciones comprimidas, ahorros en system prompts compartidos, analíticas de uso por empleado — sin cambiar la forma en que nadie trabaja.
Lo que necesitamos de usted: tamaño del equipo, casos de uso principales, requisitos de cumplimiento.
Pedir precios para equipo →Enterprise (SaaS multi-tenant, system prompts compartidos a escala) — en fase de definición con socios seleccionados. Si su plataforma envía un system prompt de 10K tokens en cada solicitud, contáctenos.
Pruebe Compresh
Vea la diferencia en vivo. Mismo prompt, mismo modelo — uno crudo, otro a través de Compresh.
Compresh no toca los primeros 4 turnos — todavía no hay nada que comprimir. El ahorro empieza en el turno 5 y crece con cada turno siguiente.
Tiene que olvidar. Por ahora.
No como un defecto — por diseño. Cada conversación, cada ventana de contexto, cada renacimiento desde cero.
Construimos agentes que necesitan "recordar" lo que se discutió hace tres turnos. La solución es fuerza bruta: enviar todo el historial cada vez. El modelo lo relee. Pagamos por ello. La latencia crece. El patrón se repite hasta que la ventana se llena.
Esto no es un "problema de escala." Es un problema estructural.
Lo que estamos pagando
Cada renacimiento tiene un precio:
Visible: Token. Los mismos párrafos, transmitidos miles de veces. La factura crece linealmente con lo interesante que se vuelve la conversación.
Invisible — tiempo: Un contexto largo implica inferencia lenta. El usuario espera. El presupuesto de latencia se reduce turno a turno.
Invisible — calidad: La atención se diluye. El modelo "ve" todo pero no se enfoca en nada. Investigaciones recientes lo llaman degradación de atención. La mayoría de los desarrolladores lo ha sentido.
Invisible — recursos: Cada token cuesta electricidad, agua, tiempo de silicio. La huella ambiental de la IA escala con la longitud de la conversación, no con su calidad.
Invisible — vida útil: Un modelo tiene una vida finita — su ventana de contexto. Cuando la ventana se llena, la conversación termina, o el modelo olvida. La mayoría de los equipos lo aceptan y empiezan de nuevo. Pero cada renacimiento cuesta lo mismo — re-incorporar el modelo, re-explicar el proyecto, re-establecer el contexto. La vida útil es el costo que nadie calcula, y el que mas se siente cuando la conversación choca contra el muro.
La solución es estructural
Compresh recuerda las conversaciónes como lo hacen los humanos — a través de anclas, no de transcripciones. No "toda la conversación hasta ahora" sino "lo que importó, lo que se decidió, lo que se corrigió."
Convertimos conversaciónes largas en memoria episódica estructurada:
- ▶ Nubes de etiquetas, no transcripciones
- ▶ Decisiones rastreadas, no solo mensajes
- ▶ Correcciones preservadas, no aplanadas en resúmenes
- ▶ La compresión ocurre antes de la llamada API — no dentro de ella
El resultado no es solo tokens más baratos. Es una forma diferente de transportar contexto en las conversaciónes — una en la que el historial no tiene que ser recontado para ser recordado. Las conversaciónes viven más. Los renacimientos ocurren con menos frecuencia. Cuando suceden, es porque el trabajo terminó — no porque la ventana se llenó.
Estamos construyendo esto abiertamente
El protocolo es abierto (TCCP — Tag Cloud Context Protocol). El proxy es de código abierto. El algoritmo de compresión está en proceso de patente y es propietario — ahí es donde generamos ingresos.
Si construye agentes, chatbots o asistentes sobre API de LLM, Compresh se sitúa entre usted y el proveedor. Una línea: cambie su base_url. Nosotros nos encargamos del resto.
Descubrimos algo. Desarrollémoslo juntos.
— Compresh
Integrate
Compresh fits in two ways. Pick the one that matches your environment — both run the same compression engine, only the privacy posture differs.
Drop-in proxy
Change your base_url to Compresh. Works when you control the client — OpenAI/Anthropic SDKs, raw HTTP, or IDEs that expose an API base URL setting.
- → Anthropic / OpenAI Python or JS SDK
- → Cursor, Aider, LangChain
- → Provider key passes through Compresh
Hook / MCP
Install a hook in your agent platform. Your provider key never leaves the machine — Compresh only sees the transcript fragment your hook reveals.
- → OpenClaw, Claude Code (soon), Cowork (soon)
- → Compresh-MCP runs locally
- → Provider key stays with you
Código abierto
Protocolo abierto, implementación diferenciada.
TCCP — Tag Cloud Context Protocol
El formato de transmisión y las convenciones para identidad de conversación y señalización de compresión. Cualquiera puede implementar un proxy o SDK compatible con TCCP.
github.com/compreshAlgoritmo de compresión
Episodic Memory Architecture — etiquetas semánticas vinculadas a turnos, clasificación epistémica y compresión progresiva con puntuación. Aquí es donde generamos ingresos. Solicitud de patente presentada (TR).
Así funcionan los estándares abiertos — el protocolo es libre, la mejor implementación compite.