What is memory-summarization?

A skill that creates concise summaries of conversations to compress history and manage context for memory systems.

How does it stay within token limits?

It uses a token-budget, rolling and hierarchical summarization, and can generate extractive or abstractive summaries to fit the limit.

What outputs does it produce?

A structured summary updated over time, plus a quality evaluation and a template for retrieval.

memory-summarization

npx machina-cli add skill a5c-ai/babysitter/memory-summarization --openclaw

Files (1)

SKILL.md

1.2 KB

Memory Summarization Skill

Capabilities

Implement conversation summarization strategies
Configure rolling summary updates
Design hierarchical summarization
Implement token-aware summarization
Create extractive and abstractive summaries
Design summary quality evaluation

Target Processes

conversational-memory-system
long-term-memory-management

Implementation Details

Summarization Strategies

Rolling Summary: Update summary with new messages
Hierarchical: Multi-level summarization
Token-Budget: Fit within token limits
Extractive: Key message selection
Abstractive: LLM-generated summaries

Configuration Options

LLM for summarization
Summary token budget
Update frequency
Summary template
Quality thresholds

Best Practices

Balance detail vs compression
Preserve key information
Monitor summary quality
Test with long conversations
Handle context window limits

Dependencies

langchain-core
LLM provider

Source

git clone https://github.com/a5c-ai/babysitter/blob/main/plugins/babysitter/skills/babysit/process/specializations/ai-agents-conversational/skills/memory-summarization/SKILL.md

View on GitHub

Overview

Implements conversation summarization to compress dialogue and manage context for memory systems. It supports rolling, hierarchical, token-aware strategies, and both extractive and abstractive summaries to keep essential details while staying within token limits.

How This Skill Works

The skill applies rolling summaries that update with new messages and uses hierarchical levels to organize context. It enforces a token budget, selects extractive key ideas, and can generate abstractive summaries via an LLM, guided by a configurable template and quality thresholds.

When to Use It

During long-running conversations where the dialogue exceeds token limits.
When updating memory with new messages via rolling summaries.
When organizing summaries across multiple levels (hierarchical) for fast retrieval.
When enforcing a token budget to fit within model limits.
When evaluating and refining summary quality against thresholds.

Quick Start

Step 1: Configure the skill with your LLM, token budget, and update frequency.
Step 2: Choose a strategy (rolling, hierarchical, extractive/abstractive) and set a summary template.
Step 3: Run a test with long conversations and monitor summary quality, adjusting thresholds as needed.

Best Practices

Balance detail vs compression to keep essential context.
Preserve key information while removing redundancy.
Monitor summary quality and adjust LLM parameters.
Test with long conversations to validate performance.
Handle context window limits by applying hierarchical or rolling summaries.

Example Use Cases

A customer support chatbot that summarizes chats to fit a memory budget.
A personal AI assistant that maintains long-term memory across sessions.
A research assistant that condenses multi-hour interviews for later analysis.
A meeting assistant that compresses agendas and decisions for quick recall.
A tutoring AI that tracks student progress over weeks and summarizes sessions.

Frequently Asked Questions

Add this skill to your agents