What is the rag-chunking-strategy skill?

A collection of document chunking strategies designed to optimize RAG retrieval, including semantic, recursive, token-aware, and structure-aware approaches.

How do I choose between strategies?

Consider document structure and type, embedding model constraints, and whether you need semantic boundaries, code/markdown awareness, or fixed-size consistency.

What dependencies are required?

langchain-text-splitters and sentence-transformers (for semantic chunking).

rag-chunking-strategy

npx machina-cli add skill a5c-ai/babysitter/rag-chunking-strategy --openclaw

Files (1)

SKILL.md

1.5 KB

RAG Chunking Strategy Skill

Capabilities

Implement multiple document chunking strategies
Configure semantic chunking based on content boundaries
Set up recursive character text splitting
Design fixed-size chunking with overlap
Implement document-aware chunking (markdown, code, etc.)
Optimize chunk sizes for retrieval quality

Target Processes

rag-pipeline-implementation
chunking-strategy-design

Implementation Details

Chunking Strategies

RecursiveCharacterTextSplitter: Hierarchical splitting with separators
SemanticChunker: Embedding-based semantic boundaries
TokenTextSplitter: Token-aware splitting
MarkdownHeaderTextSplitter: Structure-aware markdown splitting
CodeSplitter: Language-aware code chunking

Configuration Options

Chunk size (characters or tokens)
Chunk overlap percentage
Separator hierarchy
Embedding model for semantic chunking
Document type detection

Best Practices

Match chunk size to embedding model limits
Use appropriate overlap for context preservation
Test retrieval quality with different strategies
Consider document structure in strategy selection

Dependencies

langchain-text-splitters
sentence-transformers (for semantic chunking)

Source

git clone https://github.com/a5c-ai/babysitter/blob/main/plugins/babysitter/skills/babysit/process/specializations/ai-agents-conversational/skills/rag-chunking-strategy/SKILL.md

View on GitHub

Overview

Implements multiple document chunking strategies to optimize retrieval quality in RAG pipelines. It covers semantic, recursive, token-aware, and structure-aware chunking, with fixed-size options and document-type awareness to handle markdown, code, and plain text.

How This Skill Works

Uses LangChain text splitters such as RecursiveCharacterTextSplitter, SemanticChunker, TokenTextSplitter, MarkdownHeaderTextSplitter, and CodeSplitter to produce chunks. Configuration includes chunk size, overlap, separator hierarchy, embedding model for semantic chunking, and document type detection.

When to Use It

Designing a RAG pipeline for large multi-section documents (PDFs, manuals) where semantic boundaries improve retrieval.
Handling code blocks or markdown docs with language-aware or header-based chunking.
Controlling context length by tuning chunk size and overlap to fit embedding model limits.
Comparing retrieval quality across different chunking strategies during a design or evaluation phase.
Working with mixed document types and needing document-type detection to apply the right splitter.

Quick Start

Step 1: Choose a chunking strategy (RecursiveCharacterTextSplitter, SemanticChunker, etc.) and detect document types.
Step 2: Configure chunk size, overlap, separator hierarchy, and embedding model for semantic chunking.
Step 3: Wire the chosen splitter into the rag-pipeline-implementation and validate retrieval results.

Best Practices

Match chunk size to the embedding model's token or character limits.
Use appropriate overlap to preserve context between adjacent chunks.
Test retrieval quality across multiple chunking strategies before deployment.
Leverage document-type detection to select the appropriate splitter for each section.
Benchmark chunking strategies against real user queries.

Example Use Cases

Knowledge base search over large manuals using SemanticChunker for accurate results.
Code search across a repository using CodeSplitter to keep code atoms intact.
Markdown documentation chunked by headers with MarkdownHeaderTextSplitter for navigable results.
Technical specs with RecursiveCharacterTextSplitter to preserve boundaries between sections.
Documents with mixed content using token-aware TokenTextSplitter for efficient retrieval.

Frequently Asked Questions

Add this skill to your agents