Text chunker com sobreposição para pipelines RAG

crg@crg.eti.br (Cesar Gimenes) — Sat, 06 Jun 2026 11:57:59 -0300

Em pipeline de RAG (Retrieval-Augmented Generation) o primeiro passo é quase sempre o mesmo: pegar um texto grande e quebrar em pedaços antes de vetorizar. Os pedaços não podem ser grandes demais, porque o modelo tem limite de contexto, nem pequenos demais, porque aí o embedding perde semântica. E precisam ter sobreposição entre vizinhos, senão uma resposta que cai bem na fronteira fica espremida entre dois chunks e o retriever erra.

Rag on Cesar Gimenes

Text chunker com sobreposição para pipelines RAG