← Voltar a RAG — Arquitetura de Ingestion e Retrieval
🔄 Pipelines de Ingestão
RAG — Arquitetura de Ingestion e RetrievalApresentação
3. Pipelines por Backend
3.1 Document Pipeline
Para md, txt, pdf, yaml textualizado.
Etapas
- Parse
- Normalize
- Assign logical ID
- Versioning
- Diff por documento / chunk
- Metadata update
- Chunk plan
- Trigger re-embedding / re-index
Casos
| Caso | Ação |
|---|---|
| Documento novo | Criar logical_id, version=1, chunking, indexar |
| Documento alterado | Nova versão, comparar por chunks, reusar chunks iguais, reindexar só alterados |
| Documento apagado | Marcar inactive, remover da vista ativa, manter histórico |
Fluxo Detalhado
DocumentRecord → parse → normalize → chunk plan → chunk diff → re-embed alterados → index update
3.2 SQL Pipeline
Para dados estruturados (tabelas, CSV importado).
Etapas
- Schema validation
- Record normalization
- Dedupe
- Upsert ou SCD Type 2
- Lineage e timestamps
- Trigger de views analíticas
Estratégias
| Tipo de tabela | Estratégia |
|---|---|
| Operacionais | Upsert simples |
| Históricas / importantes | SCD Type 2 (valid_from, valid_to) |
Deletes
Nunca apagar fisicamente logo no início. Preferir:
is_active = false- ou
valid_to = now()
Fluxo Detalhado
StructuredRecord → validate schema → dedupe → upsert/SCD2 → freshness update → views
3.3 Graph Pipeline
Para relações (nós e edges).
Etapas
- Mapear entidades (nós)
- Mapear edges (relações)
- Validar referências (from_id, to_id existem)
- Diff de nós/arestas
- Update ou versioning
- Rebuild parcial de projections se necessário
Casos
| Caso | Ação |
|---|---|
| Nova relação | Inserir edge |
| Relação alterada | Substituir edge ativa ou fechar antiga e criar nova |
| Nó apagado | Marcar inativo, definir política para edges dependentes |
Fluxo Detalhado
GraphRecord → validate refs → node/edge diff → upsert/versioning → projection update
Fluxo Conjunto
+------+--------+
| Document |
| Pipeline |
+------+--------+
|
Canonical Model +--------------------+
| |
v v
+------+--------+ +---------+--------+
| SQL Pipeline | | Graph Pipeline |
+------+--------+ +---------+--------+
| |
+-------------+-------------------+
|
v
Registry / Lineage /
Dependency Store
Zona de prática
Sem perguntas. Clica em Editar para adicionar.