← Voltar a RAG — Arquitetura de Ingestion e Retrieval

🔄 Pipelines de Ingestão

RAG — Arquitetura de Ingestion e Retrieval

Apresentação

3. Pipelines por Backend


3.1 Document Pipeline

Para md, txt, pdf, yaml textualizado.

Etapas

  1. Parse
  2. Normalize
  3. Assign logical ID
  4. Versioning
  5. Diff por documento / chunk
  6. Metadata update
  7. Chunk plan
  8. Trigger re-embedding / re-index

Casos

CasoAção
Documento novoCriar logical_id, version=1, chunking, indexar
Documento alteradoNova versão, comparar por chunks, reusar chunks iguais, reindexar só alterados
Documento apagadoMarcar inactive, remover da vista ativa, manter histórico

Fluxo Detalhado

DocumentRecord → parse → normalize → chunk plan → chunk diff → re-embed alterados → index update

3.2 SQL Pipeline

Para dados estruturados (tabelas, CSV importado).

Etapas

  1. Schema validation
  2. Record normalization
  3. Dedupe
  4. Upsert ou SCD Type 2
  5. Lineage e timestamps
  6. Trigger de views analíticas

Estratégias

Tipo de tabelaEstratégia
OperacionaisUpsert simples
Históricas / importantesSCD Type 2 (valid_from, valid_to)

Deletes

Nunca apagar fisicamente logo no início. Preferir:

  • is_active = false
  • ou valid_to = now()

Fluxo Detalhado

StructuredRecord → validate schema → dedupe → upsert/SCD2 → freshness update → views

3.3 Graph Pipeline

Para relações (nós e edges).

Etapas

  1. Mapear entidades (nós)
  2. Mapear edges (relações)
  3. Validar referências (from_id, to_id existem)
  4. Diff de nós/arestas
  5. Update ou versioning
  6. Rebuild parcial de projections se necessário

Casos

CasoAção
Nova relaçãoInserir edge
Relação alteradaSubstituir edge ativa ou fechar antiga e criar nova
Nó apagadoMarcar inativo, definir política para edges dependentes

Fluxo Detalhado

GraphRecord → validate refs → node/edge diff → upsert/versioning → projection update

Fluxo Conjunto

                    +------+--------+
                    | Document      |
                    | Pipeline      |
                    +------+--------+
                           |
      Canonical Model      +--------------------+
              |                                 |
              v                                 v
      +------+--------+              +---------+--------+
      | SQL Pipeline |              | Graph Pipeline    |
      +------+--------+              +---------+--------+
              |                                 |
              +-------------+-------------------+
                            |
                            v
                   Registry / Lineage /
                   Dependency Store

Zona de prática

Sem perguntas. Clica em Editar para adicionar.