← Voltar a RAG — Arquitetura de Ingestion e Retrieval

📦 Registry e Dependências

RAG — Arquitetura de Ingestion e Retrieval

Apresentação

5. Registry Central e Dependency Tracking


Asset Registry

Um registry central de ativos onde cada asset pode ser:

  • Documento
  • Tabela
  • Row group
  • Edge set
  • Source file

Exemplo de registo

{
  "asset_id": "doc_security_policy",
  "asset_type": "document",
  "logical_id": "security_policy",
  "current_version": 3,
  "status": "active",
  "source_type": "markdown",
  "source_path": "data/docs/security_policy.md",
  "checksum": "...",
  "last_ingested_at": "...",
  "embedding_version": "e5-large-v2",
  "chunking_version": "semantic_v1",
  "dependencies": ["policy_security_rules", "team_security"],
  "derived_assets": ["chunkset_security_policy_v3"]
}

Campos úteis

CampoUso
asset_idIdentificador único
asset_typedocument, table, graph, file
logical_idID estável entre versões
current_versionÚltima versão ativa
statusactive, inactive, retired
checksumPara change detection
embedding_versionModelo de embedding usado
chunking_versionEstratégia de chunking
dependenciesAssets dos quais depende
derived_assetsAssets gerados a partir deste

Benefícios

  • Saber o que mudou
  • Saber o que reindexar
  • Rollback
  • Debugging

Dependency Tracking

Guardar dependências entre ativos.

Exemplos

AssetDepende de
security_policy.mdpolicies.yaml
service_catalog.mdservices.yaml
neo4j_edges.csvteams.yaml, services.yaml, dependencies.yaml

Quando muda services.yaml

  1. Dependency tracker identifica impactados
  2. Documentos a regenerar
  3. Tabelas a atualizar
  4. Grafo a recalcular

Estrutura de dependência

policies.yaml
    └── security_policy.md
    └── expense_policy.md

services.yaml
    └── service_catalog.md
    └── team_service_ownership (SQL)
    └── neo4j_edges (graph)

dependencies.yaml
    └── neo4j_edges (graph)
    └── architecture_overview.md

Uso no reprocessamento

Quando uma fonte muda:

  1. Consultar dependency tracker
  2. Obter lista de assets impactados
  3. Ordenar por dependências (topological sort)
  4. Reprocessar na ordem correta

Zona de prática

Sem perguntas. Clica em Editar para adicionar.