← Voltar a Data Engineer — Indicium-AI

🟡 Data Quality & Reliability

Data Engineer — Indicium-AI

Apresentação

🧪 Data Quality & Reliability


Validação

  • Schema validation: Esperado vs recebido (ex: Great Expectations, dbt tests).
  • Checks: Not null, ranges, formatos (email, data).
  • Referential integrity: FKs válidas.

Idempotência

  • O quê: Executar a mesma job múltiplas vezes = mesmo resultado. Sem duplicados.
  • Como: Merge (upsert) em vez de append cego; chave única (ex: id + batch_id); truncate + load em batch.
  • Porque: Retries, re-runs não corrompem dados.

Retry Logic

  • Exponential backoff para falhas transitórias.
  • Max retries, dead-letter queue para falhas permanentes.
  • Idempotência no consumer para exactly-once semântico.

Monitoring

  • Latência da pipeline, taxa de falha.
  • Data freshness (última execução bem-sucedida).
  • Alertas: job falhou, dados atrasados, qualidade abaixo do threshold.

Zona de prática

Sem perguntas. Clica em Editar para adicionar.