Apresentação
🧪 Data Quality & Reliability
Validação
- Schema validation: Esperado vs recebido (ex: Great Expectations, dbt tests).
- Checks: Not null, ranges, formatos (email, data).
- Referential integrity: FKs válidas.
Idempotência
- O quê: Executar a mesma job múltiplas vezes = mesmo resultado. Sem duplicados.
- Como: Merge (upsert) em vez de append cego; chave única (ex: id + batch_id); truncate + load em batch.
- Porque: Retries, re-runs não corrompem dados.
Retry Logic
- Exponential backoff para falhas transitórias.
- Max retries, dead-letter queue para falhas permanentes.
- Idempotência no consumer para exactly-once semântico.
Monitoring
- Latência da pipeline, taxa de falha.
- Data freshness (última execução bem-sucedida).
- Alertas: job falhou, dados atrasados, qualidade abaixo do threshold.
Zona de prática
Sem perguntas. Clica em Editar para adicionar.