🔴 Modelação de Dados

Data Engineer — Indicium-AI

Apresentação

Em contexto de migração: Redesenhar schema (normalizado → dimensional)? SCD ao migrar dimensões históricas? Tratamento de duplicados na origem?

Estrutura: Uma fact table central + várias dimension tables (normalizadas ao mínimo). Dimensões ligam diretamente à fact.
Prós: Queries simples, joins diretos, BI tools adoram. Performance em leitura.
Contras: Redundância nas dimensões.
Quando: Reporting, analytics, dashboards.

Estrutura: Dimensões normalizadas — sub-dimensões ligam a dimensões (ex: Região → País → Continente).
Prós: Menos redundância, armazenamento eficiente.
Contras: Mais joins, queries mais complexas.
Quando: Dados muito normalizados, menos redundância desejada.

O quê: Medidas e eventos (vendas, cliques, transações).
Contém: Foreign keys para dimensões + métricas (amount, quantity).
Granularidade: Uma linha = um evento ou agregado.
Exemplo: fact_sales (sale_id, date_id, product_id, customer_id, amount, quantity)

	ETL	ELT
Ordem	Extract → Transform → Load	Extract → Load → Transform
Onde transforma	Antes de carregar (staging, Spark)	No destino (DW, Lakehouse)
Quando	Dados sensíveis, transformação pesada	Lakehouse, cloud DW (Snowflake, BigQuery)
Vantagem	Controlo, PII antes de load	Escala do engine, menos movimento de dados

	Batch	Streaming
Processamento	Periódico (diário, horário)	Contínuo, evento a evento
Latência	Horas a dias	Segundos a minutos
Exemplos	ETL noturno, agregados	Kafka + Spark Streaming, Flink
Quando	Relatórios, histórico	Alertas, dashboards em tempo real

Híbrido: Lambda (batch + stream) ou Kappa (só stream).

Sem perguntas. Clica em Editar para adicionar.