Apresentação
📋 Plano de Preparação — Indicium-AI (Data Migration)
📩 Contexto da entrevista (email Tiago)
Empresa: Indicium-AI Formato: 60 minutos, conversa técnica com Hiring Manager Objetivo: Avaliar profundidade técnica em:
| Área | Peso | O que avaliam |
|---|---|---|
| Migration work | 🔴 Alto | Estratégias, ferramentas, desafios, cutover, rollback |
| SQL | 🔴 Alto | Joins, window functions, queries complexas |
| Modelling | 🔴 Alto | Star/Snowflake, SCD, fact/dimension |
| Modern data tooling | 🟡 Médio | Spark, Lakehouse, cloud, pipelines |
Formato: Discussão técnica estruturada + exercícios curtos (whiteboarding / shared screen, pseudo-code apenas).
⏱️ Timeline — 60 minutos
| Min | Fase | O que acontece |
|---|---|---|
| 0–5 | Introdução | Apresentação, contexto do teu background |
| 5–25 | Migration | Estratégias, desafios, cutover, validação |
| 25–40 | SQL + Modelling | Deep dive, exercícios whiteboard (pseudo-code) |
| 40–55 | Tooling + Discussão | Spark, Lakehouse, trade-offs, cenários |
| 55–60 | Perguntas finais | Tu perguntas ao entrevistador |
🔴 Prioridade ALTÍSSIMA — Data Migration
Estratégias de migração
- Big Bang vs Phased (incremental) — trade-offs, quando cada um
- Lift-and-shift vs Refactor — migrar tal qual vs redesenhar
- Parallel run — correr antigo e novo em paralelo para validação
Desafios em migração
- Schema mapping (legacy → modern)
- Data quality (dados sujos na origem)
- Downtime e janelas de cutover
- Rollback — plano B se falhar
- Volume e performance (migrar TB em tempo aceitável)
Ferramentas e abordagens
- CDC (Change Data Capture) — Debezium, AWS DMS
- ETL/ELT para migração (Fivetran, custom Spark)
- Validação pós-migração (row count, checksums, amostragem)
- Cutover strategies (big bang, phased, blue-green)
Modelação em contexto de migração
- Redesenhar schema (normalizado → dimensional)?
- SCD ao migrar dimensões históricas
- Tratamento de dados duplicados ou inconsistentes na origem
🔴 Prioridade ALTÍSSIMA — SQL
- Joins (INNER, LEFT, quando cada um)
- Window functions (ROW_NUMBER, RANK, LAG, LEAD)
- Queries para deduplicação, top-N por grupo
- Agregações e subqueries
Nota: Exercícios em pseudo-code ou whiteboard — saber escrever/desenhar a lógica.
🔴 Prioridade ALTÍSSIMA — Modelling
- Star schema vs Snowflake
- Fact vs dimension tables
- SCD Type 1, 2, 3
- ETL vs ELT em contexto de migração
🟡 Prioridade alta — Modern Data Tooling
- Spark (partitions, joins, performance) — se migração envolver processamento em escala
- Lakehouse / Delta — destino comum de migrações
- Medallion (Bronze/Silver/Gold) — onde encaixar dados migrados
- Pipelines, orquestração (Airflow, Fabric)
✅ Checklist antes da entrevista
Migration
- Big Bang vs Phased — quando cada um
- Plano de rollback — o que fazer se falhar
- Validação pós-migração — como garantir que os dados batem certo
- CDC vs batch full load — quando usar
SQL
- ROW_NUMBER vs RANK — quando cada um
- LAG/LEAD — uso em comparação período a período
- Query para deduplicar (pseudo-code)
Modelling
- Star vs Snowflake — diferença
- SCD Type 2 — como implementar em migração
Geral
- 3-4 perguntas para fazer ao entrevistador
💬 Perguntas inteligentes para fazer
- "Que tipo de migrações estão a fazer — legacy para cloud, ou entre plataformas?"
- "Como validam que a migração foi bem-sucedida?"
- "Qual a estratégia de cutover que preferem — big bang ou phased?"
- "Que ferramentas usam para migração (DMS, Fivetran, custom)?"
- "Como lidam com dados de baixa qualidade na origem?"
Zona de prática
Sem perguntas. Clica em Editar para adicionar.