← Voltar a Data Engineer — Indicium-AI

📋 Guia de Estudo — Começa aqui

Data Engineer — Indicium-AI

Apresentação

📋 Plano de Preparação — Indicium-AI (Data Migration)

📩 Contexto da entrevista (email Tiago)

Empresa: Indicium-AI Formato: 60 minutos, conversa técnica com Hiring Manager Objetivo: Avaliar profundidade técnica em:

ÁreaPesoO que avaliam
Migration work🔴 AltoEstratégias, ferramentas, desafios, cutover, rollback
SQL🔴 AltoJoins, window functions, queries complexas
Modelling🔴 AltoStar/Snowflake, SCD, fact/dimension
Modern data tooling🟡 MédioSpark, Lakehouse, cloud, pipelines

Formato: Discussão técnica estruturada + exercícios curtos (whiteboarding / shared screen, pseudo-code apenas).


⏱️ Timeline — 60 minutos

MinFaseO que acontece
0–5IntroduçãoApresentação, contexto do teu background
5–25MigrationEstratégias, desafios, cutover, validação
25–40SQL + ModellingDeep dive, exercícios whiteboard (pseudo-code)
40–55Tooling + DiscussãoSpark, Lakehouse, trade-offs, cenários
55–60Perguntas finaisTu perguntas ao entrevistador

🔴 Prioridade ALTÍSSIMA — Data Migration

Estratégias de migração

  • Big Bang vs Phased (incremental) — trade-offs, quando cada um
  • Lift-and-shift vs Refactor — migrar tal qual vs redesenhar
  • Parallel run — correr antigo e novo em paralelo para validação

Desafios em migração

  • Schema mapping (legacy → modern)
  • Data quality (dados sujos na origem)
  • Downtime e janelas de cutover
  • Rollback — plano B se falhar
  • Volume e performance (migrar TB em tempo aceitável)

Ferramentas e abordagens

  • CDC (Change Data Capture) — Debezium, AWS DMS
  • ETL/ELT para migração (Fivetran, custom Spark)
  • Validação pós-migração (row count, checksums, amostragem)
  • Cutover strategies (big bang, phased, blue-green)

Modelação em contexto de migração

  • Redesenhar schema (normalizado → dimensional)?
  • SCD ao migrar dimensões históricas
  • Tratamento de dados duplicados ou inconsistentes na origem

🔴 Prioridade ALTÍSSIMA — SQL

  • Joins (INNER, LEFT, quando cada um)
  • Window functions (ROW_NUMBER, RANK, LAG, LEAD)
  • Queries para deduplicação, top-N por grupo
  • Agregações e subqueries

Nota: Exercícios em pseudo-code ou whiteboard — saber escrever/desenhar a lógica.


🔴 Prioridade ALTÍSSIMA — Modelling

  • Star schema vs Snowflake
  • Fact vs dimension tables
  • SCD Type 1, 2, 3
  • ETL vs ELT em contexto de migração

🟡 Prioridade alta — Modern Data Tooling

  • Spark (partitions, joins, performance) — se migração envolver processamento em escala
  • Lakehouse / Delta — destino comum de migrações
  • Medallion (Bronze/Silver/Gold) — onde encaixar dados migrados
  • Pipelines, orquestração (Airflow, Fabric)

✅ Checklist antes da entrevista

Migration

  • Big Bang vs Phased — quando cada um
  • Plano de rollback — o que fazer se falhar
  • Validação pós-migração — como garantir que os dados batem certo
  • CDC vs batch full load — quando usar

SQL

  • ROW_NUMBER vs RANK — quando cada um
  • LAG/LEAD — uso em comparação período a período
  • Query para deduplicar (pseudo-code)

Modelling

  • Star vs Snowflake — diferença
  • SCD Type 2 — como implementar em migração

Geral

  • 3-4 perguntas para fazer ao entrevistador

💬 Perguntas inteligentes para fazer

  1. "Que tipo de migrações estão a fazer — legacy para cloud, ou entre plataformas?"
  2. "Como validam que a migração foi bem-sucedida?"
  3. "Qual a estratégia de cutover que preferem — big bang ou phased?"
  4. "Que ferramentas usam para migração (DMS, Fivetran, custom)?"
  5. "Como lidam com dados de baixa qualidade na origem?"

Zona de prática

Sem perguntas. Clica em Editar para adicionar.