Data Platform Moderna
LakehouseApresentação
🏗️ BLOCO 6 — Data Platform Moderna
1️⃣ O que é uma Data Platform moderna
Uma Data Platform é a infraestrutura que permite:
- ingestão de dados
- armazenamento
- processamento
- transformação
- análise
- exposição para BI / ML
Arquitetura típica:
Sources
↓
Ingestion
↓
Data Lake
↓
Processing
↓
Warehouse / Lakehouse
↓
BI / ML / APIs
Fontes comuns: applications, databases, logs, APIs, IoT, files
2️⃣ Componentes de uma plataforma de dados
Uma plataforma moderna tem 6 camadas principais.
1 — Ingestion Layer
Responsável por trazer dados para a plataforma.
Batch: CSV uploads, daily exports, database dumps
Streaming: clickstream, IoT sensors, application logs
Ferramentas: Airflow, Data Factory, Kafka, PubSub, Event Hubs
2 — Data Lake Storage
Onde os dados são guardados.
Características: cheap, scalable, schema-on-read
Formatos: Parquet, Delta, Iceberg
Estrutura típica: raw/ → bronze/ → silver/ → gold/
3 — Processing Layer
Onde os dados são transformados.
Tecnologias: Spark, Flink, Beam, Python, SQL engines
Tipos: batch, micro-batch, streaming
4 — Data Warehouse / Lakehouse
Otimizado para analytics e queries SQL.
Características: columnar storage, query optimisation, indexing, partition pruning
Exemplos: BigQuery, Snowflake, Redshift, Fabric Warehouse
5 — BI / Analytics Layer
Ferramentas: Power BI, Looker, Tableau, Metabase
Permitem: dashboards, reports, data exploration
6 — Governance & Observability
Inclui: data lineage, data catalog, access control, monitoring, data quality
Ferramentas: Amundsen, DataHub, Great Expectations, dbt
3️⃣ Mapping GCP → Microsoft Fabric
| Conceito | GCP | Microsoft | |----------|-----|----------| | Data Lake | GCS | OneLake | | Warehouse | BigQuery | Fabric Warehouse | | Compute | Dataproc | Spark | | Orquestração | Composer (Airflow) | Fabric Pipelines | | Streaming | PubSub | Event Hubs | | BI | Looker | Power BI |
Importante: Fabric tenta integrar tudo numa plataforma única — storage, compute, warehouse, BI no mesmo ecossistema.
4️⃣ OneLake (conceito importante em Fabric)
OneLake é o data lake central da plataforma Fabric.
Ideia: um único data lake para toda a organização.
Benefícios: menos duplicação, governance central, integração com Power BI
Conceito semelhante: BigLake (GCP)
5️⃣ Lakehouse em Fabric
Fabric usa Lakehouse tables.
Características: dados em Parquet, tabelas ACID, suporte a SQL
Tecnologia base: Delta Lake
Permite: BI, machine learning, data engineering na mesma plataforma
6️⃣ Arquitetura típica
Exemplo clássico:
Apps / APIs
↓
Event Stream / Batch ingestion
↓
Data Lake (raw)
↓
Processing (Spark)
↓
Curated tables
↓
Warehouse
↓
BI dashboards
Em GCP: PubSub → GCS → Dataflow/Dataproc → BigQuery → Looker
Em Fabric: Event Hub → OneLake → Spark → Lakehouse → Power BI
7️⃣ Boas práticas
- Separar camadas: raw, clean, curated
- Evitar duplicação entre lake, warehouse, BI
- Formatos columnar: Parquet, Delta, Iceberg em vez de CSV/JSON
- Data governance: access, lineage, quality
- Automação: CI/CD, infra as code, testing
8️⃣ Como vender o teu perfil
Tenho trabalhado maioritariamente no ecossistema GCP, onde desenhei pipelines e arquiteturas de dados com BigQuery, Composer e Python. Apesar das ferramentas variarem entre clouds, os princípios de plataformas de dados modernas — como separação de camadas, processamento distribuído e arquiteturas Lakehouse — são transversais, pelo que a adaptação ao ecossistema Fabric seria sobretudo tecnológica.
🎯 10 perguntas típicas de entrevista
- O que é uma Data Platform?
- Quais são as principais camadas de uma plataforma de dados moderna?
- Qual a diferença entre Data Lake e Data Warehouse?
- O que é um Lakehouse?
- Quais as vantagens de usar Parquet num Data Lake?
- Como desenharias uma arquitetura para ingestão de milhões de eventos?
- Como garantir governance numa plataforma de dados?
- Qual a diferença entre batch e streaming ingestion?
- Como migrarias uma plataforma GCP para Microsoft Fabric?
- Como evitar duplicação de dados numa plataforma analítica?
Perguntas
Sem perguntas. Clica em Editar para adicionar.