Data Platform Moderna

Lakehouse

Apresentação

🏗️ BLOCO 6 — Data Platform Moderna

1️⃣ O que é uma Data Platform moderna

Uma Data Platform é a infraestrutura que permite:

  • ingestão de dados
  • armazenamento
  • processamento
  • transformação
  • análise
  • exposição para BI / ML

Arquitetura típica:

Sources
 ↓
Ingestion
 ↓
Data Lake
 ↓
Processing
 ↓
Warehouse / Lakehouse
 ↓
BI / ML / APIs

Fontes comuns: applications, databases, logs, APIs, IoT, files


2️⃣ Componentes de uma plataforma de dados

Uma plataforma moderna tem 6 camadas principais.

1 — Ingestion Layer

Responsável por trazer dados para a plataforma.

Batch: CSV uploads, daily exports, database dumps

Streaming: clickstream, IoT sensors, application logs

Ferramentas: Airflow, Data Factory, Kafka, PubSub, Event Hubs

2 — Data Lake Storage

Onde os dados são guardados.

Características: cheap, scalable, schema-on-read

Formatos: Parquet, Delta, Iceberg

Estrutura típica: raw/ → bronze/ → silver/ → gold/

3 — Processing Layer

Onde os dados são transformados.

Tecnologias: Spark, Flink, Beam, Python, SQL engines

Tipos: batch, micro-batch, streaming

4 — Data Warehouse / Lakehouse

Otimizado para analytics e queries SQL.

Características: columnar storage, query optimisation, indexing, partition pruning

Exemplos: BigQuery, Snowflake, Redshift, Fabric Warehouse

5 — BI / Analytics Layer

Ferramentas: Power BI, Looker, Tableau, Metabase

Permitem: dashboards, reports, data exploration

6 — Governance & Observability

Inclui: data lineage, data catalog, access control, monitoring, data quality

Ferramentas: Amundsen, DataHub, Great Expectations, dbt


3️⃣ Mapping GCP → Microsoft Fabric

| Conceito | GCP | Microsoft | |----------|-----|----------| | Data Lake | GCS | OneLake | | Warehouse | BigQuery | Fabric Warehouse | | Compute | Dataproc | Spark | | Orquestração | Composer (Airflow) | Fabric Pipelines | | Streaming | PubSub | Event Hubs | | BI | Looker | Power BI |

Importante: Fabric tenta integrar tudo numa plataforma única — storage, compute, warehouse, BI no mesmo ecossistema.


4️⃣ OneLake (conceito importante em Fabric)

OneLake é o data lake central da plataforma Fabric.

Ideia: um único data lake para toda a organização.

Benefícios: menos duplicação, governance central, integração com Power BI

Conceito semelhante: BigLake (GCP)


5️⃣ Lakehouse em Fabric

Fabric usa Lakehouse tables.

Características: dados em Parquet, tabelas ACID, suporte a SQL

Tecnologia base: Delta Lake

Permite: BI, machine learning, data engineering na mesma plataforma


6️⃣ Arquitetura típica

Exemplo clássico:

Apps / APIs
      ↓
Event Stream / Batch ingestion
      ↓
Data Lake (raw)
      ↓
Processing (Spark)
      ↓
Curated tables
      ↓
Warehouse
      ↓
BI dashboards

Em GCP: PubSub → GCS → Dataflow/Dataproc → BigQuery → Looker

Em Fabric: Event Hub → OneLake → Spark → Lakehouse → Power BI


7️⃣ Boas práticas

  • Separar camadas: raw, clean, curated
  • Evitar duplicação entre lake, warehouse, BI
  • Formatos columnar: Parquet, Delta, Iceberg em vez de CSV/JSON
  • Data governance: access, lineage, quality
  • Automação: CI/CD, infra as code, testing

8️⃣ Como vender o teu perfil

Tenho trabalhado maioritariamente no ecossistema GCP, onde desenhei pipelines e arquiteturas de dados com BigQuery, Composer e Python. Apesar das ferramentas variarem entre clouds, os princípios de plataformas de dados modernas — como separação de camadas, processamento distribuído e arquiteturas Lakehouse — são transversais, pelo que a adaptação ao ecossistema Fabric seria sobretudo tecnológica.


🎯 10 perguntas típicas de entrevista

  1. O que é uma Data Platform?
  2. Quais são as principais camadas de uma plataforma de dados moderna?
  3. Qual a diferença entre Data Lake e Data Warehouse?
  4. O que é um Lakehouse?
  5. Quais as vantagens de usar Parquet num Data Lake?
  6. Como desenharias uma arquitetura para ingestão de milhões de eventos?
  7. Como garantir governance numa plataforma de dados?
  8. Qual a diferença entre batch e streaming ingestion?
  9. Como migrarias uma plataforma GCP para Microsoft Fabric?
  10. Como evitar duplicação de dados numa plataforma analítica?

Perguntas

Sem perguntas. Clica em Editar para adicionar.