🟡 B — MLOps

AI Engineer — DEUS.ai

Apresentação

🔄 MLOps — Machine Learning Operations

A vaga menciona "LLMOps practices, agents monitoring, lifecycle management". MLOps para sistemas de AI em produção.

MLOps vs LLMOps

MLOps (clássico)	LLMOps (GenAI)
Modelo treinado, versionado	Prompts, RAG config, agent flows
Drift em features	Drift em distribuição de queries
Latência, throughput	Tokens, custo por request
Accuracy, F1	Groundedness, relevance, hallucination rate
Model registry	Prompt registry, eval datasets

LLMOps adiciona: tracing de agent steps, tool call monitoring, token/cost tracking, eval de respostas (human ou automático).

Ciclo de vida — Development to Production

Data → Experimentação → Validação → Deploy → Monitorização → Retreino/Update

Experimentação: tracking (MLflow, W&B), hyperparams, métricas. Validação: eval set, thresholds. Deploy: container, model registry, canary. Monitorização: drift, performance, feedback. Update: retreino, novo prompt, rollback.

Monitorização em produção

Infraestrutura

Latência: p50, p95, p99 por endpoint
Throughput: requests/sec
Taxa de erro: 4xx, 5xx, timeouts
Recursos: CPU, memória, GPU utilization

Métricas de AI / LLM

Tokens: input/output por request, custo
Qualidade: groundedness, relevance (eval automático ou sampling)
Hallucination rate: % respostas que inventam
Feedback: thumbs up/down, ratings
Agents: steps por conversa, tool call success rate, loops

Ferramentas

Langfuse, LangSmith — tracing LLM, prompts, tokens, custo. Essencial para GenAI.
Prometheus + Grafana — métricas infra
Datadog, New Relic — APM, logs

Data drift e concept drift

Data drift — distribuição do input muda (ex: tipos de queries diferentes). Detetar: PSI (Population Stability Index), KS test, comparação de distribuições. Ação: retreino, atualizar prompts, alerta.

Concept drift — relação input→output muda (ex: users mudam expectativas). Detetar: performance degradation, feedback negativo. Ação: retreino, novo eval set.

CI/CD para AI

Pipeline: código → testes → build → deploy

Testes:

Unit: funções puras (chunking, parsing), mocks para LLM
Integration: API com respostas fixture, eval em dataset pequeno
Eval: benchmark (ex: 100 perguntas), groundedness, relevance. Falhar se degradar.

Deploy: Docker → registry → K8s/Cloud Run. Blue-green ou canary para modelos.

Reproducibilidade: fixar versões (modelo, embeddings, libs). Model registry com metadados.

Model registry e versionamento

O que versionar: modelo (weights), config (hyperparams), dados de treino (hash ou ref), código.

MLflow: experiment tracking, model registry, artifacts. log_model(), register_model().

Linhagem: qual código/dados gerou este modelo? Crítico para debug e compliance.

Caching — níveis

Exact match — hash do prompt → resposta. Redis.
Semantic cache — embedding da query, similaridade → hit se acima do threshold. Reduz chamadas LLM.
Embedding cache — queries repetidas não re-embedam.

Tradeoff: threshold alto = menos hits, mais precisão. Threshold baixo = mais hits, risco de resposta inadequada.

A/B testing e experimentação

Prompts: split 50/50, métricas por variante. Significância estatística antes de decidir.

Modelos: canary (5% novo modelo), comparar groundedness, custo, latência.

Shadow deployment: novo modelo processa em paralelo, não devolve ao user. Comparar offline. Zero risco.

Agent monitoring (LLMOps)

O que monitorizar:

Steps por conversa (muitos = custo alto, possível loop)
Tool call success rate (APIs falham?)
Latência por step (retrieval, LLM, tool)
Tokens por agente (custo)

Alertas: loops (>N steps), tool errors spike, custo/dia acima do threshold.

Ferramentas — resumo

Função	Ferramentas
Experiment tracking	MLflow, Weights & Biases
Model registry	MLflow, Vertex AI, SageMaker
LLM observability	Langfuse, LangSmith, Phoenix
Orchestration	Airflow, Prefect, Kubeflow
Infra métricas	Prometheus, Datadog

Zona de prática

Sem perguntas. Clica em Editar para adicionar.