← Voltar a AI Engineer — DEUS.ai

🟡 B — MLOps

AI Engineer — DEUS.ai

Apresentação

🔄 MLOps — Machine Learning Operations

A vaga menciona "LLMOps practices, agents monitoring, lifecycle management". MLOps para sistemas de AI em produção.


MLOps vs LLMOps

MLOps (clássico)LLMOps (GenAI)
Modelo treinado, versionadoPrompts, RAG config, agent flows
Drift em featuresDrift em distribuição de queries
Latência, throughputTokens, custo por request
Accuracy, F1Groundedness, relevance, hallucination rate
Model registryPrompt registry, eval datasets

LLMOps adiciona: tracing de agent steps, tool call monitoring, token/cost tracking, eval de respostas (human ou automático).


Ciclo de vida — Development to Production

Data → Experimentação → Validação → Deploy → Monitorização → Retreino/Update

Experimentação: tracking (MLflow, W&B), hyperparams, métricas. Validação: eval set, thresholds. Deploy: container, model registry, canary. Monitorização: drift, performance, feedback. Update: retreino, novo prompt, rollback.


Monitorização em produção

Infraestrutura

  • Latência: p50, p95, p99 por endpoint
  • Throughput: requests/sec
  • Taxa de erro: 4xx, 5xx, timeouts
  • Recursos: CPU, memória, GPU utilization

Métricas de AI / LLM

  • Tokens: input/output por request, custo
  • Qualidade: groundedness, relevance (eval automático ou sampling)
  • Hallucination rate: % respostas que inventam
  • Feedback: thumbs up/down, ratings
  • Agents: steps por conversa, tool call success rate, loops

Ferramentas

  • Langfuse, LangSmith — tracing LLM, prompts, tokens, custo. Essencial para GenAI.
  • Prometheus + Grafana — métricas infra
  • Datadog, New Relic — APM, logs

Data drift e concept drift

Data drift — distribuição do input muda (ex: tipos de queries diferentes). Detetar: PSI (Population Stability Index), KS test, comparação de distribuições. Ação: retreino, atualizar prompts, alerta.

Concept drift — relação input→output muda (ex: users mudam expectativas). Detetar: performance degradation, feedback negativo. Ação: retreino, novo eval set.


CI/CD para AI

Pipeline: código → testes → build → deploy

Testes:

  • Unit: funções puras (chunking, parsing), mocks para LLM
  • Integration: API com respostas fixture, eval em dataset pequeno
  • Eval: benchmark (ex: 100 perguntas), groundedness, relevance. Falhar se degradar.

Deploy: Docker → registry → K8s/Cloud Run. Blue-green ou canary para modelos.

Reproducibilidade: fixar versões (modelo, embeddings, libs). Model registry com metadados.


Model registry e versionamento

O que versionar: modelo (weights), config (hyperparams), dados de treino (hash ou ref), código.

MLflow: experiment tracking, model registry, artifacts. log_model(), register_model().

Linhagem: qual código/dados gerou este modelo? Crítico para debug e compliance.


Caching — níveis

  1. Exact match — hash do prompt → resposta. Redis.
  2. Semantic cache — embedding da query, similaridade → hit se acima do threshold. Reduz chamadas LLM.
  3. Embedding cache — queries repetidas não re-embedam.

Tradeoff: threshold alto = menos hits, mais precisão. Threshold baixo = mais hits, risco de resposta inadequada.


A/B testing e experimentação

Prompts: split 50/50, métricas por variante. Significância estatística antes de decidir.

Modelos: canary (5% novo modelo), comparar groundedness, custo, latência.

Shadow deployment: novo modelo processa em paralelo, não devolve ao user. Comparar offline. Zero risco.


Agent monitoring (LLMOps)

O que monitorizar:

  • Steps por conversa (muitos = custo alto, possível loop)
  • Tool call success rate (APIs falham?)
  • Latência por step (retrieval, LLM, tool)
  • Tokens por agente (custo)

Alertas: loops (>N steps), tool errors spike, custo/dia acima do threshold.


Ferramentas — resumo

FunçãoFerramentas
Experiment trackingMLflow, Weights & Biases
Model registryMLflow, Vertex AI, SageMaker
LLM observabilityLangfuse, LangSmith, Phoenix
OrchestrationAirflow, Prefect, Kubeflow
Infra métricasPrometheus, Datadog

Zona de prática

Sem perguntas. Clica em Editar para adicionar.