Apresentação
🔄 MLOps — Machine Learning Operations
A vaga menciona "LLMOps practices, agents monitoring, lifecycle management". MLOps para sistemas de AI em produção.
MLOps vs LLMOps
| MLOps (clássico) | LLMOps (GenAI) |
|---|---|
| Modelo treinado, versionado | Prompts, RAG config, agent flows |
| Drift em features | Drift em distribuição de queries |
| Latência, throughput | Tokens, custo por request |
| Accuracy, F1 | Groundedness, relevance, hallucination rate |
| Model registry | Prompt registry, eval datasets |
LLMOps adiciona: tracing de agent steps, tool call monitoring, token/cost tracking, eval de respostas (human ou automático).
Ciclo de vida — Development to Production
Data → Experimentação → Validação → Deploy → Monitorização → Retreino/Update
Experimentação: tracking (MLflow, W&B), hyperparams, métricas. Validação: eval set, thresholds. Deploy: container, model registry, canary. Monitorização: drift, performance, feedback. Update: retreino, novo prompt, rollback.
Monitorização em produção
Infraestrutura
- Latência: p50, p95, p99 por endpoint
- Throughput: requests/sec
- Taxa de erro: 4xx, 5xx, timeouts
- Recursos: CPU, memória, GPU utilization
Métricas de AI / LLM
- Tokens: input/output por request, custo
- Qualidade: groundedness, relevance (eval automático ou sampling)
- Hallucination rate: % respostas que inventam
- Feedback: thumbs up/down, ratings
- Agents: steps por conversa, tool call success rate, loops
Ferramentas
- Langfuse, LangSmith — tracing LLM, prompts, tokens, custo. Essencial para GenAI.
- Prometheus + Grafana — métricas infra
- Datadog, New Relic — APM, logs
Data drift e concept drift
Data drift — distribuição do input muda (ex: tipos de queries diferentes). Detetar: PSI (Population Stability Index), KS test, comparação de distribuições. Ação: retreino, atualizar prompts, alerta.
Concept drift — relação input→output muda (ex: users mudam expectativas). Detetar: performance degradation, feedback negativo. Ação: retreino, novo eval set.
CI/CD para AI
Pipeline: código → testes → build → deploy
Testes:
- Unit: funções puras (chunking, parsing), mocks para LLM
- Integration: API com respostas fixture, eval em dataset pequeno
- Eval: benchmark (ex: 100 perguntas), groundedness, relevance. Falhar se degradar.
Deploy: Docker → registry → K8s/Cloud Run. Blue-green ou canary para modelos.
Reproducibilidade: fixar versões (modelo, embeddings, libs). Model registry com metadados.
Model registry e versionamento
O que versionar: modelo (weights), config (hyperparams), dados de treino (hash ou ref), código.
MLflow: experiment tracking, model registry, artifacts. log_model(), register_model().
Linhagem: qual código/dados gerou este modelo? Crítico para debug e compliance.
Caching — níveis
- Exact match — hash do prompt → resposta. Redis.
- Semantic cache — embedding da query, similaridade → hit se acima do threshold. Reduz chamadas LLM.
- Embedding cache — queries repetidas não re-embedam.
Tradeoff: threshold alto = menos hits, mais precisão. Threshold baixo = mais hits, risco de resposta inadequada.
A/B testing e experimentação
Prompts: split 50/50, métricas por variante. Significância estatística antes de decidir.
Modelos: canary (5% novo modelo), comparar groundedness, custo, latência.
Shadow deployment: novo modelo processa em paralelo, não devolve ao user. Comparar offline. Zero risco.
Agent monitoring (LLMOps)
O que monitorizar:
- Steps por conversa (muitos = custo alto, possível loop)
- Tool call success rate (APIs falham?)
- Latência por step (retrieval, LLM, tool)
- Tokens por agente (custo)
Alertas: loops (>N steps), tool errors spike, custo/dia acima do threshold.
Ferramentas — resumo
| Função | Ferramentas |
|---|---|
| Experiment tracking | MLflow, Weights & Biases |
| Model registry | MLflow, Vertex AI, SageMaker |
| LLM observability | Langfuse, LangSmith, Phoenix |
| Orchestration | Airflow, Prefect, Kubeflow |
| Infra métricas | Prometheus, Datadog |
Zona de prática
Sem perguntas. Clica em Editar para adicionar.