Apresentação
🔧 Monitor, Troubleshoot e Fine-tune — Requisito da vaga
Vaga: "Continuously monitor, troubleshoot, and fine-tune AI solutions."
Monitorização
O que monitorizar:
- Latência — TTFT, tokens/sec, p95, p99
- Custo — Tokens por request, custo por dia/mês
- Erros — Taxa de falha, timeouts, rate limits
- Qualidade — Groundedness (amostragem ou modelo), feedback negativo
- Uso — Requests por user, padrões de queries
Ferramentas: Langfuse, LangSmith, Prometheus, Datadog, logs estruturados
Troubleshooting
Problema: respostas erradas ou alucinações
- Verificar retrieval — os chunks certos estão a ser recuperados?
- Verificar prompt — instruções claras? Contexto bem formatado?
- Verificar modelo — temperature muito alta? Trocar modelo?
Problema: latência alta
- Cache de embeddings e respostas
- Modelo menor para queries simples
- Parallel retrieval
- Reduzir top-k ou contexto
Problema: custo alto
- Cache hit rate?
- Prompt muito longo?
- Model routing (simples → pequeno)
Fine-tune (no contexto da vaga)
"Fine-tune" aqui pode significar ajustar o sistema (não necessariamente fine-tuning de modelo):
- Ajustar prompts
- Ajustar chunk size, top-k
- Ajustar thresholds de reranking
- Adicionar exemplos ao prompt (few-shot)
- Fine-tuning real de modelo (LoRA, etc.) para casos específicos
Iteração baseada em dados
- Feedback loop — Utilizadores reportam erros → adicionar a golden set
- A/B testing — Nova versão vs baseline
- Regression testing — Golden set em cada release
Zona de prática
Sem perguntas. Clica em Editar para adicionar.