← Voltar a AI Engineer — Nutrium

🔧 Monitor, Troubleshoot e Fine-tune

AI Engineer — Nutrium

Apresentação

🔧 Monitor, Troubleshoot e Fine-tune — Requisito da vaga

Vaga: "Continuously monitor, troubleshoot, and fine-tune AI solutions."


Monitorização

O que monitorizar:

  • Latência — TTFT, tokens/sec, p95, p99
  • Custo — Tokens por request, custo por dia/mês
  • Erros — Taxa de falha, timeouts, rate limits
  • Qualidade — Groundedness (amostragem ou modelo), feedback negativo
  • Uso — Requests por user, padrões de queries

Ferramentas: Langfuse, LangSmith, Prometheus, Datadog, logs estruturados


Troubleshooting

Problema: respostas erradas ou alucinações

  • Verificar retrieval — os chunks certos estão a ser recuperados?
  • Verificar prompt — instruções claras? Contexto bem formatado?
  • Verificar modelo — temperature muito alta? Trocar modelo?

Problema: latência alta

  • Cache de embeddings e respostas
  • Modelo menor para queries simples
  • Parallel retrieval
  • Reduzir top-k ou contexto

Problema: custo alto

  • Cache hit rate?
  • Prompt muito longo?
  • Model routing (simples → pequeno)

Fine-tune (no contexto da vaga)

"Fine-tune" aqui pode significar ajustar o sistema (não necessariamente fine-tuning de modelo):

  • Ajustar prompts
  • Ajustar chunk size, top-k
  • Ajustar thresholds de reranking
  • Adicionar exemplos ao prompt (few-shot)
  • Fine-tuning real de modelo (LoRA, etc.) para casos específicos

Iteração baseada em dados

  • Feedback loop — Utilizadores reportam erros → adicionar a golden set
  • A/B testing — Nova versão vs baseline
  • Regression testing — Golden set em cada release

Zona de prática

Sem perguntas. Clica em Editar para adicionar.