← Voltar a AI Engineer — Nutrium

🔧 Monitor, Troubleshoot e Fine-tune

AI Engineer — Nutrium

Apresentação

🔧 Monitor, Troubleshoot e Fine-tune — Requisito da vaga

Vaga: "Continuously monitor, troubleshoot, and fine-tune AI solutions."

Monitorização

O que monitorizar:

Latência — TTFT, tokens/sec, p95, p99
Custo — Tokens por request, custo por dia/mês
Erros — Taxa de falha, timeouts, rate limits
Qualidade — Groundedness (amostragem ou modelo), feedback negativo
Uso — Requests por user, padrões de queries

Ferramentas: Langfuse, LangSmith, Prometheus, Datadog, logs estruturados

Troubleshooting

Problema: respostas erradas ou alucinações

Verificar retrieval — os chunks certos estão a ser recuperados?
Verificar prompt — instruções claras? Contexto bem formatado?
Verificar modelo — temperature muito alta? Trocar modelo?

Problema: latência alta

Cache de embeddings e respostas
Modelo menor para queries simples
Parallel retrieval
Reduzir top-k ou contexto

Problema: custo alto

Cache hit rate?
Prompt muito longo?
Model routing (simples → pequeno)

Fine-tune (no contexto da vaga)

"Fine-tune" aqui pode significar ajustar o sistema (não necessariamente fine-tuning de modelo):

Ajustar prompts
Ajustar chunk size, top-k
Ajustar thresholds de reranking
Adicionar exemplos ao prompt (few-shot)
Fine-tuning real de modelo (LoRA, etc.) para casos específicos

Iteração baseada em dados

Feedback loop — Utilizadores reportam erros → adicionar a golden set
A/B testing — Nova versão vs baseline
Regression testing — Golden set em cada release

Zona de prática

Sem perguntas. Clica em Editar para adicionar.