← Voltar a AI Engineer — Nutrium

🔴 LLMs, Avaliação e Produção

AI Engineer — Nutrium

Apresentação

🤖 LLMs, Avaliação e Produção

A vaga menciona explicitamente: "Establish evaluation strategies and quality metrics (including groundedness, safety, latency, and cost)".


Métricas de qualidade

MétricaO que medeComo
GroundednessResposta fundamentada no contexto?NLI, human eval, citation check
SafetyResposta segura? Sem recomendações perigosas?Classifiers, guardrails, human review
LatencyTempo de respostaTTFT, tokens/sec, p95, p99
CostCusto por requestTokens × preço, cache hit rate

Reduzir custos

  • Caching: Embeddings, respostas para queries similares
  • Model routing: Queries simples → modelo menor; complexas → modelo maior
  • Prompt optimization: Menos tokens = menos custo
  • Batch processing: Quando possível
  • Self-hosted para volume alto: vLLM, Ollama — custo fixo vs variável

Reduzir latência

  • Streaming: TTFT baixo — utilizador vê resposta a aparecer
  • Modelos menores para tarefas simples
  • Cache de embeddings e respostas
  • Parallel retrieval (vector + keyword em paralelo)
  • Speculative decoding (se self-hosted)

Safety e guardrails

  • Input filtering: Detetar prompt injection, conteúdo inapropriado
  • Output filtering: Verificar que a resposta não contém recomendações perigosas
  • Guardrails AI, NeMo Guardrails: Frameworks para regras de segurança
  • Human-in-the-loop: Para casos de alto risco, revisão humana

Avaliação contínua

  • Golden dataset: Perguntas com respostas esperadas, rodar periodicamente
  • A/B testing: Nova versão vs baseline
  • Monitoring: Latência, erro, custo em produção
  • Feedback loop: Utilizadores reportam erros → adicionar a golden set

Frase que impressiona

"Avaliação não é só antes do deploy — é contínua. Tenho um golden set de perguntas críticas que corro em cada release, e monitorizo groundedness e latência em produção para detetar regressões."

Zona de prática

Sem perguntas. Clica em Editar para adicionar.