Apresentação
🤖 LLMs, Avaliação e Produção
A vaga menciona explicitamente: "Establish evaluation strategies and quality metrics (including groundedness, safety, latency, and cost)".
Métricas de qualidade
| Métrica | O que mede | Como |
|---|---|---|
| Groundedness | Resposta fundamentada no contexto? | NLI, human eval, citation check |
| Safety | Resposta segura? Sem recomendações perigosas? | Classifiers, guardrails, human review |
| Latency | Tempo de resposta | TTFT, tokens/sec, p95, p99 |
| Cost | Custo por request | Tokens × preço, cache hit rate |
Reduzir custos
- Caching: Embeddings, respostas para queries similares
- Model routing: Queries simples → modelo menor; complexas → modelo maior
- Prompt optimization: Menos tokens = menos custo
- Batch processing: Quando possível
- Self-hosted para volume alto: vLLM, Ollama — custo fixo vs variável
Reduzir latência
- Streaming: TTFT baixo — utilizador vê resposta a aparecer
- Modelos menores para tarefas simples
- Cache de embeddings e respostas
- Parallel retrieval (vector + keyword em paralelo)
- Speculative decoding (se self-hosted)
Safety e guardrails
- Input filtering: Detetar prompt injection, conteúdo inapropriado
- Output filtering: Verificar que a resposta não contém recomendações perigosas
- Guardrails AI, NeMo Guardrails: Frameworks para regras de segurança
- Human-in-the-loop: Para casos de alto risco, revisão humana
Avaliação contínua
- Golden dataset: Perguntas com respostas esperadas, rodar periodicamente
- A/B testing: Nova versão vs baseline
- Monitoring: Latência, erro, custo em produção
- Feedback loop: Utilizadores reportam erros → adicionar a golden set
Frase que impressiona
"Avaliação não é só antes do deploy — é contínua. Tenho um golden set de perguntas críticas que corro em cada release, e monitorizo groundedness e latência em produção para detetar regressões."
Zona de prática
Sem perguntas. Clica em Editar para adicionar.