🔴 LLMs, Avaliação e Produção

AI Engineer — Nutrium

Apresentação

🤖 LLMs, Avaliação e Produção

A vaga menciona explicitamente: "Establish evaluation strategies and quality metrics (including groundedness, safety, latency, and cost)".

Métricas de qualidade

Métrica	O que mede	Como
Groundedness	Resposta fundamentada no contexto?	NLI, human eval, citation check
Safety	Resposta segura? Sem recomendações perigosas?	Classifiers, guardrails, human review
Latency	Tempo de resposta	TTFT, tokens/sec, p95, p99
Cost	Custo por request	Tokens × preço, cache hit rate

Reduzir custos

Caching: Embeddings, respostas para queries similares
Model routing: Queries simples → modelo menor; complexas → modelo maior
Prompt optimization: Menos tokens = menos custo
Batch processing: Quando possível
Self-hosted para volume alto: vLLM, Ollama — custo fixo vs variável

Reduzir latência

Streaming: TTFT baixo — utilizador vê resposta a aparecer
Modelos menores para tarefas simples
Cache de embeddings e respostas
Parallel retrieval (vector + keyword em paralelo)
Speculative decoding (se self-hosted)

Safety e guardrails

Input filtering: Detetar prompt injection, conteúdo inapropriado
Output filtering: Verificar que a resposta não contém recomendações perigosas
Guardrails AI, NeMo Guardrails: Frameworks para regras de segurança
Human-in-the-loop: Para casos de alto risco, revisão humana

Avaliação contínua

Golden dataset: Perguntas com respostas esperadas, rodar periodicamente
A/B testing: Nova versão vs baseline
Monitoring: Latência, erro, custo em produção
Feedback loop: Utilizadores reportam erros → adicionar a golden set

Frase que impressiona

"Avaliação não é só antes do deploy — é contínua. Tenho um golden set de perguntas críticas que corro em cada release, e monitorizo groundedness e latência em produção para detetar regressões."

Zona de prática

Sem perguntas. Clica em Editar para adicionar.