Apresentação
🌍 Responsible AI & Ética — Guardrails e muito mais
A DEUS valoriza AI that serves people e inovação ética. Prepara respostas que mostrem consciência técnica e prática.
🎯 Frase que impressiona
Penso em AI responsável em camadas: guardrails para input e output, transparência através de citações no RAG, e human-in-the-loop para ações de alto risco. Guardrails não são só filtros de conteúdo — são pipelines de validação que impõem políticas antes dos dados chegarem ao modelo ou ao utilizador.
1️⃣ O que é Responsible AI
Construir sistemas de AI que são justos, transparentes, seguros e alinhados com valores humanos. Não é só compliance — é desenho intencional no código e na arquitetura.
2️⃣ Guardrails — Conceito Central
Guardrails = camadas de validação que filtram e controlam o que entra e sai do sistema de AI.
User input → Input Guardrails → LLM → Output Guardrails → User
↓ ↓
Bloqueia/rejeita Bloqueia/redact
Input guardrails: sanitizar, validar, detetar prompt injection, filtrar PII desnecessária.
Output guardrails: validar schema, filtrar conteúdo prejudicial, redact PII, garantir formato.
3️⃣ Input Guardrails — O que validar
| Tipo | O quê | Como |
|---|---|---|
| Prompt injection | Detetar instruções maliciosas no user input | Keywords, padrões regex, classificador, NeMo |
| Tamanho | Limitar input (evitar DoS, custo) | Max tokens, max chars |
| Schema | Formato correto (JSON, campos obrigatórios) | Pydantic, JSON Schema |
| PII no input | Não enviar dados sensíveis ao LLM desnecessariamente | Redact, mascarar antes de logar |
| Topics | Bloquear perguntas fora do scope (ex: medical advice) | Classificador, allowlist |
4️⃣ Output Guardrails — O que validar
| Tipo | O quê | Como |
|---|---|---|
| Content filter | Conteúdo prejudicial, ofensivo, ilegal | Classificador, API (OpenAI Moderation), regex |
| PII no output | Redact emails, telefones, nomes antes de devolver | Regex, NER, Guardrails AI |
| Schema validation | Output no formato esperado (JSON, campos) | JSON Schema, Pydantic parse |
| Hallucination check | Resposta suportada pelo contexto (RAG) | Verificar citações, faithfulness |
| Topic compliance | Resposta dentro do scope permitido | Classificador pós-geração |
5️⃣ Ferramentas de Guardrails
| Ferramenta | Foco | Quando usar |
|---|---|---|
| Guardrails AI | Validação input/output com RAIL (Reliable AI Markup) | Pipelines configuráveis, PII, topics |
| NeMo Guardrails | NVIDIA, open source, colang DSL | Custom rules, multi-turn, bots |
| LlamaGuard | Modelo de segurança (Meta) | Classificar input/output harmful |
| OpenAI Moderation API | Content moderation | Integrar em pipeline |
| Microsoft Guidance | Controlled generation | Formato, constraints durante geração |
Guardrails AI (nemsense): Define regras em YAML ou Python. Valida PII, topics, formato. Pipeline: Input → Validate → LLM → Validate output → Return.
NeMo Guardrails: Usa colang (domain language). Define flows, scripts, policies. Bom para chatbots com regras complexas.
6️⃣ RAIL (Reliable AI Markup)
Padrão para definir guardrails de forma declarativa. Especifica: input schema, output schema, policy (o que é permitido/bloqueado).
# Exemplo simplificado
input:
- type: pii
action: redact
output:
- type: topics
topics: ["tech", "general"]
action: filter
7️⃣ Bias e Fairness
- Bias nos dados — datasets desequilibrados, histórico enviesado.
- Bias no modelo — propaga padrões dos dados. Ex: LLMs podem estereotipar.
- Mitigação: dados representativos, métricas por grupo demográfico (disparate impact), auditoria de outputs, testes com casos edge. Human review em decisões sensíveis (contratação, crédito).
8️⃣ Transparência e Explainability
- Black box — LLMs são difíceis de explicar internamente.
- O que podemos fazer:
- Citations (RAG) — mostrar fontes na resposta. User verifica.
- Logging — quais chunks recuperados, qual prompt.
- Human review — casos críticos passam por humano.
- Frase: In RAG we show sources — that's transparency. For high-stakes decisions, human-in-the-loop.
9️⃣ Human-in-the-Loop
Para ações com impacto real (email, compra, delete): o sistema para e pede confirmação ao user.
Implementação: Detetar "action" de alto risco → pausar → UI pede confirmação → executar só se aprovado.
🔟 Alinhamento e Valores
- RLHF, Constitutional AI — modelos treinados para seguir princípios.
- System prompts — definir comportamento, limites, tom.
- Human feedback — thumbs up/down, correções para retreino.
1️⃣1️⃣ Regulamentação — EU AI Act
- Risk-based approach: Unacceptable, High, Limited, Minimal.
- High-risk: sistemas em educação, emprego, crédito — requisitos de governança, transparência, human oversight.
- Transparency: sistemas que geram conteúdo (deepfakes, chatbots) devem declarar que é AI.
- Guardrails — parte da mitigação de risco. Documentar políticas, testes.
Frases para a DEUS
-
O que me atraiu na DEUS é o foco em AI que serve pessoas — não só inovador, mas ético e com impacto.
-
I implement guardrails at both input and output — input for prompt injection and scope, output for content and PII. Tools like Guardrails AI or NeMo help enforce policies consistently.
-
In agent systems, I always ask: what could go wrong if the model hallucinates or follows a malicious prompt? We design for failure — validation before tool execution.
-
Transparency in RAG comes from citations. For critical actions, human-in-the-loop is non-negotiable.
Zona de prática
Sem perguntas. Clica em Editar para adicionar.