🟡 B — Responsible AI & Ética

AI Engineer — DEUS.ai

Apresentação

🌍 Responsible AI & Ética — Guardrails e muito mais

A DEUS valoriza AI that serves people e inovação ética. Prepara respostas que mostrem consciência técnica e prática.

🎯 Frase que impressiona

Penso em AI responsável em camadas: guardrails para input e output, transparência através de citações no RAG, e human-in-the-loop para ações de alto risco. Guardrails não são só filtros de conteúdo — são pipelines de validação que impõem políticas antes dos dados chegarem ao modelo ou ao utilizador.

1️⃣ O que é Responsible AI

Construir sistemas de AI que são justos, transparentes, seguros e alinhados com valores humanos. Não é só compliance — é desenho intencional no código e na arquitetura.

2️⃣ Guardrails — Conceito Central

Guardrails = camadas de validação que filtram e controlam o que entra e sai do sistema de AI.

User input → Input Guardrails → LLM → Output Guardrails → User
                  ↓                            ↓
            Bloqueia/rejeita            Bloqueia/redact

Input guardrails: sanitizar, validar, detetar prompt injection, filtrar PII desnecessária.

Output guardrails: validar schema, filtrar conteúdo prejudicial, redact PII, garantir formato.

3️⃣ Input Guardrails — O que validar

Tipo	O quê	Como
Prompt injection	Detetar instruções maliciosas no user input	Keywords, padrões regex, classificador, NeMo
Tamanho	Limitar input (evitar DoS, custo)	Max tokens, max chars
Schema	Formato correto (JSON, campos obrigatórios)	Pydantic, JSON Schema
PII no input	Não enviar dados sensíveis ao LLM desnecessariamente	Redact, mascarar antes de logar
Topics	Bloquear perguntas fora do scope (ex: medical advice)	Classificador, allowlist

4️⃣ Output Guardrails — O que validar

Tipo	O quê	Como
Content filter	Conteúdo prejudicial, ofensivo, ilegal	Classificador, API (OpenAI Moderation), regex
PII no output	Redact emails, telefones, nomes antes de devolver	Regex, NER, Guardrails AI
Schema validation	Output no formato esperado (JSON, campos)	JSON Schema, Pydantic parse
Hallucination check	Resposta suportada pelo contexto (RAG)	Verificar citações, faithfulness
Topic compliance	Resposta dentro do scope permitido	Classificador pós-geração

5️⃣ Ferramentas de Guardrails

Ferramenta	Foco	Quando usar
Guardrails AI	Validação input/output com RAIL (Reliable AI Markup)	Pipelines configuráveis, PII, topics
NeMo Guardrails	NVIDIA, open source, colang DSL	Custom rules, multi-turn, bots
LlamaGuard	Modelo de segurança (Meta)	Classificar input/output harmful
OpenAI Moderation API	Content moderation	Integrar em pipeline
Microsoft Guidance	Controlled generation	Formato, constraints durante geração

Guardrails AI (nemsense): Define regras em YAML ou Python. Valida PII, topics, formato. Pipeline: Input → Validate → LLM → Validate output → Return.

NeMo Guardrails: Usa colang (domain language). Define flows, scripts, policies. Bom para chatbots com regras complexas.

6️⃣ RAIL (Reliable AI Markup)

Padrão para definir guardrails de forma declarativa. Especifica: input schema, output schema, policy (o que é permitido/bloqueado).

# Exemplo simplificado
input:
  - type: pii
    action: redact
output:
  - type: topics
    topics: ["tech", "general"]
    action: filter

7️⃣ Bias e Fairness

Bias nos dados — datasets desequilibrados, histórico enviesado.
Bias no modelo — propaga padrões dos dados. Ex: LLMs podem estereotipar.
Mitigação: dados representativos, métricas por grupo demográfico (disparate impact), auditoria de outputs, testes com casos edge. Human review em decisões sensíveis (contratação, crédito).

8️⃣ Transparência e Explainability

Black box — LLMs são difíceis de explicar internamente.
O que podemos fazer:
- Citations (RAG) — mostrar fontes na resposta. User verifica.
- Logging — quais chunks recuperados, qual prompt.
- Human review — casos críticos passam por humano.
Frase: In RAG we show sources — that's transparency. For high-stakes decisions, human-in-the-loop.

9️⃣ Human-in-the-Loop

Para ações com impacto real (email, compra, delete): o sistema para e pede confirmação ao user.

Implementação: Detetar "action" de alto risco → pausar → UI pede confirmação → executar só se aprovado.

🔟 Alinhamento e Valores

RLHF, Constitutional AI — modelos treinados para seguir princípios.
System prompts — definir comportamento, limites, tom.
Human feedback — thumbs up/down, correções para retreino.

1️⃣1️⃣ Regulamentação — EU AI Act

Risk-based approach: Unacceptable, High, Limited, Minimal.
High-risk: sistemas em educação, emprego, crédito — requisitos de governança, transparência, human oversight.
Transparency: sistemas que geram conteúdo (deepfakes, chatbots) devem declarar que é AI.
Guardrails — parte da mitigação de risco. Documentar políticas, testes.

Frases para a DEUS

O que me atraiu na DEUS é o foco em AI que serve pessoas — não só inovador, mas ético e com impacto.
I implement guardrails at both input and output — input for prompt injection and scope, output for content and PII. Tools like Guardrails AI or NeMo help enforce policies consistently.
In agent systems, I always ask: what could go wrong if the model hallucinates or follows a malicious prompt? We design for failure — validation before tool execution.
Transparency in RAG comes from citations. For critical actions, human-in-the-loop is non-negotiable.

Zona de prática

Sem perguntas. Clica em Editar para adicionar.