← Voltar a AI Engineer — DEUS.ai

🟡 B — Responsible AI & Ética

AI Engineer — DEUS.ai

Apresentação

🌍 Responsible AI & Ética — Guardrails e muito mais

A DEUS valoriza AI that serves people e inovação ética. Prepara respostas que mostrem consciência técnica e prática.


🎯 Frase que impressiona

Penso em AI responsável em camadas: guardrails para input e output, transparência através de citações no RAG, e human-in-the-loop para ações de alto risco. Guardrails não são só filtros de conteúdo — são pipelines de validação que impõem políticas antes dos dados chegarem ao modelo ou ao utilizador.


1️⃣ O que é Responsible AI

Construir sistemas de AI que são justos, transparentes, seguros e alinhados com valores humanos. Não é só compliance — é desenho intencional no código e na arquitetura.


2️⃣ Guardrails — Conceito Central

Guardrails = camadas de validação que filtram e controlam o que entra e sai do sistema de AI.

User input → Input Guardrails → LLM → Output Guardrails → User
                  ↓                            ↓
            Bloqueia/rejeita            Bloqueia/redact

Input guardrails: sanitizar, validar, detetar prompt injection, filtrar PII desnecessária.

Output guardrails: validar schema, filtrar conteúdo prejudicial, redact PII, garantir formato.


3️⃣ Input Guardrails — O que validar

TipoO quêComo
Prompt injectionDetetar instruções maliciosas no user inputKeywords, padrões regex, classificador, NeMo
TamanhoLimitar input (evitar DoS, custo)Max tokens, max chars
SchemaFormato correto (JSON, campos obrigatórios)Pydantic, JSON Schema
PII no inputNão enviar dados sensíveis ao LLM desnecessariamenteRedact, mascarar antes de logar
TopicsBloquear perguntas fora do scope (ex: medical advice)Classificador, allowlist

4️⃣ Output Guardrails — O que validar

TipoO quêComo
Content filterConteúdo prejudicial, ofensivo, ilegalClassificador, API (OpenAI Moderation), regex
PII no outputRedact emails, telefones, nomes antes de devolverRegex, NER, Guardrails AI
Schema validationOutput no formato esperado (JSON, campos)JSON Schema, Pydantic parse
Hallucination checkResposta suportada pelo contexto (RAG)Verificar citações, faithfulness
Topic complianceResposta dentro do scope permitidoClassificador pós-geração

5️⃣ Ferramentas de Guardrails

FerramentaFocoQuando usar
Guardrails AIValidação input/output com RAIL (Reliable AI Markup)Pipelines configuráveis, PII, topics
NeMo GuardrailsNVIDIA, open source, colang DSLCustom rules, multi-turn, bots
LlamaGuardModelo de segurança (Meta)Classificar input/output harmful
OpenAI Moderation APIContent moderationIntegrar em pipeline
Microsoft GuidanceControlled generationFormato, constraints durante geração

Guardrails AI (nemsense): Define regras em YAML ou Python. Valida PII, topics, formato. Pipeline: Input → Validate → LLM → Validate output → Return.

NeMo Guardrails: Usa colang (domain language). Define flows, scripts, policies. Bom para chatbots com regras complexas.


6️⃣ RAIL (Reliable AI Markup)

Padrão para definir guardrails de forma declarativa. Especifica: input schema, output schema, policy (o que é permitido/bloqueado).

# Exemplo simplificado
input:
  - type: pii
    action: redact
output:
  - type: topics
    topics: ["tech", "general"]
    action: filter

7️⃣ Bias e Fairness

  • Bias nos dados — datasets desequilibrados, histórico enviesado.
  • Bias no modelo — propaga padrões dos dados. Ex: LLMs podem estereotipar.
  • Mitigação: dados representativos, métricas por grupo demográfico (disparate impact), auditoria de outputs, testes com casos edge. Human review em decisões sensíveis (contratação, crédito).

8️⃣ Transparência e Explainability

  • Black box — LLMs são difíceis de explicar internamente.
  • O que podemos fazer:
    • Citations (RAG) — mostrar fontes na resposta. User verifica.
    • Logging — quais chunks recuperados, qual prompt.
    • Human review — casos críticos passam por humano.
  • Frase: In RAG we show sources — that's transparency. For high-stakes decisions, human-in-the-loop.

9️⃣ Human-in-the-Loop

Para ações com impacto real (email, compra, delete): o sistema para e pede confirmação ao user.

Implementação: Detetar "action" de alto risco → pausar → UI pede confirmação → executar só se aprovado.


🔟 Alinhamento e Valores

  • RLHF, Constitutional AI — modelos treinados para seguir princípios.
  • System prompts — definir comportamento, limites, tom.
  • Human feedback — thumbs up/down, correções para retreino.

1️⃣1️⃣ Regulamentação — EU AI Act

  • Risk-based approach: Unacceptable, High, Limited, Minimal.
  • High-risk: sistemas em educação, emprego, crédito — requisitos de governança, transparência, human oversight.
  • Transparency: sistemas que geram conteúdo (deepfakes, chatbots) devem declarar que é AI.
  • Guardrails — parte da mitigação de risco. Documentar políticas, testes.

Frases para a DEUS

  • O que me atraiu na DEUS é o foco em AI que serve pessoas — não só inovador, mas ético e com impacto.

  • I implement guardrails at both input and output — input for prompt injection and scope, output for content and PII. Tools like Guardrails AI or NeMo help enforce policies consistently.

  • In agent systems, I always ask: what could go wrong if the model hallucinates or follows a malicious prompt? We design for failure — validation before tool execution.

  • Transparency in RAG comes from citations. For critical actions, human-in-the-loop is non-negotiable.

Zona de prática

Sem perguntas. Clica em Editar para adicionar.