← Voltar a AI Engineer — DEUS.ai

🔴 A — Arquitetura RAG + Agents

AI Engineer — DEUS.ai

Apresentação

🏗️ Arquitetura RAG + Agents que impressiona

Desenha um sistema de AI que responde a perguntas e pode executar ações.


Arquitetura de Alto Nível

User → API Gateway → AI Backend → Agent Orchestrator → Retriever → Vector DB
                                                              ↓
                                                             LLM
                                                              ↓
                                                        Tools / APIs

1️⃣ Pipeline de Ingestão de Dados

Fontes de Dados (PDFs, DB, APIs) → Processamento de Documentos → Chunking → Embeddings → Vector DB

Boas práticas: semantic chunking, metadata tagging, incremental indexing


2️⃣ Pipeline de Query

Pergunta do Utilizador → Embedding → Pesquisa Vetorial → Top K → Construtor de Contexto → LLM

Mencionar: reranking, hybrid search (BM25 + embeddings)


3️⃣ Orquestração de Agentes

Pergunta do utilizador → Planner → Seleção de ferramentas → Execução → Resposta

Ferramentas: queries à base de dados, chamadas API, pesquisa web, execução de código

Frameworks: LangGraph, AutoGen, CrewAI


4️⃣ Camada de Memória

  • Curto prazo: histórico da conversa
  • Longo prazo: vector DB, perfil do utilizador

5️⃣ Camada de Caching (impressiona muito)

  • Cache de prompts
  • Cache semântico
  • Cache de embeddings

Ferramenta: Redis


6️⃣ Observabilidade

Métricas: latência, uso de tokens, taxa de erro, taxa de hallucination

Ferramentas: Langfuse, LangSmith, Prometheus, Datadog

Langfuse — tracing de prompts, token usage, debugging de comportamento do modelo.


7️⃣ Deployment

FastAPI → Docker → Kubernetes → Autoscaling

Infra: Redis cache, filas de mensagens, cluster de vector DB


🎯 Frase que impressiona

Costumo pensar em arquiteturas de AI em quatro camadas: ingestão, retrieval, orquestração e geração.


API Gateway para AI

  • Rate limiting por user/API key
  • Authentication (JWT, API keys)
  • Request validation antes de chegar ao backend
  • Logging de requests para debugging e custo

Stateless backend

O backend não guarda estado entre requests. Session/contexto no client ou em Redis. Permite horizontal scaling — qualquer réplica pode servir qualquer request.


Event-driven para ingestão

Em vez de API síncrona para ingestão: evento (doc novo/alterado) → queue (Kafka, SQS) → worker processa (chunk, embed, load). Desacoplamento, retry automático, escala workers independentemente.

Zona de prática

Sem perguntas. Clica em Editar para adicionar.