Apresentação
🏗️ Arquitetura RAG + Agents que impressiona
Desenha um sistema de AI que responde a perguntas e pode executar ações.
Arquitetura de Alto Nível
User → API Gateway → AI Backend → Agent Orchestrator → Retriever → Vector DB
↓
LLM
↓
Tools / APIs
1️⃣ Pipeline de Ingestão de Dados
Fontes de Dados (PDFs, DB, APIs) → Processamento de Documentos → Chunking → Embeddings → Vector DB
Boas práticas: semantic chunking, metadata tagging, incremental indexing
2️⃣ Pipeline de Query
Pergunta do Utilizador → Embedding → Pesquisa Vetorial → Top K → Construtor de Contexto → LLM
Mencionar: reranking, hybrid search (BM25 + embeddings)
3️⃣ Orquestração de Agentes
Pergunta do utilizador → Planner → Seleção de ferramentas → Execução → Resposta
Ferramentas: queries à base de dados, chamadas API, pesquisa web, execução de código
Frameworks: LangGraph, AutoGen, CrewAI
4️⃣ Camada de Memória
- Curto prazo: histórico da conversa
- Longo prazo: vector DB, perfil do utilizador
5️⃣ Camada de Caching (impressiona muito)
- Cache de prompts
- Cache semântico
- Cache de embeddings
Ferramenta: Redis
6️⃣ Observabilidade
Métricas: latência, uso de tokens, taxa de erro, taxa de hallucination
Ferramentas: Langfuse, LangSmith, Prometheus, Datadog
Langfuse — tracing de prompts, token usage, debugging de comportamento do modelo.
7️⃣ Deployment
FastAPI → Docker → Kubernetes → Autoscaling
Infra: Redis cache, filas de mensagens, cluster de vector DB
🎯 Frase que impressiona
Costumo pensar em arquiteturas de AI em quatro camadas: ingestão, retrieval, orquestração e geração.
API Gateway para AI
- Rate limiting por user/API key
- Authentication (JWT, API keys)
- Request validation antes de chegar ao backend
- Logging de requests para debugging e custo
Stateless backend
O backend não guarda estado entre requests. Session/contexto no client ou em Redis. Permite horizontal scaling — qualquer réplica pode servir qualquer request.
Event-driven para ingestão
Em vez de API síncrona para ingestão: evento (doc novo/alterado) → queue (Kafka, SQS) → worker processa (chunk, embed, load). Desacoplamento, retry automático, escala workers independentemente.
Zona de prática
Sem perguntas. Clica em Editar para adicionar.