Apresentação
🔍 Observability & Cloud AI para GenAI
Ferramentas e serviços essenciais para sistemas de AI em produção.
1️⃣ Langfuse — Observability para LLMs
O que é: Plataforma de observability para aplicações com LLMs. Tipo Datadog/APM para GenAI.
Monitoriza: prompts, respostas, tokens, latência, erros, custo
O que faz
Tracing — Vês toda a pipeline: User request → Prompt → LLM → Response
Token monitoring — tokens usados, custo por request, custo por modelo
Prompt debugging — prompt enviado, resposta do modelo, contexto RAG
Evaluation — relevance, groundedness, hallucinations
Quando usar
Langfuse is useful when you want observability and debugging for production LLM systems.
Frase para entrevista
Langfuse is an observability platform for LLM applications. It allows tracing prompts, responses, token usage and latency, which helps debug and monitor AI systems in production.
Frase forte: In production AI systems it's very important to have observability tools such as Langfuse to trace prompts, monitor token usage and debug model behaviour.
Alternativas: LangSmith, Phoenix, Weights & Biases
2️⃣ AWS Bedrock
O que é: Serviço AWS para usar foundation models via API. Tipo OpenAI API mas dentro da AWS.
Modelos: Claude (Anthropic), Llama, Titan, Mistral
Permite: chamar LLMs, gerar embeddings, criar agents, fazer RAG
Arquitetura típica
User → API/Backend → Bedrock → LLM
Frase para entrevista
Amazon Bedrock provides managed access to foundation models such as Claude or Llama through AWS APIs, making it easier to integrate generative AI into cloud architectures.
3️⃣ AWS Transcribe
O que é: Serviço AWS de speech-to-text. Converte audio → text
Usos: voice assistants, call centers, meeting transcription
Liga com o teu projeto: chatbot que transcrevia voz antes do pipeline LLM
I've worked on conversational systems that start with speech transcription before passing the text into the LLM pipeline.
4️⃣ AWS SageMaker
O que é: Plataforma de ML da AWS. Treinar modelos, deploy, pipelines, MLOps.
Arquitetura: data → training → model → deployment endpoint
Frase para entrevista
SageMaker is AWS's managed platform for building, training and deploying machine learning models at scale.
5️⃣ Como tudo se junta
Arquitetura moderna (texto):
User → API backend → Langfuse (monitoring) → Bedrock (LLM) → Vector DB (RAG) → Response
Com voz:
User voice → AWS Transcribe → LLM pipeline (Bedrock + RAG) → Response
🎯 O que estudar (rápido)
- Langfuse — observability, prompt tracing, token monitoring
- Bedrock — LLM API da AWS, modelos disponíveis
- Transcribe — speech → text
- SageMaker — ML training + deployment
O que traçar em cada request
- Request ID — correlacionar todos os spans
- User/session — para análise por utilizador
- Prompt (hash ou sample) — debugging sem logar tudo
- Model, tokens in/out — custo e latência
- Retrieval — quantos chunks, de onde
- Latência por etapa — embedding, retrieval, LLM, total
Alertas críticos
- Latência p99 > threshold
- Taxa de erro > X%
- Custo por request spike
- Hallucination rate (se tiveres eval automático)
Zona de prática
Sem perguntas. Clica em Editar para adicionar.