🟡 B — Observability & Cloud AI para GenAI

AI Engineer — DEUS.ai

Apresentação

🔍 Observability & Cloud AI para GenAI

Ferramentas e serviços essenciais para sistemas de AI em produção.

1️⃣ Langfuse — Observability para LLMs

O que é: Plataforma de observability para aplicações com LLMs. Tipo Datadog/APM para GenAI.

Monitoriza: prompts, respostas, tokens, latência, erros, custo

O que faz

Tracing — Vês toda a pipeline: User request → Prompt → LLM → Response

Token monitoring — tokens usados, custo por request, custo por modelo

Prompt debugging — prompt enviado, resposta do modelo, contexto RAG

Evaluation — relevance, groundedness, hallucinations

Quando usar

Langfuse is useful when you want observability and debugging for production LLM systems.

Frase para entrevista

Langfuse is an observability platform for LLM applications. It allows tracing prompts, responses, token usage and latency, which helps debug and monitor AI systems in production.

Frase forte: In production AI systems it's very important to have observability tools such as Langfuse to trace prompts, monitor token usage and debug model behaviour.

Alternativas: LangSmith, Phoenix, Weights & Biases

2️⃣ AWS Bedrock

O que é: Serviço AWS para usar foundation models via API. Tipo OpenAI API mas dentro da AWS.

Modelos: Claude (Anthropic), Llama, Titan, Mistral

Permite: chamar LLMs, gerar embeddings, criar agents, fazer RAG

Arquitetura típica

User → API/Backend → Bedrock → LLM

Frase para entrevista

Amazon Bedrock provides managed access to foundation models such as Claude or Llama through AWS APIs, making it easier to integrate generative AI into cloud architectures.

3️⃣ AWS Transcribe

O que é: Serviço AWS de speech-to-text. Converte audio → text

Usos: voice assistants, call centers, meeting transcription

Liga com o teu projeto: chatbot que transcrevia voz antes do pipeline LLM

I've worked on conversational systems that start with speech transcription before passing the text into the LLM pipeline.

4️⃣ AWS SageMaker

O que é: Plataforma de ML da AWS. Treinar modelos, deploy, pipelines, MLOps.

Arquitetura: data → training → model → deployment endpoint

Frase para entrevista

SageMaker is AWS's managed platform for building, training and deploying machine learning models at scale.

5️⃣ Como tudo se junta

Arquitetura moderna (texto):

User → API backend → Langfuse (monitoring) → Bedrock (LLM) → Vector DB (RAG) → Response

Com voz:

User voice → AWS Transcribe → LLM pipeline (Bedrock + RAG) → Response

🎯 O que estudar (rápido)

Langfuse — observability, prompt tracing, token monitoring
Bedrock — LLM API da AWS, modelos disponíveis
Transcribe — speech → text
SageMaker — ML training + deployment

O que traçar em cada request

Request ID — correlacionar todos os spans
User/session — para análise por utilizador
Prompt (hash ou sample) — debugging sem logar tudo
Model, tokens in/out — custo e latência
Retrieval — quantos chunks, de onde
Latência por etapa — embedding, retrieval, LLM, total

Alertas críticos

Latência p99 > threshold
Taxa de erro > X%
Custo por request spike
Hallucination rate (se tiveres eval automático)

Zona de prática

Sem perguntas. Clica em Editar para adicionar.