Apresentação
👁️ Computer Vision — Se tens experiência
A vaga menciona "NLP or Computer Vision". Se trabalhaste com CV, prepara um exemplo. Se não, visão geral para não ficar em branco.
Conceitos essenciais
CNN (Convolutional Neural Networks) — camadas convolucionais extraem features locais (edges, textures). Pooling reduz dimensão. Hierarquia: baixo nível → alto nível (objetos).
Transfer learning — usar modelo pré-treinado (ResNet, EfficientNet) e fine-tune nas últimas camadas. Poucos dados, treino rápido.
Data augmentation — rotação, flip, crop, brightness. Aumenta diversidade do dataset, reduz overfitting.
Tarefas comuns
- Classification — imagem → classe (ex: gato/cão)
- Object detection — localizar objetos (bounding boxes). YOLO, Faster R-CNN
- Segmentation — pixel a pixel. U-Net, Mask R-CNN
- Embeddings — CLIP, DINO. Imagens → vetores para similarity search
Pipeline típico
Imagens → Augmentation → Model (CNN/Transformer) → Output (class, bbox, mask)
Frameworks: PyTorch, TensorFlow, Hugging Face (vision models)
CV + LLMs (multimodal)
Vision-Language models — GPT-4V, Claude, LLaVA. Imagem + texto → resposta. Útil para: análise de documentos, QA sobre imagens, descrição automática.
CLIP — imagens e texto no mesmo espaço vetorial. Zero-shot classification, retrieval imagem-texto.
Exemplo para entrevista (se tiveres)
I worked on [X] — classification/detection/segmentation of [Y]. We used [ResNet/EfficientNet/YOLO] with transfer learning. The main challenge was [data quality/class imbalance/scale]. We achieved [metric].
Se não tens experiência: My focus has been on NLP and LLMs, but I understand the CV pipeline — CNNs, transfer learning, augmentation. I'd be curious to work on multimodal systems that combine vision and language.
Zona de prática
Sem perguntas. Clica em Editar para adicionar.