Apresentação
🧠 Machine Learning Fundamentals
🟢 Prioridade C — retorno menor para esta vaga. Só se sobrar tempo.
Modelos — quando usar cada um
Regressão (prever valor contínuo)
Linear Regression — y = wx + b. Relação linear. Rápido, interpretável. MSE como loss.
Ridge/Lasso — Linear + regularização. Ridge (L2) encolhe pesos. Lasso (L1) faz feature selection (pesos a zero).
Classificação (prever categoria)
Logistic Regression — P(y=1) = sigmoid(wx). Binária ou multinomial. Interpretável (coeficientes = importância). Baseline para classificação.
Random Forest — Ensemble de árvores de decisão. Bagging (bootstrap + aggregate). Menos overfitting que árvore única. Feature importance. Bom para tabular.
XGBoost / LightGBM — Gradient boosting. Árvores sequenciais que corrigem erros da anterior. State-of-the-art em tabular. Hiperparams: learning rate, max_depth, n_estimators.
Não supervisionado
K-Means — Clustering. k centros, iterar: assign → update. Sensível a inicialização. Elbow method para k.
PCA — Redução de dimensionalidade. Projeta em componentes de máxima variância. Útil para visualização, ruído, colinearidade.
Métricas — detalhe
Classificação binária
Confusion matrix: TP, TN, FP, FN
Precision = TP / (TP + FP) — dos que previ positivo, quantos acertei? Falsos positivos caros (spam: marcar email bom como spam).
Recall (Sensitivity) = TP / (TP + FN) — dos positivos reais, quantos achei? Falsos negativos caros (fraude: deixar passar).
Specificity = TN / (TN + FP) — dos negativos reais, quantos acertei?
F1 = 2 × (P × R) / (P + R) — média harmónica. Quando classes desequilibradas e ambos importam.
ROC AUC — Área sob curva ROC. Threshold-independent. 0.5 = random, 1 = perfeito. Compara modelos sem fixar threshold. Curva: TPR vs FPR para vários thresholds.
Regressão
MSE — mean squared error. Penaliza erros grandes. Diferenciável.
MAE — mean absolute error. Menos sensível a outliers.
RMSE — sqrt(MSE). Mesma unidade que target.
R² — variância explicada. 0 = baseline, 1 = perfeito.
Quando usar cada métrica
| Cenário | Métrica |
|---|---|
| Spam (FP caro) | Precision |
| Fraude, diagnóstico (FN caro) | Recall |
| Classes desequilibradas | F1 |
| Comparar modelos | ROC AUC |
| Threshold operacional fixo | F1, Precision, Recall |
| Regressão | MSE, RMSE, R² |
Bias vs variance
Bias — erro por modelo demasiado simples (underfitting). Não captura padrões.
Variance — erro por sensibilidade ao dataset (overfitting). Memoriza ruído.
Tradeoff — modelo mais complexo ↓ bias, ↑ variance. Sweet spot no meio.
Overfitting e mitigação
Sinais: train accuracy alto, val accuracy baixo.
Soluções: mais dados, regularização (L1/L2), dropout, early stopping, cross-validation, simplificar modelo.
ML clássico vs LLMs/GenAI
| ML clássico | LLMs/GenAI |
|---|---|
| Accuracy, F1, ROC AUC | Groundedness, relevance, hallucination rate |
| Train/val/test split | Human eval, feedback, A/B tests |
| Cross-validation | Few-shot evals, benchmark datasets |
Groundedness — a resposta vem do contexto? Não inventa? Relevance — responde à pergunta?
Regularização (L1 vs L2)
- L1 (Lasso): penaliza |weights|, tende a zeros → feature selection
- L2 (Ridge): penaliza weights², encolhe mas não zera
- Dropout: em redes, desativa neurónios aleatoriamente durante treino
Zona de prática
Sem perguntas. Clica em Editar para adicionar.