🟢 C — Machine Learning Fundamentals

AI Engineer — DEUS.ai

Apresentação

🧠 Machine Learning Fundamentals

🟢 Prioridade C — retorno menor para esta vaga. Só se sobrar tempo.

Modelos — quando usar cada um

Regressão (prever valor contínuo)

Linear Regression — y = wx + b. Relação linear. Rápido, interpretável. MSE como loss.

Ridge/Lasso — Linear + regularização. Ridge (L2) encolhe pesos. Lasso (L1) faz feature selection (pesos a zero).

Classificação (prever categoria)

Logistic Regression — P(y=1) = sigmoid(wx). Binária ou multinomial. Interpretável (coeficientes = importância). Baseline para classificação.

Random Forest — Ensemble de árvores de decisão. Bagging (bootstrap + aggregate). Menos overfitting que árvore única. Feature importance. Bom para tabular.

XGBoost / LightGBM — Gradient boosting. Árvores sequenciais que corrigem erros da anterior. State-of-the-art em tabular. Hiperparams: learning rate, max_depth, n_estimators.

Não supervisionado

K-Means — Clustering. k centros, iterar: assign → update. Sensível a inicialização. Elbow method para k.

PCA — Redução de dimensionalidade. Projeta em componentes de máxima variância. Útil para visualização, ruído, colinearidade.

Métricas — detalhe

Classificação binária

Confusion matrix: TP, TN, FP, FN

Precision = TP / (TP + FP) — dos que previ positivo, quantos acertei? Falsos positivos caros (spam: marcar email bom como spam).

Recall (Sensitivity) = TP / (TP + FN) — dos positivos reais, quantos achei? Falsos negativos caros (fraude: deixar passar).

Specificity = TN / (TN + FP) — dos negativos reais, quantos acertei?

F1 = 2 × (P × R) / (P + R) — média harmónica. Quando classes desequilibradas e ambos importam.

ROC AUC — Área sob curva ROC. Threshold-independent. 0.5 = random, 1 = perfeito. Compara modelos sem fixar threshold. Curva: TPR vs FPR para vários thresholds.

Regressão

MSE — mean squared error. Penaliza erros grandes. Diferenciável.

MAE — mean absolute error. Menos sensível a outliers.

RMSE — sqrt(MSE). Mesma unidade que target.

R² — variância explicada. 0 = baseline, 1 = perfeito.

Quando usar cada métrica

Cenário	Métrica
Spam (FP caro)	Precision
Fraude, diagnóstico (FN caro)	Recall
Classes desequilibradas	F1
Comparar modelos	ROC AUC
Threshold operacional fixo	F1, Precision, Recall
Regressão	MSE, RMSE, R²

Bias vs variance

Bias — erro por modelo demasiado simples (underfitting). Não captura padrões.

Variance — erro por sensibilidade ao dataset (overfitting). Memoriza ruído.

Tradeoff — modelo mais complexo ↓ bias, ↑ variance. Sweet spot no meio.

Overfitting e mitigação

Sinais: train accuracy alto, val accuracy baixo.

Soluções: mais dados, regularização (L1/L2), dropout, early stopping, cross-validation, simplificar modelo.

ML clássico vs LLMs/GenAI

ML clássico	LLMs/GenAI
Accuracy, F1, ROC AUC	Groundedness, relevance, hallucination rate
Train/val/test split	Human eval, feedback, A/B tests
Cross-validation	Few-shot evals, benchmark datasets

Groundedness — a resposta vem do contexto? Não inventa? Relevance — responde à pergunta?

Regularização (L1 vs L2)

L1 (Lasso): penaliza |weights|, tende a zeros → feature selection
L2 (Ridge): penaliza weights², encolhe mas não zera
Dropout: em redes, desativa neurónios aleatoriamente durante treino

Zona de prática

Sem perguntas. Clica em Editar para adicionar.