← Voltar a AI Engineer — DEUS.ai

🟢 C — Machine Learning Fundamentals

AI Engineer — DEUS.ai

Apresentação

🧠 Machine Learning Fundamentals

🟢 Prioridade C — retorno menor para esta vaga. Só se sobrar tempo.


Modelos — quando usar cada um

Regressão (prever valor contínuo)

Linear Regression — y = wx + b. Relação linear. Rápido, interpretável. MSE como loss.

Ridge/Lasso — Linear + regularização. Ridge (L2) encolhe pesos. Lasso (L1) faz feature selection (pesos a zero).

Classificação (prever categoria)

Logistic Regression — P(y=1) = sigmoid(wx). Binária ou multinomial. Interpretável (coeficientes = importância). Baseline para classificação.

Random Forest — Ensemble de árvores de decisão. Bagging (bootstrap + aggregate). Menos overfitting que árvore única. Feature importance. Bom para tabular.

XGBoost / LightGBM — Gradient boosting. Árvores sequenciais que corrigem erros da anterior. State-of-the-art em tabular. Hiperparams: learning rate, max_depth, n_estimators.

Não supervisionado

K-Means — Clustering. k centros, iterar: assign → update. Sensível a inicialização. Elbow method para k.

PCA — Redução de dimensionalidade. Projeta em componentes de máxima variância. Útil para visualização, ruído, colinearidade.


Métricas — detalhe

Classificação binária

Confusion matrix: TP, TN, FP, FN

Precision = TP / (TP + FP) — dos que previ positivo, quantos acertei? Falsos positivos caros (spam: marcar email bom como spam).

Recall (Sensitivity) = TP / (TP + FN) — dos positivos reais, quantos achei? Falsos negativos caros (fraude: deixar passar).

Specificity = TN / (TN + FP) — dos negativos reais, quantos acertei?

F1 = 2 × (P × R) / (P + R) — média harmónica. Quando classes desequilibradas e ambos importam.

ROC AUC — Área sob curva ROC. Threshold-independent. 0.5 = random, 1 = perfeito. Compara modelos sem fixar threshold. Curva: TPR vs FPR para vários thresholds.

Regressão

MSE — mean squared error. Penaliza erros grandes. Diferenciável.

MAE — mean absolute error. Menos sensível a outliers.

RMSE — sqrt(MSE). Mesma unidade que target.

— variância explicada. 0 = baseline, 1 = perfeito.

Quando usar cada métrica

CenárioMétrica
Spam (FP caro)Precision
Fraude, diagnóstico (FN caro)Recall
Classes desequilibradasF1
Comparar modelosROC AUC
Threshold operacional fixoF1, Precision, Recall
RegressãoMSE, RMSE, R²

Bias vs variance

Bias — erro por modelo demasiado simples (underfitting). Não captura padrões.

Variance — erro por sensibilidade ao dataset (overfitting). Memoriza ruído.

Tradeoff — modelo mais complexo ↓ bias, ↑ variance. Sweet spot no meio.


Overfitting e mitigação

Sinais: train accuracy alto, val accuracy baixo.

Soluções: mais dados, regularização (L1/L2), dropout, early stopping, cross-validation, simplificar modelo.


ML clássico vs LLMs/GenAI

ML clássicoLLMs/GenAI
Accuracy, F1, ROC AUCGroundedness, relevance, hallucination rate
Train/val/test splitHuman eval, feedback, A/B tests
Cross-validationFew-shot evals, benchmark datasets

Groundedness — a resposta vem do contexto? Não inventa? Relevance — responde à pergunta?


Regularização (L1 vs L2)

  • L1 (Lasso): penaliza |weights|, tende a zeros → feature selection
  • L2 (Ridge): penaliza weights², encolhe mas não zera
  • Dropout: em redes, desativa neurónios aleatoriamente durante treino

Zona de prática

Sem perguntas. Clica em Editar para adicionar.