0% found this document useful (0 votes)

28 views15 pages

Machine Learning Cheat Sheet

Uploaded by

okayvansh123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views15 pages

Machine Learning Cheat Sheet

Uploaded by

okayvansh123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 15

Machine Learning Cheat Sheet

Types of Machine Learning

Supervised Learning
Definition: Learning with labeled training data
Goal: Predict labels for new, unseen data

Types:
Classification: Predict discrete categories/classes

Regression: Predict continuous numerical values

Unsupervised Learning
Definition: Learning patterns in data without labels
Goal: Discover hidden structure in data

Types:
Clustering: Group similar data points

Dimensionality Reduction: Reduce feature space

Association Rules: Find relationships between variables

Reinforcement Learning
Definition: Learning through interaction with environment

Goal: Maximize cumulative reward

Components: Agent, Environment, Actions, Rewards, Policy

Data Preprocessing

Data Cleaning

python
import pandas as pd
import numpy as np

# Handle missing values

df.dropna() # Remove rows with missing values
df.fillna(value) # Fill missing values
df.interpolate() # Interpolate missing values

# Handle duplicates
df.drop_duplicates() # Remove duplicate rows

Feature Scaling

python

from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler

# Standardization (z-score normalization)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Min-Max scaling (0-1 range)

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Robust scaling (using median and IQR)

scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)

Feature Engineering

python

# One-hot encoding for categorical variables

pd.get_dummies(df, columns=['category'])

# Label encoding
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['category_encoded'] = le.fit_transform(df['category'])

# Feature selection
from sklearn.feature_selection import SelectKBest, chi2
selector = SelectKBest(chi2, k=10)
X_selected = selector.fit_transform(X, y)
Supervised Learning Algorithms

Linear Regression

python

from sklearn.linear_model import LinearRegression

# Simple linear regression

model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)

# Equation: y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ

Key Points:

Assumes linear relationship between features and target

Sensitive to outliers

Requires feature scaling for regularization

Logistic Regression

python

from sklearn.linear_model import LogisticRegression

# Binary classification
model = LogisticRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
probabilities = model.predict_proba(X_test)

# Equation: p = 1 / (1 + e^(-z)) where z = β₀ + β₁x₁ + ... + βₙxₙ

Key Points:

Uses sigmoid function for probability

Good for binary and multiclass classification

Provides probability estimates

Decision Trees

python
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor

# Classification
model = DecisionTreeClassifier(max_depth=5, min_samples_split=10)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Key Points:

Easy to interpret and visualize

Can handle both numerical and categorical features

Prone to overfitting (use pruning)

Random Forest

python

from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

# Classification
model = RandomForestClassifier(n_estimators=100, max_depth=10)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

# Feature importance
importances = model.feature_importances_

Key Points:

Ensemble of decision trees

Reduces overfitting compared to single trees

Provides feature importance scores

Support Vector Machines (SVM)

python

from sklearn.svm import SVC, SVR

# Classification
model = SVC(kernel='rbf', C=1.0, gamma='scale')
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Key Points:
Effective for high-dimensional data

Memory efficient

Versatile (different kernels: linear, polynomial, RBF)

K-Nearest Neighbors (KNN)

python

from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor

# Classification
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Key Points:

Simple, non-parametric algorithm

Sensitive to feature scaling

Computationally expensive for large datasets

Naive Bayes

python

from sklearn.naive_bayes import GaussianNB, MultinomialNB

# Gaussian Naive Bayes

model = GaussianNB()
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Key Points:

Assumes feature independence

Fast and efficient

Good for text classification

Unsupervised Learning Algorithms

K-Means Clustering

python
from sklearn.cluster import KMeans

# Clustering
model = KMeans(n_clusters=3, random_state=42)
clusters = model.fit_predict(X)

# Elbow method for optimal k

inertias = []
for k in range(1, 11):
kmeans = KMeans(n_clusters=k)
kmeans.fit(X)
inertias.append(kmeans.inertia_)

Key Points:

Partitions data into k clusters

Sensitive to initialization and outliers

Assumes spherical clusters

Hierarchical Clustering

python

from sklearn.cluster import AgglomerativeClustering

from scipy.cluster.hierarchy import dendrogram, linkage

# Agglomerative clustering
model = AgglomerativeClustering(n_clusters=3, linkage='ward')
clusters = model.fit_predict(X)

# Dendrogram
linkage_matrix = linkage(X, method='ward')
dendrogram(linkage_matrix)

DBSCAN

python

from sklearn.cluster import DBSCAN

# Density-based clustering
model = DBSCAN(eps=0.5, min_samples=5)
clusters = model.fit_predict(X)

Key Points:
Can find arbitrary shaped clusters
Handles noise and outliers

Doesn't require specifying number of clusters

Principal Component Analysis (PCA)

python

from sklearn.decomposition import PCA

# Dimensionality reduction
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

# Explained variance ratio

print(pca.explained_variance_ratio_)

Key Points:

Linear dimensionality reduction

Preserves maximum variance

Components are orthogonal

Model Evaluation

Classification Metrics

python

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_repo

# Basic metrics
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred, average='weighted')
recall = recall_score(y_true, y_pred, average='weighted')
f1 = f1_score(y_true, y_pred, average='weighted')

# Confusion matrix
cm = confusion_matrix(y_true, y_pred)

# Comprehensive report
report = classification_report(y_true, y_pred)

 

Regression Metrics
python

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Regression metrics
mse = mean_squared_error(y_true, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_true, y_pred)
r2 = r2_score(y_true, y_pred)

Cross-Validation

python

from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold

# K-fold cross-validation
cv_scores = cross_val_score(model, X, y, cv=5)
print(f"CV Score: {cv_scores.mean():.3f} (+/- {cv_scores.std() * 2:.3f})")

# Stratified K-fold for classification

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = cross_val_score(model, X, y, cv=skf)

Model Selection and Tuning

Train-Test Split

python

from sklearn.model_selection import train_test_split

# Split data
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42, stratify=y
)

Grid Search

python
from sklearn.model_selection import GridSearchCV

# Parameter grid
param_grid = {
'n_estimators': [50, 100, 200],
'max_depth': [3, 5, 10],
'min_samples_split': [2, 5, 10]
}

# Grid search
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Best parameters
print(grid_search.best_params_)
print(grid_search.best_score_)

Random Search

python

from sklearn.model_selection import RandomizedSearchCV

# Random search
random_search = RandomizedSearchCV(
RandomForestClassifier(), param_grid, n_iter=10, cv=5
)
random_search.fit(X_train, y_train)

Overfitting and Underfitting

Bias-Variance Tradeoff
High Bias (Underfitting): Model is too simple
High Variance (Overfitting): Model is too complex

Goal: Find the right balance

Regularization Techniques

python
from sklearn.linear_model import Ridge, Lasso, ElasticNet

# Ridge regression (L2 regularization)

ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)

# Lasso regression (L1 regularization)

lasso = Lasso(alpha=1.0)
lasso.fit(X_train, y_train)

# Elastic Net (L1 + L2 regularization)

elastic = ElasticNet(alpha=1.0, l1_ratio=0.5)
elastic.fit(X_train, y_train)

Early Stopping

python

from sklearn.neural_network import MLPClassifier

# Neural network with early stopping

model = MLPClassifier(
hidden_layer_sizes=(100, 50),
max_iter=1000,
early_stopping=True,
validation_fraction=0.1
)
model.fit(X_train, y_train)

Ensemble Methods

Bagging

python

from sklearn.ensemble import BaggingClassifier

# Bagging
model = BaggingClassifier(
base_estimator=DecisionTreeClassifier(),
n_estimators=10,
random_state=42
)
model.fit(X_train, y_train)
Boosting

python

from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier

from xgboost import XGBClassifier

# AdaBoost
ada = AdaBoostClassifier(n_estimators=100)
ada.fit(X_train, y_train)

# Gradient Boosting
gb = GradientBoostingClassifier(n_estimators=100)
gb.fit(X_train, y_train)

# XGBoost
xgb = XGBClassifier(n_estimators=100)
xgb.fit(X_train, y_train)

Voting

python

from sklearn.ensemble import VotingClassifier

# Voting classifier
voting_clf = VotingClassifier(
estimators=[
('lr', LogisticRegression()),
('rf', RandomForestClassifier()),
('svm', SVC())
],
voting='hard' # or 'soft' for probability averaging
)
voting_clf.fit(X_train, y_train)

Deep Learning Basics

Neural Network Architecture

python
from sklearn.neural_network import MLPClassifier

# Multi-layer perceptron
model = MLPClassifier(
hidden_layer_sizes=(100, 50),
activation='relu',
solver='adam',
max_iter=1000
)
model.fit(X_train, y_train)

Key Concepts
Neurons: Basic processing units

Layers: Input, Hidden, Output

Activation Functions: ReLU, Sigmoid, Tanh

Backpropagation: Learning algorithm

Gradient Descent: Optimization method

Feature Selection

Filter Methods

python

from sklearn.feature_selection import SelectKBest, chi2, f_classif

# Select k best features

selector = SelectKBest(f_classif, k=10)
X_selected = selector.fit_transform(X, y)

# Get selected feature names

selected_features = selector.get_support(indices=True)

Wrapper Methods

python

from sklearn.feature_selection import RFE

# Recursive feature elimination

rfe = RFE(estimator=RandomForestClassifier(), n_features_to_select=10)
X_selected = rfe.fit_transform(X, y)
Embedded Methods

python

from sklearn.ensemble import RandomForestClassifier

from sklearn.feature_selection import SelectFromModel

# Select features based on importance

selector = SelectFromModel(RandomForestClassifier())
X_selected = selector.fit_transform(X, y)

Common Pitfalls and Best Practices

Data Leakage
Time Series: Don't use future data to predict past

Cross-validation: Ensure proper splitting

Feature Engineering: Apply transformations after splitting

Best Practices
1. Start Simple: Begin with simple models

2. Understand Your Data: Explore before modeling

3. Feature Engineering: Often more important than algorithm choice

4. Cross-Validation: Always validate your results

5. Monitor Performance: Track metrics on validation set

6. Document Everything: Keep track of experiments

Common Mistakes
Using test data for model selection
Ignoring class imbalance

Not scaling features for distance-based algorithms

Overfitting to validation set

Not checking for data leakage

Performance Optimization

Computational Efficiency

python
# Use appropriate data types
df['category'] = df['category'].astype('category')

# Vectorized operations
np.sum(array) # Instead of for loops

# Parallel processing
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_jobs=-1) # Use all CPU cores

Memory Management

python

# Use generators for large datasets

def data_generator():
for chunk in pd.read_csv('large_file.csv', chunksize=1000):
yield chunk

# Reduce memory usage

df = df.select_dtypes(include=['int64']).apply(pd.to_numeric, downcast='integer')

Model Deployment

Saving and Loading Models

python

import joblib
import pickle

# Save model
joblib.dump(model, 'model.pkl')

# Load model
model = joblib.load('model.pkl')

# With pickle
with open('model.pkl', 'wb') as f:
pickle.dump(model, f)

Model Serving

python
# Simple Flask API example
from flask import Flask, request, jsonify

app = Flask(__name__)
model = joblib.load('model.pkl')

@app.route('/predict', methods=['POST'])
def predict():
data = request.json
prediction = model.predict([data['features']])
return jsonify({'prediction': prediction[0]})

Quick Reference

Algorithm Selection Guide

Linear Regression: Simple, interpretable, continuous target

Logistic Regression: Binary classification, probability estimates

Decision Trees: Interpretable, handles mixed data types
Random Forest: General purpose, handles overfitting

SVM: High-dimensional data, non-linear relationships

KNN: Simple, non-parametric, local patterns

Naive Bayes: Text classification, categorical features

K-Means: Spherical clusters, known number of clusters

DBSCAN: Arbitrary shaped clusters, unknown number of clusters

Python Libraries
scikit-learn: General machine learning
pandas: Data manipulation

numpy: Numerical computing

matplotlib/seaborn: Visualization

xgboost: Gradient boosting

tensorflow/pytorch: Deep learning
statsmodels: Statistical modeling

ML Codes
No ratings yet
ML Codes
9 pages
Classification Review
No ratings yet
Classification Review
8 pages
Machine Learning Cheat Sheet: Karn Singh
No ratings yet
Machine Learning Cheat Sheet: Karn Singh
13 pages
ML Lab-1
No ratings yet
ML Lab-1
32 pages
Machine Learning Evaluation Guide
100% (1)
Machine Learning Evaluation Guide
504 pages
8 To 12 Jaimeen
No ratings yet
8 To 12 Jaimeen
34 pages
Cheat Sheet Building Supervised Learning Models
No ratings yet
Cheat Sheet Building Supervised Learning Models
3 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
ML Functions
No ratings yet
ML Functions
12 pages
Hyperparameter Tuning Guide
No ratings yet
Hyperparameter Tuning Guide
7 pages
ML Lab Programs 2
No ratings yet
ML Lab Programs 2
16 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
ML Lab
No ratings yet
ML Lab
29 pages
ML Algorithms
100% (1)
ML Algorithms
1 page
Machine Learning Lab
No ratings yet
Machine Learning Lab
20 pages
MlLabManualdocx 2024 09 04 22 02 58
No ratings yet
MlLabManualdocx 2024 09 04 22 02 58
19 pages
ML Models
No ratings yet
ML Models
21 pages
1
No ratings yet
1
13 pages
Machine Learning: Supervised /unsupervised
No ratings yet
Machine Learning: Supervised /unsupervised
33 pages
Week 7 Laboratory Activity
No ratings yet
Week 7 Laboratory Activity
12 pages
Supple Maximizing Performance in Cs CuBiCl
No ratings yet
Supple Maximizing Performance in Cs CuBiCl
5 pages
Aiml Practicals
No ratings yet
Aiml Practicals
22 pages
MLT - Lab - Manual FINAL
No ratings yet
MLT - Lab - Manual FINAL
38 pages
Cheat Sheet: Python For Data Science
100% (1)
Cheat Sheet: Python For Data Science
1 page
SVM K NN MLP With Sklearn Jupyter NoteBo
No ratings yet
SVM K NN MLP With Sklearn Jupyter NoteBo
22 pages
Model Evaluation and Selection Cheatsheet 1708023215
No ratings yet
Model Evaluation and Selection Cheatsheet 1708023215
7 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Machine Learning Cheat Sheet-1
No ratings yet
Machine Learning Cheat Sheet-1
12 pages
Shobit Sharma (2124399) ML Lab File PDF
No ratings yet
Shobit Sharma (2124399) ML Lab File PDF
19 pages
Moocs Ritesh
No ratings yet
Moocs Ritesh
22 pages
AI ML - Cycle 2 Programs
No ratings yet
AI ML - Cycle 2 Programs
15 pages
Machine Learning Strategies
No ratings yet
Machine Learning Strategies
59 pages
Scikit Learn Cheat Sheet Python
No ratings yet
Scikit Learn Cheat Sheet Python
1 page
Machine Learning
No ratings yet
Machine Learning
8 pages
ML Cheat Sheet
No ratings yet
ML Cheat Sheet
7 pages
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
20 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
Python Machine Learning Guide
No ratings yet
Python Machine Learning Guide
4 pages
Car Evaluation Data Analysis & Random Forest Model
No ratings yet
Car Evaluation Data Analysis & Random Forest Model
12 pages
ML Prac1-10
No ratings yet
ML Prac1-10
32 pages
Hyper Parameter Tuning
No ratings yet
Hyper Parameter Tuning
4 pages
Slip
No ratings yet
Slip
5 pages
ML Cheatsheet
No ratings yet
ML Cheatsheet
4 pages
SML
No ratings yet
SML
8 pages
Supervised ML with Flask & Docker
No ratings yet
Supervised ML with Flask & Docker
30 pages
ML Practical 205160694034
No ratings yet
ML Practical 205160694034
33 pages
Data Collection
No ratings yet
Data Collection
8 pages
Supervised Learning Notes
No ratings yet
Supervised Learning Notes
7 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
ML Using Python Programs
No ratings yet
ML Using Python Programs
12 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
XAMPP Installation Tutorial
100% (1)
XAMPP Installation Tutorial
58 pages
Assignemnt OS
No ratings yet
Assignemnt OS
2 pages
Fractals-Iterations - in - The - Complex - Plane-Julia Set PDF
No ratings yet
Fractals-Iterations - in - The - Complex - Plane-Julia Set PDF
11 pages
Interview PP T
No ratings yet
Interview PP T
16 pages
C Lab Manual R 20
No ratings yet
C Lab Manual R 20
36 pages
AdventureWorks Entity Relationship Diagram
No ratings yet
AdventureWorks Entity Relationship Diagram
1 page
Page Replacement Algorithms
No ratings yet
Page Replacement Algorithms
7 pages
OOP Lab Report-7
No ratings yet
OOP Lab Report-7
10 pages
Travels With Smalltalk
No ratings yet
Travels With Smalltalk
7 pages
Exercises 2 Opt R1
No ratings yet
Exercises 2 Opt R1
33 pages
Concepts in Programming Languages PDF
100% (1)
Concepts in Programming Languages PDF
584 pages
Icecce49384 2020 9179470
No ratings yet
Icecce49384 2020 9179470
5 pages
A4Q Selenium Tester Foundation Answer Sheet - Mock Exam V1.3
No ratings yet
A4Q Selenium Tester Foundation Answer Sheet - Mock Exam V1.3
17 pages
Employe Record Management System by C++
No ratings yet
Employe Record Management System by C++
9 pages
Linear-Time Selection Algorithms Guide
No ratings yet
Linear-Time Selection Algorithms Guide
37 pages
Cannot Delete DTP Delta Initial Request: Symptom
No ratings yet
Cannot Delete DTP Delta Initial Request: Symptom
2 pages
IC Compiler Command Comparison
No ratings yet
IC Compiler Command Comparison
29 pages
PLC Examples Application Manual: 3100-MCM Example Ladder Logic
No ratings yet
PLC Examples Application Manual: 3100-MCM Example Ladder Logic
28 pages
System Software and Computing Concepts CT123-3-1
No ratings yet
System Software and Computing Concepts CT123-3-1
17 pages
Make A Splash in LabVIEW PDF
No ratings yet
Make A Splash in LabVIEW PDF
17 pages
10 Icse
No ratings yet
10 Icse
6 pages
Computer Science Class 12, Chap3 Page1
No ratings yet
Computer Science Class 12, Chap3 Page1
1 page
Tech Debug: Watchdog Timeout Analysis
No ratings yet
Tech Debug: Watchdog Timeout Analysis
6 pages
Cypress Vs Playwright 220527005559 F81b9cee PDF
100% (1)
Cypress Vs Playwright 220527005559 F81b9cee PDF
52 pages
g16ug使用手册
No ratings yet
g16ug使用手册
478 pages
Biju Patnaik University of Technology, Odisha: Curriculum and Syllabus
No ratings yet
Biju Patnaik University of Technology, Odisha: Curriculum and Syllabus
10 pages
JNTUH Model Paper: Compiler & C Programming
No ratings yet
JNTUH Model Paper: Compiler & C Programming
17 pages
Advanced Data Structure - 1
100% (1)
Advanced Data Structure - 1
16 pages
Programming Concepts Quiz
No ratings yet
Programming Concepts Quiz
3 pages
Python Material 2024 TOPIC GUI PART 3
No ratings yet
Python Material 2024 TOPIC GUI PART 3
22 pages