0% found this document useful (0 votes)

5 views26 pages

Optimization Algorithms

Uploaded by

agnivamanna0828

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views26 pages

Optimization Algorithms

Uploaded by

agnivamanna0828

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 26

Optimization algorithms

Dr. Abhijit Debnath

University of Engineering and Management
Newtown, Kolkata
Why optimizers?

 Minimizing the Loss Function:

The optimizer adjusts model parameters to reduce the difference between the
predicted output and the actual target values, minimizing the loss function.

 Learning Rate Management:

Optimizers manage the learning rate, which determines the step size for parameter
updates. Some optimizers adapt the learning rate dynamically.

 Handling Non-Convex Functions:

Deep learning models often have highly non-convex loss functions. Optimizers help
navigate these complex surfaces and avoid poor local minima or saddle points.
Why optimizers?

 Accelerating Convergence:
Techniques like momentum or adaptive learning rates help optimizers converge to
the optimal solution faster.
 Learning Rate Management:
Optimizers manage the learning rate, which determines the step size for parameter
updates. Some optimizers adapt the learning rate dynamically.

 Addressing Gradient Scaling Issues:

Optimizers like RMSProp and Adam normalize gradients to handle problems like
vanishing or exploding gradients.
Common Optimization Algorithms

1. Gradient Descent (GD)

2. Momentum
3. Nesterov Accelerated Gradient (NAG)
4. Adagrad
5. RMSProp
6. Adam
7. AdaMax
8. Nadam
9. AMSGrad
Gradient Descent (GD)
Mathematical Formulation:
θ = θ - η∇J(θ)
Variants:
1. Batch Gradient Descent
2. Stochastic Gradient Descent (SGD)
3. Mini-Batch Gradient Descent
Pros:
- Simple and effective for convex loss functions.

Cons:
- High computational cost for large datasets (Batch GD).
- Noise and oscillations in SGD.
- Requires careful learning rate tuning.
Gradient Descent
SGD and GD
Mini-batch GD

• Mini-batch GD: Splits dataset into smaller subsets

Momentum
Nestorov Accelerated Gradient (NAG)
Adagrad

Loss for each feature

Variance of gradients

Pros: Cons:
 Adapts learning rates,  Learning rate decreases
making it suitable for continuously, leading to
sparse data. convergence issues for
 Reduces the need for long training.
manual learning rate
tuning.
RMSProp

Pros: Cons:
 Works well for non-stationary  Requires learning-rate
objectives. scheduler
 Effective for RNNs and
training deep networks.
Adadelta

Parameter update

Pros:
 Works well for datasets with
Cons:
sparse gradients and features,  The decay rate (ρ) must be
similar to Adagrad. carefully chosen for optimal
 Easy to implement and tune
performance.
due to fewer hyperparameters  May Struggle with Very Large
(ρ and ϵ). Datasets
Adam

The Adam optimizer is a widely used optimization algorithm in deep learning,

combining the strengths of two other popular optimizers: Momentum and
RMSProp.
Adam
Pros
 Efficient and Fast: Combines the benefits of Momentum and RMSProp,
generally converging faster than SGD and its variants.
 Adaptive Learning Rates: Automatically adjusts the learning rate for each
parameter, reducing the need for manual tuning.
 Handles Noisy Gradients: Suitable for non-stationary objectives and noisy
gradient problems.
 Widely Applicable: Performs well across various architectures, including
convolutional neural networks (CNNs), recurrent neural networks (RNNs), and
transformers.
Adam
Cons
 Suboptimal for Certain Problems: May not always generalize as well as SGD
with momentum in tasks requiring very fine-tuned convergence.
 Requires Tuning: Hyperparameters (β1, β2, η) may require fine-tuning for
optimal performance.
 Non-Convergence Issues: In some cases, Adam may fail to converge to an
optimal solution. Variants like AMSGrad address this issue.
Regularization
What is regularization?

 Regularization is a technique used in machine learning and statistics to prevent

overfitting by introducing additional constraints or penalties to a model.

 Overfitting occurs when a model learns not only the underlying pattern in the
training data but also the noise, making it perform poorly on unseen data.
Types of regularization
Types of regularization
Pros and cons
Pros and cons
Pros and cons
Pros and cons
Pros and cons
Comparison

Important Optimization Algorithms Essentials
No ratings yet
Important Optimization Algorithms Essentials
12 pages
Deep Learning Optimization Basics
No ratings yet
Deep Learning Optimization Basics
11 pages
DM
No ratings yet
DM
12 pages
Deep Learning (MODULE-2)
No ratings yet
Deep Learning (MODULE-2)
86 pages
Optimizers
No ratings yet
Optimizers
19 pages
Activations, Loss Functions & Optimizers in ML
No ratings yet
Activations, Loss Functions & Optimizers in ML
29 pages
Neural Network Optimizers Guide
100% (2)
Neural Network Optimizers Guide
21 pages
AdamZ Research Paper
No ratings yet
AdamZ Research Paper
13 pages
Deep Learning
No ratings yet
Deep Learning
18 pages
GD Compare
No ratings yet
GD Compare
5 pages
Optimization Techniques (SGD Alternatives)
No ratings yet
Optimization Techniques (SGD Alternatives)
34 pages
Optimization of Gradiant Descant
No ratings yet
Optimization of Gradiant Descant
7 pages
11 - Optimizers
No ratings yet
11 - Optimizers
16 pages
Optimizers
No ratings yet
Optimizers
3 pages
EXP 4 - Theory
No ratings yet
EXP 4 - Theory
5 pages
Optimizers and Activation Functions in Deep Learning
No ratings yet
Optimizers and Activation Functions in Deep Learning
15 pages
Soft Computing Assignment
No ratings yet
Soft Computing Assignment
9 pages
Curs6site PDF
No ratings yet
Curs6site PDF
40 pages
Module 2
No ratings yet
Module 2
67 pages
Optimization Techniques in Deep Learning
No ratings yet
Optimization Techniques in Deep Learning
14 pages
Otimization 2024 - Ver3
No ratings yet
Otimization 2024 - Ver3
42 pages
Gen Aiml Notes by Piyush
No ratings yet
Gen Aiml Notes by Piyush
39 pages
L5 Training Neural Networks Part 2 en v2
No ratings yet
L5 Training Neural Networks Part 2 en v2
70 pages
Module 1
No ratings yet
Module 1
7 pages
Unit-2 Deep Learning
No ratings yet
Unit-2 Deep Learning
125 pages
17-Deep Learning Frameworks - Data Augmentation - Under-Fitting Vs Over-Fitting-21!08!2024
No ratings yet
17-Deep Learning Frameworks - Data Augmentation - Under-Fitting Vs Over-Fitting-21!08!2024
3 pages
Optimization
No ratings yet
Optimization
3 pages
Chat GPT
No ratings yet
Chat GPT
4 pages
Lecture 2
No ratings yet
Lecture 2
31 pages
DL CS 6 M2 Live Session Flow
No ratings yet
DL CS 6 M2 Live Session Flow
32 pages
Momentum Update Rule
No ratings yet
Momentum Update Rule
4 pages
Optmizers 1729945752
No ratings yet
Optmizers 1729945752
11 pages
Deep Learning Exp 2.3 MU
No ratings yet
Deep Learning Exp 2.3 MU
4 pages
Introduction To Optimization-Lec1
No ratings yet
Introduction To Optimization-Lec1
36 pages
08 Training
No ratings yet
08 Training
18 pages
21BCP181 Ai 10
No ratings yet
21BCP181 Ai 10
8 pages
Twentyone 20466 PDF
No ratings yet
Twentyone 20466 PDF
15 pages
Optimization For Deep Learning: Sebastian Ruder
No ratings yet
Optimization For Deep Learning: Sebastian Ruder
49 pages
Op Tim Ization
No ratings yet
Op Tim Ization
1 page
Op Tim Ization
No ratings yet
Op Tim Ization
22 pages
Gradient Descent for ML Practitioners
No ratings yet
Gradient Descent for ML Practitioners
27 pages
BME 6407 - Class 10 (April 2023)
No ratings yet
BME 6407 - Class 10 (April 2023)
31 pages
Deep Learning Optimization Algorithms
No ratings yet
Deep Learning Optimization Algorithms
26 pages
AdaGrad - RMSProp - Adam
No ratings yet
AdaGrad - RMSProp - Adam
9 pages
Cst414-Deep Learning Module 2
No ratings yet
Cst414-Deep Learning Module 2
13 pages
Optimization
No ratings yet
Optimization
26 pages
Pure Optimization
No ratings yet
Pure Optimization
23 pages
Global Optimization for ML
No ratings yet
Global Optimization for ML
15 pages
Super GD
No ratings yet
Super GD
15 pages
Mcculloh: Linear Activation Function
No ratings yet
Mcculloh: Linear Activation Function
18 pages
Optimizer
No ratings yet
Optimizer
3 pages
Rajesh (DL Unit3) 06dec2024
No ratings yet
Rajesh (DL Unit3) 06dec2024
67 pages
Day 2 - Loss & Activation Functions
No ratings yet
Day 2 - Loss & Activation Functions
8 pages
Lecture 8.5
No ratings yet
Lecture 8.5
9 pages
Role of Optimizer in Neural Network
No ratings yet
Role of Optimizer in Neural Network
2 pages
Deep Learning
No ratings yet
Deep Learning
23 pages
DL Module 2 1 (Sami)
No ratings yet
DL Module 2 1 (Sami)
17 pages
Adam
No ratings yet
Adam
2 pages
Deep Learning Fundamentals Materials
100% (1)
Deep Learning Fundamentals Materials
216 pages
Lec 5 FAST +haar
No ratings yet
Lec 5 FAST +haar
24 pages
AI-Powered Vehicle Damage Estimator
No ratings yet
AI-Powered Vehicle Damage Estimator
14 pages
B - Principles of Training BP
No ratings yet
B - Principles of Training BP
11 pages
DL Lab Manual
No ratings yet
DL Lab Manual
18 pages
Models Definition 3. Gans Training 4. Types of Gans 5. Gans Applications
No ratings yet
Models Definition 3. Gans Training 4. Types of Gans 5. Gans Applications
28 pages
MAKE A COPY OF THE DOC - Harvard CV Template
No ratings yet
MAKE A COPY OF THE DOC - Harvard CV Template
1 page
CNN Layers and Operations Explained
No ratings yet
CNN Layers and Operations Explained
17 pages
Enhanced Fault Diagnosis in Rotating Machinery Using A Hybrid CWT-LeNet-5-LSTM Model Performance Across Various Load Conditions
No ratings yet
Enhanced Fault Diagnosis in Rotating Machinery Using A Hybrid CWT-LeNet-5-LSTM Model Performance Across Various Load Conditions
20 pages
Report On Sentiment Analysis For Customer Reviews
No ratings yet
Report On Sentiment Analysis For Customer Reviews
4 pages
Generative AI: Key Concepts & Challenges
90% (10)
Generative AI: Key Concepts & Challenges
3 pages
AI Chess: Carlsen vs. Machine
No ratings yet
AI Chess: Carlsen vs. Machine
8 pages
Pangu Pro MoE CN Report
No ratings yet
Pangu Pro MoE CN Report
34 pages
24 M A - Flat-Hierarchical - Approach - Based - On - Machine - Learning - Model - For - E-Commerce - Product - Classification
No ratings yet
24 M A - Flat-Hierarchical - Approach - Based - On - Machine - Learning - Model - For - E-Commerce - Product - Classification
16 pages
Binod ML Project-052
No ratings yet
Binod ML Project-052
14 pages
A Survey of Large Language Models
No ratings yet
A Survey of Large Language Models
144 pages
Moumita Saha: Personal Details
No ratings yet
Moumita Saha: Personal Details
6 pages
Photogrammetry: Dr. Razak Zakariya Lecturer Department of Marine Science FMSM UMT by
100% (1)
Photogrammetry: Dr. Razak Zakariya Lecturer Department of Marine Science FMSM UMT by
12 pages
Training Neural Networks
No ratings yet
Training Neural Networks
109 pages
AI ES GSARKER-1-14 (Chap1)
No ratings yet
AI ES GSARKER-1-14 (Chap1)
17 pages
(領先制勝試閱版) AWS AIF C01 401 405
No ratings yet
(領先制勝試閱版) AWS AIF C01 401 405
4 pages
Sujeet Bhagwat (04) - Aditya Gujar (27) - Swaraj Govindwar (26) - Krishna Gatlewar
No ratings yet
Sujeet Bhagwat (04) - Aditya Gujar (27) - Swaraj Govindwar (26) - Krishna Gatlewar
25 pages
Yolo
No ratings yet
Yolo
38 pages
Iva Syb With Lab
No ratings yet
Iva Syb With Lab
3 pages
CS 436 CS 5310-Computer Vision Fundamentals-Sohaib Ahmad Khan
No ratings yet
CS 436 CS 5310-Computer Vision Fundamentals-Sohaib Ahmad Khan
4 pages
Machine-Learning Research: Four Current Directions
No ratings yet
Machine-Learning Research: Four Current Directions
40 pages
CI Course Handout
No ratings yet
CI Course Handout
4 pages
Piyush
No ratings yet
Piyush
9 pages
Deep Learning - IIT Ropar - Unit 13 - Week 10
No ratings yet
Deep Learning - IIT Ropar - Unit 13 - Week 10
4 pages
Bab 7
No ratings yet
Bab 7
3 pages

Optimization Algorithms

Uploaded by

Optimization Algorithms

Uploaded by

Optimization algorithms

Dr. Abhijit Debnath

 Minimizing the Loss Function:

 Learning Rate Management:

 Handling Non-Convex Functions:

 Addressing Gradient Scaling Issues:

1. Gradient Descent (GD)

• Mini-batch GD: Splits dataset into smaller subsets

Loss for each feature

The Adam optimizer is a widely used optimization algorithm in deep learning,

 Regularization is a technique used in machine learning and statistics to prevent

You might also like