0% found this document useful (0 votes)

31 views11 pages

ML Unit 2

The document discusses various proximity measures and distance metrics used in machine learning and data analysis, including Euclidean, Manhattan, Minkowski, Cosine, and Jaccard distances. It also covers classification algorithms based on these distance measures, particularly focusing on K-Nearest Neighbor (KNN) methods for both classification and regression tasks. Additionally, it highlights the importance of measuring similarity and dissimilarity in binary patterns using methods like Hamming distance and Jaccard similarity.

Uploaded by

maneeshgopisetty

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

31 views11 pages

ML Unit 2

Uploaded by

maneeshgopisetty

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

UNIT-II: Nearest Neighbor-Based Models: Introduction to Proximity Measures, Distance Measures, Non-Metric

Similarity Functions, Proximity Between Binary Patterns, Different Classification Algorithms Based on the Distance
Measures , K-Nearest Neighbor Classifier, Radius Distance Nearest Neighbor Algorithm, KNN Regression, Performance
of Classifiers, Performance of Regression Algorithms.

Introduction to Proximity Measures:=

Proximity measures are mathematical tools used to quantify the similarity or dissimilarity between
objects, typically in the context of data analysis, machine learning, and pattern recognition. These measures
are essential for clustering, classification, recommendation systems, among other applications.
Types of Proximity Measures
Proximity measures are broadly categorized into similarity measures (which indicate how alike two objects
are) and dissimilarity measures (which indicate how different two objects are).
1. Distance Metrics (Dissimilarity Measures)
o Euclidean Distance: The most common distance metric, defined as the straight-line distance
between two points in a multidimensional space.
o Manhattan Distance (Taxicab Distance): Measures distance by summing the absolute
differences along each dimension.
o Minkowski Distance: A generalized form of both Euclidean and Manhattan distances.
o Cosine Dissimilarity: Measures the angle between two vectors, commonly used in text
analysis.
2. Similarity Measures
o Cosine Similarity: Measures the cosine of the angle between two vectors, often used in text
and recommendation systems.
o Jaccard Similarity: Used for comparing the similarity of two sets, defined as the size of the
intersection divided by the size of the union.
o Pearson Correlation: Measures the linear correlation between two variables.

Distance Measures
Each distance measure is suited for specific types of data patterns. Below, we discuss the types of data suitable for
each measure, along with calculations and applications.

1. Euclidean Distance
**Pattern Type:** Continuous numerical data, typically used in Cartesian space.
Formula: d(A, B) = √((x₂ - x₁)² + (y₂ - y₁)²)
**Example Calculation:**
For A(2,3) and B(6,7):
d(A, B) = √((6-2)² + (7-3)²) = √32 ≈ 5.66
✅ Clustering (e.g., K-Means)
✅ Image Processing
✅ Biometrics (e.g., face recognition)
2. Manhattan Distance
**Pattern Type:** Grid-based movement, where only horizontal/vertical moves are allowed.
Formula: d(A, B) = |x₂ - x₁| + |y₂ - y₁|
**Example Calculation:**
For A(2,3) and B(6,7):
d(A, B) = |6-2| + |7-3| = 8
✅ Pathfinding (e.g., A* Algorithm)
✅ Urban Planning
✅ Logistics
3. Minkowski Distance
**Pattern Type:** Generalized distance metric; parameterized by 'p'.
Formula: d(A, B) = (∑ |xᵢ₂ - xᵢ₁|^p)^(1/p)
**Example Calculation:**
For A(2,3) and B(6,7), with p=3:
d(A, B) = ((4³ + 4³)^(1/3)) ≈ 5.02
✅ Machine Learning (e.g., K-NN)
✅ Dimensionality Reduction
4. Cosine Distance
**Pattern Type:** High-dimensional text and vector data, measuring the angle between vectors.
Formula: d(A, B) = 1 - (∑ xᵢ yᵢ) / (√(∑ xᵢ²) * √(∑ yᵢ²))
**Example Calculation:**
For vectors A = (1,2,3) and B = (4,5,6):
cosθ ≈ 0.97
d(A, B) = 1 - 0.97 = 0.03
✅ NLP (e.g., text similarity)
✅ Recommendation Systems
✅ Document Clustering
5. Jaccard Distance
**Pattern Type:** Categorical and set data, measuring overlap between sets.
Formula: d(A, B) = 1 - |A ∩ B| / |A ∪ B|
**Example Calculation:**
For sets A={1,2,3,4} and B={3,4,5,6}:
d(A, B) = 1 - (2/6) = 0.67
✅ Plagiarism Detection
✅ Bioinformatics
✅ Recommendation Systems

Distance Measure Best For Example Use Case

Euclidean Distance Continuous numerical data K-Means Clustering, Face

Recognition
Manhattan Distance Grid-based movement Pathfinding, Supply Chain
Optimization
Minkowski Distance Mixed feature types ML Models (K-NN, SVM)

Cosine High-dimensional vector data Text Similarity, Document Clustering

Distance

Jaccard Distance Categorical & Set data Plagiarism Detection, Bioinformatics

Metric Similarity (Distance) Functions

A metric is a measure that satisfies three key properties:
1. Positive Reflexivity: d(x,x)=0d(x, x) = 0d(x,x)=0
2. Symmetry: d(x,y)=d(y,x)d(x, y) = d(y, x)d(x,y)=d(y,x)
3. Triangular Inequality: d(x,y)≤d(x,z)+d(z,y)d(x, y) \leq d(x, z) + d(z, y)d(x,y)≤d(x,z)+d(z,y)
These properties ensure that the metric behaves like a proper distance measure.
Metric Functions: Follow strict mathematical properties and can be used for Euclidean-based distance
computations.

Non-metric Similarity Functions

These similarity functions do not necessarily obey the triangular inequality or symmetry. They are
commonly used in scenarios like:
 Image processing
 String matching
 Noisy data analysis
Examples of Non-Metric Similarity Measures:
1. k-Median Distance:
o Defined as the k-th median of the absolute differences between corresponding elements of
two vectors.
2. Cosine Similarity:
o Given two vectors xxx and yyy, the similarity measure is: S(x,y)=x⋅y∥x∥∥y∥S(x, y) = \frac{x
\cdot y}{\|x\| \|y\|}S(x,y)=∥x∥∥y∥x⋅y
o The corresponding distance function: d(x,y)=1−S(x,y)d(x, y) = 1 - S(x, y)d(x,y)=1−S(x,y)
o While it is symmetric, it violates the triangular inequality.
Example Demonstration (Violating Triangular Inequality)
 Given three vectors x,y,zx, y, zx,y,z in a 2D space, where angles between vectors are:
o xxx and zzz → 45°
o zzz and yyy → 45°
 The calculation shows that d(x,z)+d(z,y)<d(x,y)d(x, z) + d(z, y) < d(x, y)d(x,z)+d(z,y)<d(x,y),
violating the triangle inequality.
Non-Metric Functions: Provide more flexibility, especially for similarity measurements in data science,
image processing, and text analysis, but do not always obey distance axioms.

Proximity Between Binary Patterns

Binary patterns consist of data represented using only two values (typically 0 and 1). Measuring proximity
(similarity or dissimilarity) between such patterns is crucial in machine learning, pattern recognition, and
bioinformatics.

(a) Hamming Distance

• Measures the number of differing bit positions.
• Formula: d_H(x, y) = Σ | x_i - y_i |
• Example: x = 10110, y = 10011 → Hamming distance = 2 (differences at positions 3 and 5).

b) Jaccard Similarity

 Measures the proportion of shared 1s between two binary vectors.

• Measures shared 1s between two binary vectors.
• Formula: S(x, y) = M_11 / (M_11 + M_10 + M_01)

Where:

M_11= Count of 1s in both x and y

M_10= Count of 1 in x, 0 in y

M_01= Count of 0 in x, 1 in y

x = 10110, y = 10011

M_11=2 M_10=1 M_o1=1 S(x,y)=0.5

c)Simple Matching Coefficient (SMC)

The Simple Matching Coefficient (SMC) is a similarity measure used to compare binary data. It is defined as:

Explanation:

 f11: Number of positions where both vectors have 1s.

 f00: Number of positions where both vectors have 0s.

 f10: Number of positions where the first vector has 1 and the second has 0.

 f01: Number of positions where the first vector has 0 and the second has 1.

Hamming and Euclidean distances measure dissimilarity.

Jaccard, Dice, and Cosine similarity measure closeness.

Different Classification Algorithms Based on the Distance Measures

The target value is (2.1,0.7)

KNN Regression
KNN Regression is a simple yet effective non-parametric technique used to predict continuous values. It
works by averaging the target values of the nearest neighbors of a given input.
 KNN can be used for regression, not just classification.
 Given a dataset of labeled examples X={(x1,y1),(x2,y2),...,(xn,yn)}
 Where xi are data vectors and yi are scalar values.
 The process involves:
1. Finding the k nearest neighbors of a new data point xxx.
2. Averaging the corresponding Y-values to predict the output.
Performance of Classifiers
Performance of Regression Algorithms

DMi 03-Proximity
No ratings yet
DMi 03-Proximity
51 pages
ML - Unit-2 Notes
No ratings yet
ML - Unit-2 Notes
9 pages
UNIT-2 ML Notes
No ratings yet
UNIT-2 ML Notes
15 pages
ML Unit 2
No ratings yet
ML Unit 2
22 pages
DMi 03 Proximity
No ratings yet
DMi 03 Proximity
9 pages
4.4-InstanceBasedLearning Part 1
No ratings yet
4.4-InstanceBasedLearning Part 1
16 pages
DS - Module 3
No ratings yet
DS - Module 3
65 pages
ML Unit 2
No ratings yet
ML Unit 2
24 pages
Clustering for Data Science Students
No ratings yet
Clustering for Data Science Students
47 pages
Similarity Analysis
No ratings yet
Similarity Analysis
85 pages
Class Notes Unit 2 ML Material
No ratings yet
Class Notes Unit 2 ML Material
31 pages
Similarity and Distance Metrics
No ratings yet
Similarity and Distance Metrics
20 pages
Similarity
No ratings yet
Similarity
20 pages
Chapter 2
No ratings yet
Chapter 2
70 pages
Distance Metrices
No ratings yet
Distance Metrices
3 pages
3 Unit PR NonParametric Decision Making
No ratings yet
3 Unit PR NonParametric Decision Making
78 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
AIML-Unit 4 Notes-Assignment 4
No ratings yet
AIML-Unit 4 Notes-Assignment 4
21 pages
Instance Based Learning
No ratings yet
Instance Based Learning
20 pages
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
No ratings yet
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
25 pages
Unit-1 (Part-1) Similarity and Dissimilarity Measures
No ratings yet
Unit-1 (Part-1) Similarity and Dissimilarity Measures
24 pages
Dist
No ratings yet
Dist
14 pages
Machine Learning: kNN Techniques
No ratings yet
Machine Learning: kNN Techniques
9 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
9 Distance Measures in Data Science
No ratings yet
9 Distance Measures in Data Science
23 pages
Distances Similarities
No ratings yet
Distances Similarities
39 pages
Distance Functions
No ratings yet
Distance Functions
10 pages
IV Distance and Rule Based Models 4.1 Distance Based Models
No ratings yet
IV Distance and Rule Based Models 4.1 Distance Based Models
45 pages
ML
No ratings yet
ML
8 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
An Empirical Study of Distance Metrics For K-Nearest Neighbor Algorithm
No ratings yet
An Empirical Study of Distance Metrics For K-Nearest Neighbor Algorithm
6 pages
K Nearest Neighbour - Algorithm
No ratings yet
K Nearest Neighbour - Algorithm
29 pages
Data Mining: Similarity and Distance
No ratings yet
Data Mining: Similarity and Distance
6 pages
9 Distance Measures in Data Science - Towards Data Science
No ratings yet
9 Distance Measures in Data Science - Towards Data Science
14 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
Data Mining: Distance & Similarity
No ratings yet
Data Mining: Distance & Similarity
25 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
Distance Based Models
No ratings yet
Distance Based Models
58 pages
Similarity and Disimilarity Measures
No ratings yet
Similarity and Disimilarity Measures
2 pages
Nearest Neighbor Algorithms Guide
No ratings yet
Nearest Neighbor Algorithms Guide
26 pages
Distance and Similarity Metrics
No ratings yet
Distance and Similarity Metrics
14 pages
Lecture 7 - Distance Measures
No ratings yet
Lecture 7 - Distance Measures
38 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Lecture 4
No ratings yet
Lecture 4
33 pages
Unit II 2 Mark Answers ML
No ratings yet
Unit II 2 Mark Answers ML
3 pages
A Comparative Study On Distance Measuring Approach
No ratings yet
A Comparative Study On Distance Measuring Approach
3 pages
Introduction To Classification - KNN
No ratings yet
Introduction To Classification - KNN
29 pages
Distance and Similarity
No ratings yet
Distance and Similarity
33 pages
Distance and Similarity
No ratings yet
Distance and Similarity
33 pages
Distance Functions
No ratings yet
Distance Functions
7 pages
Week03 - 1 - KNN
No ratings yet
Week03 - 1 - KNN
32 pages
Class 1c - DataFundamentals
No ratings yet
Class 1c - DataFundamentals
27 pages
CS2209 Similarity Distances
No ratings yet
CS2209 Similarity Distances
23 pages
4 KNN Classifier
No ratings yet
4 KNN Classifier
6 pages
Machine Learning KNN Presentation
No ratings yet
Machine Learning KNN Presentation
28 pages
Machine Learning KNN Presentation
No ratings yet
Machine Learning KNN Presentation
28 pages
Showfile
No ratings yet
Showfile
130 pages
Reachable Distance Function For KNN Classification
No ratings yet
Reachable Distance Function For KNN Classification
152 pages
ROB Mid 1 QB
No ratings yet
ROB Mid 1 QB
3 pages
ML Unit 1
No ratings yet
ML Unit 1
15 pages
Self Quiz Generator
No ratings yet
Self Quiz Generator
9 pages
Unit II - Design Thinking and Innovation
No ratings yet
Unit II - Design Thinking and Innovation
17 pages
Micro-Tools For Students
No ratings yet
Micro-Tools For Students
7 pages
Maths 2B 2M (60) ...
No ratings yet
Maths 2B 2M (60) ...
2 pages
IP Unit-1-1
No ratings yet
IP Unit-1-1
42 pages
R23 DL and Co Imp Questions
100% (1)
R23 DL and Co Imp Questions
6 pages
Adsaa Imp Questions
No ratings yet
Adsaa Imp Questions
3 pages
Reasoning Under Uncertainty
No ratings yet
Reasoning Under Uncertainty
8 pages
DAA Unit II
No ratings yet
DAA Unit II
13 pages
CAI External Lab Schedule 2-1
No ratings yet
CAI External Lab Schedule 2-1
1 page
SOC Sample Format - 24
No ratings yet
SOC Sample Format - 24
9 pages
Graph Theory for CS Students
No ratings yet
Graph Theory for CS Students
59 pages
Dynamic Programming for CSE Students
No ratings yet
Dynamic Programming for CSE Students
42 pages
09 Domain Analysis Testing - Done
No ratings yet
09 Domain Analysis Testing - Done
14 pages
Local Boutique Problem Solution
No ratings yet
Local Boutique Problem Solution
10 pages
DSBDAL Lab Manual
No ratings yet
DSBDAL Lab Manual
26 pages
Linked List
No ratings yet
Linked List
8 pages
10 DTFS DTFT
No ratings yet
10 DTFS DTFT
56 pages
Reserve Price Optimization For First Price Auctions: Zhe Feng, S Ebastien Lahaie, Jon Schneider, and Jinchao Ye
No ratings yet
Reserve Price Optimization For First Price Auctions: Zhe Feng, S Ebastien Lahaie, Jon Schneider, and Jinchao Ye
1 page
Hamming Code Implementation in Verilog
No ratings yet
Hamming Code Implementation in Verilog
5 pages
Multinomial Problem Statement
No ratings yet
Multinomial Problem Statement
28 pages
220C3A
No ratings yet
220C3A
2 pages
AI & ML in Transportation Systems
100% (1)
AI & ML in Transportation Systems
6 pages
Detection of Structural Cracks of An Aircraft Using Deep Neural Networks
No ratings yet
Detection of Structural Cracks of An Aircraft Using Deep Neural Networks
9 pages
Sai Charan's Assignment 2 (Basic Statistics Level-2) Set 2
100% (1)
Sai Charan's Assignment 2 (Basic Statistics Level-2) Set 2
3 pages
Comparative Study Between Density Based Clustering - Dbscan and Optics
No ratings yet
Comparative Study Between Density Based Clustering - Dbscan and Optics
4 pages
Test 2
No ratings yet
Test 2
4 pages
Introduction To Classifier Performance Analysis With R by Sutaip L.C. Saw
No ratings yet
Introduction To Classifier Performance Analysis With R by Sutaip L.C. Saw
222 pages
NP and Computational Intractability
No ratings yet
NP and Computational Intractability
11 pages
Data Discretization
No ratings yet
Data Discretization
9 pages
Activity#5-Fourier Series and Fourier Transform
No ratings yet
Activity#5-Fourier Series and Fourier Transform
3 pages
2nd Order ODE Exam Questions
No ratings yet
2nd Order ODE Exam Questions
21 pages
Statistical and Mathematical Modeling Guide
No ratings yet
Statistical and Mathematical Modeling Guide
19 pages
Akmal Fahrezi Prak - STTK
No ratings yet
Akmal Fahrezi Prak - STTK
2 pages
3 Question in Mid-Semester: CODE
No ratings yet
3 Question in Mid-Semester: CODE
3 pages
Instruction Detection System Using Explainable AI
No ratings yet
Instruction Detection System Using Explainable AI
2 pages
Segpgd: An Effective and Efficient Adversarial Attack For Evaluating and Boosting Segmentation Robustness
No ratings yet
Segpgd: An Effective and Efficient Adversarial Attack For Evaluating and Boosting Segmentation Robustness
20 pages
Week1 UDL CM20315 01 Intro
No ratings yet
Week1 UDL CM20315 01 Intro
49 pages
Chapter#9 Queues
No ratings yet
Chapter#9 Queues
32 pages
MA271 2025 Course Information
No ratings yet
MA271 2025 Course Information
1 page
Secure File Storage On Cloud Using Hybrid Cryptography
No ratings yet
Secure File Storage On Cloud Using Hybrid Cryptography
8 pages
Bfs Dfs TSP Assignment
No ratings yet
Bfs Dfs TSP Assignment
4 pages
Data Structures Glossary
No ratings yet
Data Structures Glossary
5 pages

ML Unit 2

Uploaded by

ML Unit 2

Uploaded by

UNIT-II: Nearest Neighbor-Based Models: Introduction to Proximity Measures, Distance Measures, Non-Metric

Introduction to Proximity Measures:=

Distance Measure Best For Example Use Case

Euclidean Distance Continuous numerical data K-Means Clustering, Face

Cosine High-dimensional vector data Text Similarity, Document Clustering

Jaccard Distance Categorical & Set data Plagiarism Detection, Bioinformatics

Metric Similarity (Distance) Functions

Non-metric Similarity Functions

Proximity Between Binary Patterns

(a) Hamming Distance

 Measures the proportion of shared 1s between two binary vectors.

M_11= Count of 1s in both x and y

M_11=2 M_10=1 M_o1=1 S(x,y)=0.5

c)Simple Matching Coefficient (SMC)

 f11: Number of positions where both vectors have 1s.

 f00: Number of positions where both vectors have 0s.

Hamming and Euclidean distances measure dissimilarity.

Jaccard, Dice, and Cosine similarity measure closeness.

The target value is (2.1,0.7)

You might also like