Lecture 02

The document provides an overview of advanced data mining techniques, including classification, clustering, and association rule mining, along with model evaluation methods. It highlights various algorithms and metrics used for classification and clustering, as well as real-world applications in fields like healthcare, retail, and banking. The importance of model evaluation to prevent overfitting and ensure generalization is also emphasized.

Uploaded by

Hayat Hyt

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views13 pages

Lecture 02

Uploaded by

Hayat Hyt

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 13

Advanced Data Mining:

Techniques & Evaluation

Data Mining
Computer Science Faculty
Khana-e-Noor University

2025
Advanced Data Mining: Techniques & Evaluation
Classification, Clustering, Association, Model Evaluation
Agenda

• Classification Techniques
• Clustering Techniques
• Association Rule Mining
• Model Evaluation Methods
• Real-World Applications
Classification – Supervised Learning

• Goal: Predict a target class label for given input features

• Example:
o Use case: Email Spam Detection
o Input features: Words in the email, sender domain, time
o Output class: Spam / Not Spam
Common Classification Algorithms
• Decision Tree:
o Tree-like structure where nodes are tests on features
o Example: "If income > 50k → Approved, else → Denied"
• Naïve Bayes:
o Probabilistic model based on Bayes' Theorem
o Example: Spam filtering based on word frequency
• k-Nearest Neighbors (k-NN):
o Classifies based on majority label of nearest neighbors
• SVM (Support Vector Machine):
o Finds optimal hyperplane to separate classes
Classification – Metrics (with Example)

• Confusion Matrix:
Predicted Positive Predicted Negative
Actual Positive TP = 80 FN = 20
Actual Negative FP = 10 TN = 90
• Accuracy: (TP+TN) / Total = (80+90)/200 = 85%
• Precision: TP / (TP+FP) = 80 / (80+10) = 88.9%
• Recall: TP / (TP+FN) = 80 / (80+20) = 80%
: Clustering – Unsupervised Learning

• Goal: Group similar records into clusters

• Example Use Case: Customer Segmentation
o Input: Age, income, purchase history
o Output Clusters: High-value customers, Occasional buyers, Low
spenders
: Clustering – Unsupervised Learning
• k-Means:
o Partitions data into k clusters by minimizing intra-cluster distance
o Example: Cluster customers into 3 buying behavior groups
• Hierarchical Clustering:
o Builds a tree (dendrogram) of clusters
o Good for small datasets
• DBSCAN:) Density-Based Spatial Clustering of Applications with Noise(
O Density-based; detects noise and outliers
O Great for non-spherical clusters
Association Rule Mining
• Goal: Discover interesting relationships among items
• Example:
o Rule: {Milk, Bread} → {Butter}
o Support: 20% (20 out of 100 transactions contain all 3)
o Confidence: 80% (20 out of 25 that had Milk and Bread also had Butter)
o Lift: >1 implies positive association
• Algorithms:
o Apriori: Uses candidate generation
o FP-Growth: Uses tree structure, faster for large data
________________________________________
Model Evaluation
• Why Important? Prevent overfitting, ensure generalization
• Methods:
o Holdout Method: Train/test split
o k-Fold Cross-Validation: Data split into k parts, rotating test sets
o Leave-One-Out CV: Special case of k-fold with k = n
• Bias-Variance Tradeoff:
o High bias → underfitting
o High variance → overfitting
Real-World Applications
• Healthcare: Predicting disease based on symptoms (classification)
• Retail: Finding product bundles (association rules)
• Banking: Customer segmentation (clustering), fraud detection
• E-commerce: Recommender systems (hybrid of techniques)
Summary
• Reviewed 3 major data mining techniques:
o Classification for labeled predictions
o Clustering for grouping data
o Association for rule discovery
• Learned how to evaluate models effectively
• Discussed real-world use cases
Thanks!
Any questions?

Classification in Data Mining
No ratings yet
Classification in Data Mining
60 pages
Machine Learning Note Modul 4 5
No ratings yet
Machine Learning Note Modul 4 5
20 pages
DWM Ia-2 QB
No ratings yet
DWM Ia-2 QB
10 pages
Concepts and Techniques: - Chapter 10
No ratings yet
Concepts and Techniques: - Chapter 10
97 pages
Ba Group 5
No ratings yet
Ba Group 5
18 pages
Introduction To Data Mining Unit1
No ratings yet
Introduction To Data Mining Unit1
37 pages
Data Mining
No ratings yet
Data Mining
9 pages
10clustering - Han and Kamber
No ratings yet
10clustering - Han and Kamber
93 pages
Lec 1
No ratings yet
Lec 1
19 pages
1) Types of Machine Learning ? 2) Machine Learning Techniques ? 3) Unsupervised Learning Techniques ? 4) K-Means Technique ?
No ratings yet
1) Types of Machine Learning ? 2) Machine Learning Techniques ? 3) Unsupervised Learning Techniques ? 4) K-Means Technique ?
15 pages
DWDM Unit 1 Part 1
No ratings yet
DWDM Unit 1 Part 1
35 pages
Data Mining Techniques
No ratings yet
Data Mining Techniques
11 pages
Clustering
No ratings yet
Clustering
32 pages
Bia Unit-3 Part-2
No ratings yet
Bia Unit-3 Part-2
43 pages
Data Mining Notes
No ratings yet
Data Mining Notes
3 pages
Unit IV
No ratings yet
Unit IV
96 pages
Clustering K Means Agnes
No ratings yet
Clustering K Means Agnes
36 pages
Lecture 3.2.3 3.2.4
No ratings yet
Lecture 3.2.3 3.2.4
28 pages
BDA Unit 2
No ratings yet
BDA Unit 2
31 pages
EX2 Cahpters
No ratings yet
EX2 Cahpters
8 pages
Assignment 2nd DMDW
No ratings yet
Assignment 2nd DMDW
11 pages
Big Data Clustering Techniques
No ratings yet
Big Data Clustering Techniques
28 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
101 pages
DM Unit 1
No ratings yet
DM Unit 1
10 pages
Clustering Full 1
No ratings yet
Clustering Full 1
98 pages
Cluster Analysis in Data Mining
No ratings yet
Cluster Analysis in Data Mining
36 pages
Clustering
No ratings yet
Clustering
16 pages
Cluster-Analysis
No ratings yet
Cluster-Analysis
89 pages
Cluster Analysis
No ratings yet
Cluster Analysis
18 pages
Clustering Methods
No ratings yet
Clustering Methods
14 pages
Data Mining Clustering Guide
No ratings yet
Data Mining Clustering Guide
56 pages
Clustering
No ratings yet
Clustering
11 pages
Cluster Analysis
No ratings yet
Cluster Analysis
21 pages
Clustering Unit4
No ratings yet
Clustering Unit4
9 pages
Slides Courtesy: Ling Chen lchen@L3S.de
No ratings yet
Slides Courtesy: Ling Chen lchen@L3S.de
42 pages
Cluster Analysis: Basic Concepts Partitioning Methods Hierarchical Methods Density-Based Methods Grid-Based Methods Evaluation of Clustering
No ratings yet
Cluster Analysis: Basic Concepts Partitioning Methods Hierarchical Methods Density-Based Methods Grid-Based Methods Evaluation of Clustering
38 pages
Solve These
No ratings yet
Solve These
7 pages
Clustering
No ratings yet
Clustering
8 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
9 pages
A Short Review On Different Clustering Techniques and Their Applications
No ratings yet
A Short Review On Different Clustering Techniques and Their Applications
15 pages
Big Data 4 (3 - 4)
No ratings yet
Big Data 4 (3 - 4)
13 pages
10 Clus Basic
No ratings yet
10 Clus Basic
95 pages
Clustering
No ratings yet
Clustering
6 pages
Data Mining
No ratings yet
Data Mining
26 pages
Clustering
No ratings yet
Clustering
84 pages
Full Clustering
No ratings yet
Full Clustering
10 pages
Data Mining Tasks and Techniques
No ratings yet
Data Mining Tasks and Techniques
3 pages
Fundamentals of Data Science Unit 3
No ratings yet
Fundamentals of Data Science Unit 3
15 pages
Data Mining
No ratings yet
Data Mining
63 pages
Data Mining & Data Warehousing
No ratings yet
Data Mining & Data Warehousing
84 pages
Cluster Analysis for Researchers
No ratings yet
Cluster Analysis for Researchers
76 pages
Data Mining Clustering
No ratings yet
Data Mining Clustering
76 pages
Data Mining Algorithms 121725
No ratings yet
Data Mining Algorithms 121725
13 pages
Unit VII
No ratings yet
Unit VII
30 pages
Data Mining - 5
No ratings yet
Data Mining - 5
4 pages
Unsupervised Machine Learning
No ratings yet
Unsupervised Machine Learning
63 pages
Data Mining Implementation
No ratings yet
Data Mining Implementation
9 pages
Data Mining Intro
No ratings yet
Data Mining Intro
46 pages
Usingopertors and Loops
No ratings yet
Usingopertors and Loops
2 pages
Gabbiani Galaxy T3 Maintenance Checklist
No ratings yet
Gabbiani Galaxy T3 Maintenance Checklist
1 page
Compiler Construction Week1 Lecture
No ratings yet
Compiler Construction Week1 Lecture
28 pages
Web Security
No ratings yet
Web Security
4 pages
3rd 4th Weeks Compiler Construction
No ratings yet
3rd 4th Weeks Compiler Construction
26 pages
Lecture 00
No ratings yet
Lecture 00
12 pages
Soft Eng 1 - Chapter No 6-1
No ratings yet
Soft Eng 1 - Chapter No 6-1
54 pages
WinCut 12 Software Full Information
No ratings yet
WinCut 12 Software Full Information
3 pages
Gabbiani Galaxy T3 Full Details
No ratings yet
Gabbiani Galaxy T3 Full Details
4 pages
Morbidelli CyflexS Maintenance Checklist
No ratings yet
Morbidelli CyflexS Maintenance Checklist
1 page
Soft Eng 1 - Chapter No 5
No ratings yet
Soft Eng 1 - Chapter No 5
41 pages
Stefani MT-ERS Maintenance Checklist
No ratings yet
Stefani MT-ERS Maintenance Checklist
1 page
Escalator Stock Spare Part List
No ratings yet
Escalator Stock Spare Part List
2 pages
Gefran Adl300-Qs - en
No ratings yet
Gefran Adl300-Qs - en
130 pages
Soft Eng 1 - Chapter No 4-2
No ratings yet
Soft Eng 1 - Chapter No 4-2
40 pages
Soft Eng 1 - Chapter No 2-2
No ratings yet
Soft Eng 1 - Chapter No 2-2
23 pages
Business Stydy 2nd Chapter Sole Proprietorship
No ratings yet
Business Stydy 2nd Chapter Sole Proprietorship
30 pages
Soft Eng 1 - Chapter No 1-1
No ratings yet
Soft Eng 1 - Chapter No 1-1
40 pages
Soft Eng 1 - Chapter No 5-1
No ratings yet
Soft Eng 1 - Chapter No 5-1
41 pages
Web Design
No ratings yet
Web Design
41 pages
Reduction Using K-Map
No ratings yet
Reduction Using K-Map
14 pages
Minterm, Maxterm, 2 Variable K-Map
No ratings yet
Minterm, Maxterm, 2 Variable K-Map
13 pages
Fundamentals of Programming (Java)
No ratings yet
Fundamentals of Programming (Java)
15 pages
Mobile IP
No ratings yet
Mobile IP
18 pages
Fundamentals of Programming (Java)
No ratings yet
Fundamentals of Programming (Java)
19 pages
Paragraph Writing Essentials
No ratings yet
Paragraph Writing Essentials
26 pages
Fundamentals of Programming (Java)
No ratings yet
Fundamentals of Programming (Java)
20 pages
Letters and Its Types
No ratings yet
Letters and Its Types
22 pages
Access Specifiers in C++
No ratings yet
Access Specifiers in C++
14 pages
RDI Assignment On ANOVA
No ratings yet
RDI Assignment On ANOVA
5 pages
Cover Skripsi
No ratings yet
Cover Skripsi
13 pages
Lab 3. Linear Regression 230223
100% (1)
Lab 3. Linear Regression 230223
7 pages
Independent Samples T Test Step-By-Step JASP Guide
No ratings yet
Independent Samples T Test Step-By-Step JASP Guide
17 pages
ANOVA Test Bank for Stat Students
No ratings yet
ANOVA Test Bank for Stat Students
11 pages
Maths Assingment Yr 8 t1
No ratings yet
Maths Assingment Yr 8 t1
1 page
186 344 1 SM PDF
No ratings yet
186 344 1 SM PDF
12 pages
Materi GMM Panel Data
No ratings yet
Materi GMM Panel Data
11 pages
A Meta-Analytic Review of Social, Self-Concept, and Behavioral Outcomes of Peer-Assisted Learning
No ratings yet
A Meta-Analytic Review of Social, Self-Concept, and Behavioral Outcomes of Peer-Assisted Learning
18 pages
Skewness and Kurtosis Explained
100% (1)
Skewness and Kurtosis Explained
28 pages
Statistics in Experimental Research: Mark Anthony F. Casimiro Marikina Science High School-JHS
No ratings yet
Statistics in Experimental Research: Mark Anthony F. Casimiro Marikina Science High School-JHS
32 pages
Kde Slides
No ratings yet
Kde Slides
29 pages
Which Test Should I Use (Revised)
No ratings yet
Which Test Should I Use (Revised)
1 page
Epidemiology MCQs
76% (33)
Epidemiology MCQs
4 pages
Statistics for Nursing Researchers
No ratings yet
Statistics for Nursing Researchers
10 pages
SMDM Project
87% (15)
SMDM Project
23 pages
Excel Regression Analysis Template
No ratings yet
Excel Regression Analysis Template
5 pages
لتوافق الزواجي وعلاقته بالاستقرار الاسري لدى عينة من المتزوجين بمدينة مكة المكرمة
No ratings yet
لتوافق الزواجي وعلاقته بالاستقرار الاسري لدى عينة من المتزوجين بمدينة مكة المكرمة
161 pages
Excel Cheat Sheet
No ratings yet
Excel Cheat Sheet
36 pages
Probability and Statistics
No ratings yet
Probability and Statistics
2 pages
FE - Engineering Probability and Statistics
No ratings yet
FE - Engineering Probability and Statistics
22 pages
Stem & Leaf Diagram Tutorial
No ratings yet
Stem & Leaf Diagram Tutorial
12 pages
Analysisof Regressionin Game Theory Approach
No ratings yet
Analysisof Regressionin Game Theory Approach
14 pages
Ordinal Regression
No ratings yet
Ordinal Regression
4 pages
Mathematics7 - Q4 - Mod29 - Measures of Variability Grouped Data - V5
No ratings yet
Mathematics7 - Q4 - Mod29 - Measures of Variability Grouped Data - V5
30 pages
ECO 311 Regression Practice Set
No ratings yet
ECO 311 Regression Practice Set
6 pages
Joint Probability Distributions
No ratings yet
Joint Probability Distributions
6 pages
The Research Process - Variables - Statistics and Applications
No ratings yet
The Research Process - Variables - Statistics and Applications
7 pages
Comprehensive Guide to Data Visualization
No ratings yet
Comprehensive Guide to Data Visualization
34 pages
2024.01.20-27 QRM1 - C2 PDF Final
No ratings yet
2024.01.20-27 QRM1 - C2 PDF Final
40 pages

Lecture 02

Uploaded by

Lecture 02

Uploaded by

Advanced Data Mining:

Techniques & Evaluation

• Goal: Predict a target class label for given input features

• Goal: Group similar records into clusters

You might also like