DMKD Guide

Uploaded by

harshroydscofficial

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views3 pages

DMKD Guide

Uploaded by

harshroydscofficial

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Guidelines of DSE Semester V (NEP UGCF 2022)

Data Mining for Knowledge Discovery

(Effective from Academic Year 2024-25)

Sr. Units Chapter Reference No. of

No. Hours
1 Unit 1 Introduction 1.1-1.4, 2.4.2, 2.4.3 [1] 6
(excluding properties)
Need for data mining, Data mining tasks,
Applications of data mining, Measures
of similarity and dissimilarity, Supervised vs.
unsupervised techniques.
2 Unit 2 Data collection and preparation 2.1,2.2, 2.3.1, 2.3.2, 2.3.3 [1] 8
(introduction), 2.3.4
Measurement and data collection issues, Data (introduction), 2.3.5
aggregation, Sampling, Dimensionality (introduction), 2.3.6
reduction, Feature subset selection, Feature (Binarization and
creation, Discretization and binarization, Discretization of Continuous
Variable transformation.. attributes), 2.3.7

3 Unit 3 Clustering data (14 Hours) 5.2 (5.2.1-upto Data in [1] 14

Euclidean Space, 5.2.5), 5.3
Basic concepts of clustering, Partitioning (5.3.1, 5.3.2-Excluding
Methods: K-means algorithm, Hierarchical Ward’s and Centroid
Methods: Agglomerative Hierarchical methods, 5.3.6), 5.4,
Clustering, Density-Based Methods: DBSCAN 5.5(5.5.1,5.5.5,5.5.7)
Algorithm, Strengths and weaknesses of
different methods, Cluster evaluation.
4 Unit 4 Classification 3 (up to 3.3.3), 3.4 [1] 10
(introduction) 3.6, 6.3, 6.4,
Preliminaries, Naive Bayes classifier, Nearest 6.7 (introduction),
Neighbour classifier, Decision tree, Artificial 6.11(introduction, 6.11.2)
Neural Network, overfitting, Confusion matrix,
Evaluation metrics and Model evaluation.

5 6.10 (Excluding 6.10.3) [1] 7

Unit 5 Ensemble Methods

Need for ensembles, Random Forest, Concept

of Bagging and Boosting in ensembles.
.

Text Book:
1. Tan P.N., Steinbach M, Karpatne A. and Kumar V. Introduction to Data Mining,
Second edition, Sixth Impression, Pearson, 2023.

Additional References:
1. Han J., Kamber M. and Pei J. Data Mining: Concepts and Techniques, 3 edition, rd

2011,
Morgan Kaufmann Publishers.
2. Zaki M. J. and Meira J. Jr. Data Mining and Machine Learning: Fundamental Concepts
and Algorithms, 2 edition, Cambridge University Press, 2020.
nd

3. Aggarwal C. C. Data Mining: The Textbook, Springer, 2015

4. Dunham M. Data Mining: Introductory and Advanced Topics, Pearson, 2006.

For practicals, datasets may be downloaded from :

1. https://archive.ics.uci.edu/datasets
2. https://www.kaggle.com/datasets?fileType=csv
3. https://data.gov.in/
4. https://ieee-dataport.org/datasets
5. Time Series Datasets (kaggle.com)
Suggested Practical Exercises
1. Apply data cleaning techniques on any dataset (e.g. Chronic Kidney Disease dataset from
UCI repository). Techniques may include handling missing values, outliers and inconsistent
values. Also, a set of validation rules may be specified for the particular dataset and validation
checks performed.

2. Apply data pre-processing techniques such as standardization/normalization,

transformation, aggregation, discretization/binarization, sampling etc. on any dataset

3. Apply simple K-means algorithm for clustering any dataset. Compare the performance
of clusters by varying the algorithm parameters. For a given set of parameters, plot a
line graph depicting MSE obtained after each iteration.

4. Perform partitioning, hierarchical, and density-based clustering algorithms on a

downloaded dataset and evaluate the cluster quality by changing the algorithm's
parameters.

5. Use Naive bayes, K-nearest, and Decision tree classification algorithms to build
classifiers on any two datasets. Pre-process the datasets using techniques specified in
Q2. Compare the Accuracy, Precision, Recall and F1 measure reported for each dataset
using the abovementioned classifiers under the following situations:
i. Using Holdout method (Random sampling):
a) Training set = 80% Test set = 20%
b) Training set = 66.6% (2/3rd of total), Test set = 33.3%
ii. Using Cross-Validation:
a) 10-fold
b) 5-fold
6. Use the Decision Tree classification algorithm to construct a classifier on two datasets.
Evaluate the classifier's performance by performing ten-fold cross validation. Compare
the performance with that of:
i. Bagging ensemble consisting of 3, 5, 7, 9 Decision tree classifiers
ii. Adaboost ensemble consisting of 3, 5, 7, 9 Decision tree classifiers

Project: Students should be promoted to take up one project on using dataset downloaded
from any of the websites given above and the dataset verified by the teacher. Preprocessing
steps and at least one data mining technique should be shown on the selected dataset. This
will allow the students to have a practical knowledge of how to apply the various skills learnt
in the subject for a single problem/project.

Guidelines Datamining I
No ratings yet
Guidelines Datamining I
3 pages
Guidelines Datamining II
No ratings yet
Guidelines Datamining II
2 pages
new-Guidelines-Datamining-I-UGCF-DSE-CS Hons-Sem 4-Jan 25
No ratings yet
new-Guidelines-Datamining-I-UGCF-DSE-CS Hons-Sem 4-Jan 25
3 pages
Guidelines-Datamining-I - UGCF-BA-major-sem 3 - July 24
No ratings yet
Guidelines-Datamining-I - UGCF-BA-major-sem 3 - July 24
3 pages
Guidelines-Datamining-I-UGCF-DSE-CS Hons-Sem 4-Jan2024
No ratings yet
Guidelines-Datamining-I-UGCF-DSE-CS Hons-Sem 4-Jan2024
3 pages
BSC (H) Computer Science Discipline Specific Elective-Data Mining-Ii (Guidelines) Sem V (July 2024 Onwards)
No ratings yet
BSC (H) Computer Science Discipline Specific Elective-Data Mining-Ii (Guidelines) Sem V (July 2024 Onwards)
2 pages
Guidelines Data mining-II BA Major Sem 4 NEP
No ratings yet
Guidelines Data mining-II BA Major Sem 4 NEP
2 pages
DM Guidelines 14jan2022
No ratings yet
DM Guidelines 14jan2022
5 pages
Data Mining Guidelines
No ratings yet
Data Mining Guidelines
4 pages
Recommender System - Module 2 - Data Mining Techniques in Recommender System
No ratings yet
Recommender System - Module 2 - Data Mining Techniques in Recommender System
58 pages
Assignment DMW
No ratings yet
Assignment DMW
2 pages
Handout
No ratings yet
Handout
4 pages
Program Name BCA Title of The Course Data Mining Course Code CA-E1 Credits 03 Total No. of Teaching Hours 48
No ratings yet
Program Name BCA Title of The Course Data Mining Course Code CA-E1 Credits 03 Total No. of Teaching Hours 48
2 pages
DMDW Lesson Plan
No ratings yet
DMDW Lesson Plan
8 pages
DM IV YR MID2 Set2
No ratings yet
DM IV YR MID2 Set2
4 pages
Introduction To Data Mining-Sources
No ratings yet
Introduction To Data Mining-Sources
5 pages
On Unit-3
No ratings yet
On Unit-3
30 pages
Btech Sem6 Cs1141 Data Mining
No ratings yet
Btech Sem6 Cs1141 Data Mining
5 pages
Gujarat Technological University: Page 1 of 2
No ratings yet
Gujarat Technological University: Page 1 of 2
2 pages
ChatGPT - Shared Content
No ratings yet
ChatGPT - Shared Content
26 pages
Winsem2012-13 Cp0535 Modqst Model QP
No ratings yet
Winsem2012-13 Cp0535 Modqst Model QP
4 pages
Revision (Ques - Only)
No ratings yet
Revision (Ques - Only)
2 pages
Data Mining Unit-IV
No ratings yet
Data Mining Unit-IV
5 pages
M S Ramaiah Institute of Technology Department of Information Science & Engg
No ratings yet
M S Ramaiah Institute of Technology Department of Information Science & Engg
11 pages
Lesson Plan: Unit Topic Books For Reference No. of Hours Required Teaching Methodology
No ratings yet
Lesson Plan: Unit Topic Books For Reference No. of Hours Required Teaching Methodology
6 pages
Cif DM
No ratings yet
Cif DM
3 pages
DWM NOTES
No ratings yet
DWM NOTES
118 pages
Data Mining
No ratings yet
Data Mining
20 pages
CS-DM Module - 1
No ratings yet
CS-DM Module - 1
27 pages
Data Mining Q&A and Techniques
No ratings yet
Data Mining Q&A and Techniques
44 pages
DWDM Unit Wise Question Bank
No ratings yet
DWDM Unit Wise Question Bank
8 pages
Data Mining University Answer
No ratings yet
Data Mining University Answer
10 pages
DMBI All Pyqs
No ratings yet
DMBI All Pyqs
4 pages
Dmbda 2no.
No ratings yet
Dmbda 2no.
13 pages
6 DM
No ratings yet
6 DM
2 pages
DM - Unit-1 - Fundamentals of Data Mining
No ratings yet
DM - Unit-1 - Fundamentals of Data Mining
43 pages
Course Details
No ratings yet
Course Details
2 pages
CS F415 Data Mining L1
No ratings yet
CS F415 Data Mining L1
4 pages
Data Mining Exam Prep Guide
No ratings yet
Data Mining Exam Prep Guide
4 pages
Lecture 3.1.3 3.1.4
No ratings yet
Lecture 3.1.3 3.1.4
24 pages
Data Mining Unitwise Imp Questions
No ratings yet
Data Mining Unitwise Imp Questions
3 pages
2021-22 DM Lab Manual
No ratings yet
2021-22 DM Lab Manual
53 pages
Cse3054 - Data-Mining - Concepts-And-Techniques - Eth - 1.0 - 66 - Cse3054 - 61 Acp
No ratings yet
Cse3054 - Data-Mining - Concepts-And-Techniques - Eth - 1.0 - 66 - Cse3054 - 61 Acp
2 pages
Template-Data Mining
No ratings yet
Template-Data Mining
3 pages
ML Passing Package - 1
No ratings yet
ML Passing Package - 1
43 pages
Data Ming
No ratings yet
Data Ming
28 pages
MLT Syllabus
No ratings yet
MLT Syllabus
3 pages
Data Mining New Notes Unit 3 PDF
No ratings yet
Data Mining New Notes Unit 3 PDF
12 pages
Classification
No ratings yet
Classification
36 pages
Assignment 3
No ratings yet
Assignment 3
4 pages
DMBI Sample Questions
No ratings yet
DMBI Sample Questions
7 pages
DMBI Questions
No ratings yet
DMBI Questions
8 pages
ME F321 - Data Minining in Mechanical Sciences - Handout - Jan 2023
No ratings yet
ME F321 - Data Minining in Mechanical Sciences - Handout - Jan 2023
4 pages
Data Mining Lesson Plan-Revised Syllabus
No ratings yet
Data Mining Lesson Plan-Revised Syllabus
4 pages
Data Mining Notes: 7 Semester. CS 1435: Syllabus
No ratings yet
Data Mining Notes: 7 Semester. CS 1435: Syllabus
4 pages
Sample Question DMW
No ratings yet
Sample Question DMW
4 pages
DM Chapter 4
No ratings yet
DM Chapter 4
47 pages
Data Mining Chapter 1 Notes
100% (1)
Data Mining Chapter 1 Notes
40 pages
DBMS Ass 2
No ratings yet
DBMS Ass 2
1 page
Public Admin Vs Sociology Comparison Harsh Roy
No ratings yet
Public Admin Vs Sociology Comparison Harsh Roy
2 pages
Chandrataal 2N3D Safardestiny
No ratings yet
Chandrataal 2N3D Safardestiny
11 pages
PYQ Comparison Public Administration Vs Sociology Harsh Roy
No ratings yet
PYQ Comparison Public Administration Vs Sociology Harsh Roy
2 pages
Notice Guidelines For Booking 13.04.2023
No ratings yet
Notice Guidelines For Booking 13.04.2023
1 page
Guidelines-Computer Networks
No ratings yet
Guidelines-Computer Networks
2 pages
22DSCDBGCS000027
No ratings yet
22DSCDBGCS000027
1 page
University of Delhi: Semester Examination JUNE 2024 Statement of Marks / Grades
No ratings yet
University of Delhi: Semester Examination JUNE 2024 Statement of Marks / Grades
2 pages
Study On Decentralized Identity and Privacy Preserving Cyber Security
No ratings yet
Study On Decentralized Identity and Privacy Preserving Cyber Security
7 pages
Liz: I Am Afraid That I Am Putting On Weight. - Tony
No ratings yet
Liz: I Am Afraid That I Am Putting On Weight. - Tony
6 pages
3SFE605 Concurrent Programming 2009
No ratings yet
3SFE605 Concurrent Programming 2009
9 pages
Template A4 Portrait
No ratings yet
Template A4 Portrait
4 pages
ICT's Impact on Uttarakhand Lifestyle
No ratings yet
ICT's Impact on Uttarakhand Lifestyle
6 pages
BioBridge Quick Start Guide - Lenel OnGuard (OpenAccess)
No ratings yet
BioBridge Quick Start Guide - Lenel OnGuard (OpenAccess)
20 pages
2.4 Variabel
No ratings yet
2.4 Variabel
13 pages
10th IT - Sample Paper
No ratings yet
10th IT - Sample Paper
5 pages
3HAC049406-003 CD IRC5c - Rev10
No ratings yet
3HAC049406-003 CD IRC5c - Rev10
60 pages
Mobile Tracking Memanfaatkan Teknologi Global Positioning System (GPS) Dan General Packet Radio Service (GPRS
No ratings yet
Mobile Tracking Memanfaatkan Teknologi Global Positioning System (GPS) Dan General Packet Radio Service (GPRS
7 pages
Srujana Short Resume
No ratings yet
Srujana Short Resume
2 pages
Empowerment Technologies Quarter 1, Module 3
No ratings yet
Empowerment Technologies Quarter 1, Module 3
12 pages
PD Syllabus
No ratings yet
PD Syllabus
2 pages
SCW OS Level V
No ratings yet
SCW OS Level V
59 pages
85027A (브릿지)
No ratings yet
85027A (브릿지)
88 pages
Full Stack Development
No ratings yet
Full Stack Development
27 pages
Communication Protocols
No ratings yet
Communication Protocols
24 pages
B.Tech CSE Course Structure
No ratings yet
B.Tech CSE Course Structure
120 pages
Exterro FTK 7.5.1-User Guide
No ratings yet
Exterro FTK 7.5.1-User Guide
612 pages
Distributed Computing Full Assignment
No ratings yet
Distributed Computing Full Assignment
4 pages
Coding Question in C....
No ratings yet
Coding Question in C....
8 pages
Sun Storage 7000 Unified Storage System Administration Guide
No ratings yet
Sun Storage 7000 Unified Storage System Administration Guide
388 pages
Python Lab Manual
No ratings yet
Python Lab Manual
63 pages
English Learning Exercises
No ratings yet
English Learning Exercises
2 pages
Changelog
No ratings yet
Changelog
4 pages
Citrix Workspace - Assessing The Business Value of VDI in The Public Cloud - IDC Solution Brief
No ratings yet
Citrix Workspace - Assessing The Business Value of VDI in The Public Cloud - IDC Solution Brief
11 pages
EZR34T Outdoor LTE Router Guidance - v1.0 Web
No ratings yet
EZR34T Outdoor LTE Router Guidance - v1.0 Web
4 pages
Slides1 Introduction-Merged
No ratings yet
Slides1 Introduction-Merged
96 pages
PSA Nexteer EE Workshop 161207 Final
No ratings yet
PSA Nexteer EE Workshop 161207 Final
38 pages
Os - Lab - Manual Cse-2024-25
No ratings yet
Os - Lab - Manual Cse-2024-25
58 pages