0% found this document useful (0 votes)

4 views5 pages

Data Mining Notes

The document covers the fundamentals of data mining and knowledge discovery, differentiating between the two processes and outlining key functionalities such as classification and clustering. It also discusses data preprocessing techniques, various data mining models, clustering methods, and neural networks, highlighting their applications, advantages, and challenges. Additionally, it emphasizes the importance of model selection, evaluation metrics, and the role of machine learning in enhancing data analysis.

Uploaded by

vtu21910

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views5 pages

Data Mining Notes

Uploaded by

vtu21910

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Unit 1 - Data Mining and Knowledge Discovery

1. Differentiate Data Mining and Knowledge Discovery

Data Mining: Process of discovering patterns.
Knowledge Discovery: Overall process, includes data cleaning, transformation, mining.

2. Functionalities of Data Mining (2 Examples)

- Classification: Predict categories.
- Clustering: Group similar items.

3. Interesting Pattern: A pattern that is valid, novel, useful, and understandable.

4. Predictive vs Descriptive
Predictive: Future prediction (e.g., classification).
Descriptive: Pattern discovery (e.g., clustering).

5. 10 Applications: Marketing, Fraud Detection, Stock Market, Health Care, Web Mining, Telecom,
Retail, Education, Manufacturing, Banking.

6. Machine Learning: AI technique enabling systems to learn. Types: Supervised, Unsupervised,

Reinforcement.

7. Model Selection: Choosing best model (based on accuracy, performance).

8. Overfitting: Model performs well on training data but poorly on unseen data. Evaluation Metrics:
Accuracy, F1-Score.

9. Concept Learning Goal: Learn a general concept from examples. E.g., Learning "fruit" concept
from apples, bananas.

Unit 2 - Data Preprocessing

1. Issues in Raw Data: Missing values, noise, outliers, inconsistencies.

2. Outlier Removal: Z-Score Method, IQR Method.

3. Concept Hierarchy: Organizing data into levels of abstraction. E.g., Country > State > City.

4. Dimensionality Reduction: Reduce features. Important for efficiency and avoiding overfitting.

5. Feature Extraction Examples: Image Processing, Speech Recognition.

6. Variable Selection: Filter, Wrapper, Embedded Methods.

7. Variable Ranking: Ordering features based on relevance.

8. Objectives of LDA: Maximize class separation, reduce dimensions.

9. PCA: Projects data onto principal components to reduce dimensions.

10. Factor Analysis: Identify underlying relationships among variables.

11. Cross-Validation: Evaluates model?s performance.

12. Resampling Methods: Improve accuracy by sampling data (e.g., bootstrapping).

Unit 3 - Data Mining Models

1. Regression Models Pros & Cons

Pros: Predicts continuous values. Cons: Sensitive to outliers.

2. Types of Association Rule Mining: Single-dimensional, Multi-dimensional, Quantitative.

3. Decision Tree Induction: Build tree based on attribute selection (e.g., ID3, C4.5).
4. Bayes Theorem: P(A|B) = P(B|A)*P(A)/P(B).

5. Constraints in ARM: Knowledge, Data, Rule constraints.

6. Support Vector Machine: Classifier that maximizes margin.

7. Decision Tree Parameters: Entropy, Information Gain, Gini Index.

8. Gaussian Mixture Steps: Initialization, E-Step, M-Step, Repeat.

9. K-NN Phases: Feature selection, Distance calculation, Voting.

10. K Value in K-NN: Balances bias-variance trade-off.

Unit 4 - Clustering

1. Partitioning Clustering: Divides dataset into exclusive clusters (e.g., K-Means).

2. K-Means vs K-Medoid
K-Means: Uses mean, sensitive to outliers.
K-Medoid: Uses medoid, robust.

3. Density-Based Clustering: Groups dense regions.

4. DBSCAN: Clusters arbitrary shapes, handles noise.

5. EM Steps: E-Step, M-Step, Repeat.

6. Hierarchical Clustering: Builds tree (e.g., agglomerative clustering).

7. Agglomerative vs Divisive
Agglomerative: Bottom-up.
Divisive: Top-down.
8. Fuzzy C-Means: Allows soft clustering.

9. Matching Methods
K-Means: Partitioning.
DBSCAN: Density-Based.
Hierarchical: Hierarchical.

10. Features of BIRCH, ROCK, Chameleon

BIRCH: Incremental clustering.
ROCK: Link-based.
Chameleon: Interconnectivity-based.

Unit 5 - Neural Networks

1. ANN: Computational model inspired by brain.

2. Backpropagation: Updates weights by propagating error.

3. Input Layer: Receives raw data.

4. Hyperparameters: Settings like learning rate, batch size.

5. Optimizers: SGD, Adam.

6. Learning Rate: Controls step size in gradient descent.

7. AND Gate with Perceptron: Weights = 1, Bias = -1.5.

8. Loss Functions: MSE, Cross-Entropy, Hinge.

9. Training vs Validation
Training: Model learns.
Validation: Model is evaluated.

10. Forward Propagation in MLP: Pass input through layers, apply weights, activations.

DM Answers CAT-1
No ratings yet
DM Answers CAT-1
18 pages
Data Mining Module1 Expanded Notes
No ratings yet
Data Mining Module1 Expanded Notes
3 pages
ML Theory Questions
No ratings yet
ML Theory Questions
2 pages
Data Mining
No ratings yet
Data Mining
9 pages
Data Mining
No ratings yet
Data Mining
18 pages
Data Mining Module 1 Theory
No ratings yet
Data Mining Module 1 Theory
4 pages
Data Mining Essentials for Analysts
No ratings yet
Data Mining Essentials for Analysts
2 pages
Data Mining Q&A and Techniques
No ratings yet
Data Mining Q&A and Techniques
44 pages
60 Common Data Mining Interview Questions in 2025
No ratings yet
60 Common Data Mining Interview Questions in 2025
20 pages
Data Mining Summaries PDF
No ratings yet
Data Mining Summaries PDF
22 pages
Introduction To Data Mining: Modular Content Structure 1
No ratings yet
Introduction To Data Mining: Modular Content Structure 1
2 pages
Ba 404
No ratings yet
Ba 404
2 pages
DM Vsaq
No ratings yet
DM Vsaq
8 pages
DWDM 2marks
No ratings yet
DWDM 2marks
15 pages
Unit1 - Intoduction To Data Mining
No ratings yet
Unit1 - Intoduction To Data Mining
10 pages
PredictiveAnalysis U1 U2
No ratings yet
PredictiveAnalysis U1 U2
7 pages
Unit 1
No ratings yet
Unit 1
148 pages
Mining Frequent Patterns and Data Mining Topics Cleaned
No ratings yet
Mining Frequent Patterns and Data Mining Topics Cleaned
3 pages
DMDW
No ratings yet
DMDW
4 pages
Pa Unit 1
No ratings yet
Pa Unit 1
5 pages
DATA MINING (Gtu Sem-6) Assignment
No ratings yet
DATA MINING (Gtu Sem-6) Assignment
3 pages
DM 1
No ratings yet
DM 1
47 pages
Data Mining Question Bank 3,4,5
No ratings yet
Data Mining Question Bank 3,4,5
7 pages
Dmsyll
No ratings yet
Dmsyll
2 pages
A4629ac494 Syllabus
No ratings yet
A4629ac494 Syllabus
3 pages
Ba Unit 3 Own
No ratings yet
Ba Unit 3 Own
7 pages
Data Mining 1
No ratings yet
Data Mining 1
7 pages
Data Mining for IT Professionals
No ratings yet
Data Mining for IT Professionals
3 pages
Introduction To Data Mining Unit1
No ratings yet
Introduction To Data Mining Unit1
37 pages
DMBI
No ratings yet
DMBI
3 pages
Recommender System - Module 2 - Data Mining Techniques in Recommender System
No ratings yet
Recommender System - Module 2 - Data Mining Techniques in Recommender System
58 pages
Course Details
No ratings yet
Course Details
2 pages
Data Warehousing and Mining Summary
No ratings yet
Data Warehousing and Mining Summary
2 pages
Data Mining
No ratings yet
Data Mining
20 pages
DM Overview
No ratings yet
DM Overview
52 pages
Unit No 3
No ratings yet
Unit No 3
10 pages
Lecture 01 11jan
No ratings yet
Lecture 01 11jan
29 pages
Handout 2 Data Mining
No ratings yet
Handout 2 Data Mining
16 pages
DM Notes
No ratings yet
DM Notes
91 pages
Iv Semester: Data Mining Question Bank: Unit 2 2 Mark Questions)
No ratings yet
Iv Semester: Data Mining Question Bank: Unit 2 2 Mark Questions)
5 pages
360DigiTMG Practical Data Science New
100% (1)
360DigiTMG Practical Data Science New
168 pages
360DigiTmg E Book Data Science
100% (1)
360DigiTmg E Book Data Science
168 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
11 pages
DM Unit 1
No ratings yet
DM Unit 1
10 pages
Knowledge Management - 10 - Data Mining Overview
No ratings yet
Knowledge Management - 10 - Data Mining Overview
41 pages
FDS - I Unit
No ratings yet
FDS - I Unit
9 pages
DMM 1
No ratings yet
DMM 1
4 pages
Unit 1,2,3
No ratings yet
Unit 1,2,3
35 pages
DWDM Unit-II Notes
No ratings yet
DWDM Unit-II Notes
29 pages
3 - DM
No ratings yet
3 - DM
4 pages
DM Answers
No ratings yet
DM Answers
22 pages
Data Mining Module1 Notes ReferenceBased
No ratings yet
Data Mining Module1 Notes ReferenceBased
3 pages
DWDM Unit 1 Part 1
No ratings yet
DWDM Unit 1 Part 1
35 pages
DWDM Unit II
No ratings yet
DWDM Unit II
18 pages
Business Data Mining - Syllabus7675535
No ratings yet
Business Data Mining - Syllabus7675535
1 page
Data Mining - DM 1-5 Question Bank
No ratings yet
Data Mining - DM 1-5 Question Bank
10 pages
Unit 3 GR.B
No ratings yet
Unit 3 GR.B
4 pages
Why Should We Multiply The Standard Deviation by 3 When We Calculate The Limit of Detection
No ratings yet
Why Should We Multiply The Standard Deviation by 3 When We Calculate The Limit of Detection
14 pages
UTP Student Industrial Project Report
92% (12)
UTP Student Industrial Project Report
70 pages
Edge Detection: From Matlab and Simulink To Real Time With Ti Dsps
No ratings yet
Edge Detection: From Matlab and Simulink To Real Time With Ti Dsps
22 pages
DAMA 50 Exam Final 22-23
No ratings yet
DAMA 50 Exam Final 22-23
11 pages
Share Full (Probability) Tests and Solutions (1 - 11)
No ratings yet
Share Full (Probability) Tests and Solutions (1 - 11)
105 pages
GR 3 Math Chapter 8
No ratings yet
GR 3 Math Chapter 8
24 pages
Chapter 3 - Linked List
No ratings yet
Chapter 3 - Linked List
22 pages
Theory of Tensile Test Engineering Essay PDF
No ratings yet
Theory of Tensile Test Engineering Essay PDF
8 pages
Lecture 13 Gauss Law and Electric Potential
No ratings yet
Lecture 13 Gauss Law and Electric Potential
53 pages
Technical Drawing 8 (Q1-Week 1)
No ratings yet
Technical Drawing 8 (Q1-Week 1)
4 pages
Astm d2234 1998
No ratings yet
Astm d2234 1998
13 pages
Course Content Teaching Mathematics in The Intermediate Grades
No ratings yet
Course Content Teaching Mathematics in The Intermediate Grades
3 pages
WPE 11th
No ratings yet
WPE 11th
14 pages
Introduction To Algorithm: Unit-1 Basics of Algorithms and
No ratings yet
Introduction To Algorithm: Unit-1 Basics of Algorithms and
11 pages
Linear Motion Basics for Students
No ratings yet
Linear Motion Basics for Students
6 pages
Security Enhanced Key Predistribution Scheme Using Transversal Designs and Reed Muller Codes For Wireless Sensor Networks
No ratings yet
Security Enhanced Key Predistribution Scheme Using Transversal Designs and Reed Muller Codes For Wireless Sensor Networks
16 pages
Inventory Theory - Group 11 - Technical Paper
No ratings yet
Inventory Theory - Group 11 - Technical Paper
45 pages
Precalculus Mathematics for Calculus 7th Edition Test Bank
No ratings yet
Precalculus Mathematics for Calculus 7th Edition Test Bank
40 pages
Key Business Definitions for BBA
No ratings yet
Key Business Definitions for BBA
5 pages
Syllabus
No ratings yet
Syllabus
107 pages
Four Ball EP Test Procedure
No ratings yet
Four Ball EP Test Procedure
2 pages
Towards An Enhanced Knowledge-Based Decision Support System (DSS) For Integrated Water Resource Management (IWRM)
No ratings yet
Towards An Enhanced Knowledge-Based Decision Support System (DSS) For Integrated Water Resource Management (IWRM)
8 pages
Farouki Presentation
No ratings yet
Farouki Presentation
45 pages
A A Glossary Traffic Analysis Terms
No ratings yet
A A Glossary Traffic Analysis Terms
13 pages
Mathematics PDF
No ratings yet
Mathematics PDF
200 pages
CLS - 1 Maths - Worksheet 2
No ratings yet
CLS - 1 Maths - Worksheet 2
4 pages
Ddco m-2
No ratings yet
Ddco m-2
2 pages
Calculus Powerpoint
No ratings yet
Calculus Powerpoint
30 pages
X Project Topics
No ratings yet
X Project Topics
1 page