0% found this document useful (0 votes)

98 views37 pages

Introduction To Data Mining Unit1

Introduction to datamining for beginners

Uploaded by

M Hemalatha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

98 views37 pages

Introduction To Data Mining Unit1

Introduction to datamining for beginners

Uploaded by

M Hemalatha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 37

UNIT – I

DATA MINING

Dr.M.Hemalatha
Department of Computer Science
Sri Ramakrishna College of Arts & Science
Coimbatore
SYLLABUS
Introduction - Data mining: an essential step in
knowledge discovery - Diversity of data types for
data mining -Mining various kinds of knowledge
- Multidimensional data summarization - Mining
frequent patterns, associations, and correlations
Classification and regression for predictive
analysis - Cluster analysis Deep learning Outlier
analysis-Database technology and data mining -
Data mining and data science.
Data
• Datum means "an item given“
• Individual pieces of information
• Structure that is often tabular (represented by
rows and columns)
• A tree (a set of nodes with parent-children
relationship)
• A graph (a set of connected nodes).
• Raw data, i.e., unprocessed data
Data, Information and Knowledge
• Data, information and knowledge frequently
overlap, mainly differing in abstraction
• Data is least abstract, information next least,
and knowledge most.
• Example:
– the height of Mt. Everest – Data
– a book on Mt. Everest geological characteristics –
Information
– a report containing practical information on the
best way to reach Mt. Everest's peak – Knowledge
Data, Information and Knowledge
What is Data Mining?
• Extracting useful patterns from large datasets.
• Also known as Knowledge Discovery from Data (KDD).
• Example: Market basket analysis in retail.
• Data mining is often defined as finding hidden
information or extracting meaningful information
from large database.
• It is also called exploratory data analysis, data driven
discovery and deductive learning.
Why Data Mining is Important
• Helps in decision-making by revealing hidden trends.
• Used in business, healthcare, finance, and more.
Example: Fraud detection in banking transactions.
• Alternative names:
– Knowledge discovery (mining) in databases (KDD)
– Knowledge extraction
– Data/pattern analysis
– Data archeology
– Data dredging
– Information harvesting
– Business intelligence, etc.
Steps in Knowledge Discovery

• Selection: Obtain data from various sources.

• Preprocessing: Cleanse data.
• Transformation: Convert to common format.
Transform to new format.
• Data Mining: Obtain desired results.
• Interpretation/Evaluation: Present results to
user in meaningful manner.
Data Mining Application Areas

1. Business and E-Commerce Data

• Major source category of data for DM
applications
• Back office, front office and network
applications produce large amounts of
data about business challenge
Business Transactions
Electronic Commerce
2. Scientific, Engineering and Health Care
Data
• Genomic Data
• Sensor Data
• Simulation Data
• Healthcare Data
• Web Data
• Multimedia Documents
• Data Web
3. Other Application Areas
• Risk Analysis
• Targeted Marketing
• Customer Retention
• Portfolio Management
• Brand Loyalty
• Banking
Types of Data
Data Type Explanation Examples
Organized in tables with Customer databases, Excel
Structured
rows/columns files

Flexible structure using JSON from APIs, XML

Semi-Structured
tags (XML/JSON) product listings

No fixed structure; rich in Emails, documents,

Unstructured
content images, videos
Time-Series Data over time intervals Stock prices, weather data
Geographical or location-
Spatial GPS data, map coordinates
based data

Rich content like Medical scans, surveillance

Multimedia
audio/video/images videos
Multidimensional Data Models

• • Data cube structure with dimensions and

measures.
• • Enables OLAP (Online Analytical Processing).
• Example: Sales data by product, time, region.
Database technology and data mining
• Databases are used to store, manage, and
retrieve vast amounts of structured data.
• Data mining is the process of discovering
patterns and knowledge from this data.
• Database technology provides the foundation
for efficient and scalable data mining.
Introduction to Data Mining Techniques

•Two major goals: Descriptive Analysis and

Predictive Modeling

•Key techniques:
🔹 Regression
🔹 Association Rule Discovery
🔹 Classification
🔹 Clustering
Regression Analysis
• Predictive technique used to estimate values
• Example: Predicting revenue based on
previous sales
• 📈 Use Case: Forecasting stock prices,
predicting housing prices
• Output: Continuous values
Association Rule Discovery
• Identifies relationships between items in
datasets
• 📦 Example: Customers who buy bread often buy
butter
• Common in:
🔹 E-commerce recommendations
🔹 Market Basket Analysis
• Format: IF {Item A} THEN {Item B}
Classification
• Assigns data items to predefined categories
• Example: Classifying emails as spam or not
spam
• Used in:
🔹 Fraud detection
🔹 Medical diagnosis
🔹 Document sorting
Clustering
• Groups similar data points together
• No predefined labels (unsupervised learning)
• 🎯 Used in:
🔹 Customer segmentation
🔹 Image compression
🔹 Social network analysis
Frequent Pattern Mining
• Sub-field of data mining for discovering
recurring patterns
• Finds frequent itemsets (e.g., milk + bread
bought together)
• Basis for association rules
• Methods:
🔹 Apriori
🔹 FP-Growth
Apriori Algorithm (Brief)
• Works by identifying frequent individual items
• Expands them to larger itemsets based on
minimum support
• Good for market basket data
FP-Growth Algorithm (Brief)
• Faster than Apriori
• Uses a special data structure: FP-tree
• Compresses data and mines frequent patterns
without candidate generation
Technique Goal Example Use Case

Regression Predict values Predict housing price

Product
Association Find relationships recommendation

Spam email
Classification Categorize data detection

Customer
Clustering Group similar data segmentation
Why Use Database Technology?
• Efficient storage, indexing, and retrieval of large datasets
• Built-in query processing (e.g., SQL)Seamless integration
with data mining algorithms
• High scalability, consistency, and data integrity
Types of Databases Used
• Relational Databases (RDBMS): Structured data with tables
and keys
• Data Warehouses: Integrated, historical data for analytics
• NoSQL Databases: For unstructured/semi-structured data
(e.g., MongoDB, Cassandra)
• Distributed Databases: Handle large-scale data across nodes
What is Data Mining?
• The process of discovering meaningful patterns in large
datasets
• Uses statistical techniques and machine learning
Common techniques:
• Clustering
• Classification
• Association rule mining
• Regression
What is Data Science?
• A broader discipline involving the entire data lifecycle
• Combines statistics, machine learning, data engineering,
and domain knowledge
Tasks include :
• Data collection & preprocessing
• Model building
Role of SQL in Data Mining
• SQL is used to select, filter, and aggregate data for
mining
• Useful operations: GROUP BY, JOIN, WHERE,
HAVING
• Extensions like DMX (Data Mining Extensions) in
Microsoft SQL Server
Data Warehousing
• A centralized repository of data from multiple
sources
• Supports multidimensional analysis
• Enables summarization and trend analysis over
time
• Ideal for preparing data before mining
What Are Frequent Patterns?
• Patterns that occur frequently in data
• Help in identifying valuable relationships
• Applications: Market basket analysis,
recommendation systems
Types of Frequent Patterns
• Frequent Itemsets: Items often bought together
– Example: Milk & Bread
• Sequential Patterns: Items bought in a sequence
– Example: Laptop → Camera → Memory Card
• Frequent Substructures: Repeated structures like
graphs, trees
– Example: Social network connections
Association Rule Mining
• 📊 Example Rule:
buys(X, "computer") ⇒ buys(X, "software")
• Support: 1% (appears in 1% of transactions)
• Confidence: 50% (if buys computer, 50% also
buy software)
Correlation Analysis
• Goes beyond simple association
• Finds statistical relationships between
attribute-value pairs
What is Classification?
• Classification = Predicting a category or class
• Builds a model from training data (with known
class labels)
• Model is used to predict class labels of
new/unseen data
How Classification Works
• Training Data – Data with known outcomes
• Model Building – Learn patterns from data
• Prediction – Use model to classify new inputs
📈 Example: Email → Spam or Not Spam
Decision Tree Overview
• 🌳 A Decision Tree is a flowchart-like structure:
• Node: Test on an attribute
• Branch: Outcome of the test
• Leaf: Final class label
• 📊 Example:
IF age < 30
→ IF student = yes → buy = yes
→ ELSE → buy = no
Regression vs Classification
Feature Classification Regression
Output Type Categorical (Labels) Continuous (Numbers)
Example Spam / Not Spam Predict house price
Linear Regression, etc.
Algorithm Used Decision Tree, SVM, etc.

• Application Areas
• Classification:
– Spam Detection
– Disease Diagnosis
– Credit Approval
• Regression:
– Stock Price Prediction
– Sales Forecasting
– Temperature Estimation
What is Cluster Analysis?
• A form of unsupervised learning
• Finds natural groupings in data
• No class labels are used or needed
• Groups similar objects into clusters
Common Clustering Algorithms
• K-Means Clustering – Partitions data into K
clusters
• Hierarchical Clustering – Builds a tree of clusters
• DBSCAN – Finds arbitrarily shaped clusters,
handles noise
Applications of Clustering
•Customer segmentation in marketing
•Social network analysis
•Image recognition & compression
•Medical data grouping
What is an Outlier?
• A data object that does not follow the general pattern
of the data
• Also called an anomaly
• Often treated as noise or exceptions, but can be
valuable
Outlier Analysis (Anomaly Mining)
• Process of detecting and analyzing these unusual data
points
• Can reveal rare but important events
• Common in:
– Fraud Detection
– Network Security
– Health Monitoring
Example – Credit Card Fraud
• 💳 Unusual behavior detection:
• Large purchases not typical for a customer
• Purchases in a different country or city
• Unusual purchase frequency
• → Might signal credit card misuse or theft
Outlier Detection Methods
• Statistical Methods:
– Based on probability distributions
– Identify points far from the expected values
• Distance-Based Methods:
– Outliers = Points far from any cluster
• Density-Based Methods:
– Look for local anomalies in dense regions
– Useful when global models fail
• Applications of Outlier Analysis
• 📊 Financial Sector: Fraud and risk detection
• 🌐 Cybersecurity: Detecting intrusions
• 🚑 Healthcare: Identifying abnormal patient
records
• 📦 Quality Control: Detecting faulty products

Data Mining at UVA: New Horizons in Teaching and Learning Conference
No ratings yet
Data Mining at UVA: New Horizons in Teaching and Learning Conference
19 pages
Lecture 3 Data Mining
No ratings yet
Lecture 3 Data Mining
30 pages
Introduction to Data Mining Concepts
No ratings yet
Introduction to Data Mining Concepts
10 pages
A Survey On Data Mining
No ratings yet
A Survey On Data Mining
4 pages
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
No ratings yet
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
30 pages
4 Data Mining & Preprocessing L 11,12,13,14,15,16
No ratings yet
4 Data Mining & Preprocessing L 11,12,13,14,15,16
100 pages
CH 6
No ratings yet
CH 6
72 pages
Retail Data Insights & Strategies
No ratings yet
Retail Data Insights & Strategies
24 pages
Data Mining: Business Intelligence
No ratings yet
Data Mining: Business Intelligence
68 pages
4-Confluence of Multiple Disciplines, Classifictaion, Integration-08-Feb-2021Material - I - 08-Feb-2021 - Mod1 - Confluence - Classifictaion
0% (1)
4-Confluence of Multiple Disciplines, Classifictaion, Integration-08-Feb-2021Material - I - 08-Feb-2021 - Mod1 - Confluence - Classifictaion
4 pages
Topic 1 Etw3482
100% (2)
Topic 1 Etw3482
69 pages
Data Mining Using Conceptual Clustering
No ratings yet
Data Mining Using Conceptual Clustering
29 pages
Data Mining Chapter 1 Notes
100% (1)
Data Mining Chapter 1 Notes
40 pages
Chapter 4 Descriptive Data Mining
No ratings yet
Chapter 4 Descriptive Data Mining
6 pages
DataMining Workbook Answers
No ratings yet
DataMining Workbook Answers
18 pages
Applications of Data Mining in The Banking Sector
No ratings yet
Applications of Data Mining in The Banking Sector
8 pages
Data Mining
No ratings yet
Data Mining
27 pages
Efficient Sequential Pattern Mining
No ratings yet
Efficient Sequential Pattern Mining
7 pages
Unit 1 - Introduction
No ratings yet
Unit 1 - Introduction
8 pages
Knowledge Management BCA-5001 Unit-3
No ratings yet
Knowledge Management BCA-5001 Unit-3
12 pages
Data Mining Tutorials
No ratings yet
Data Mining Tutorials
52 pages
Big Data Course for MBA Students
No ratings yet
Big Data Course for MBA Students
27 pages
By Ghazwan Khalid Auda
100% (1)
By Ghazwan Khalid Auda
17 pages
Data Mining Approach For Cyber Security
No ratings yet
Data Mining Approach For Cyber Security
7 pages
Module 1 Introduction To Data Science
No ratings yet
Module 1 Introduction To Data Science
24 pages
Research Paper
No ratings yet
Research Paper
7 pages
Data Mining With Clustering AND Classification
No ratings yet
Data Mining With Clustering AND Classification
16 pages
Chap5-Association Analysis
No ratings yet
Chap5-Association Analysis
102 pages
Data Science M-1 Notes
No ratings yet
Data Science M-1 Notes
34 pages
Assignment 1&2
No ratings yet
Assignment 1&2
4 pages
Frequent Patterns
No ratings yet
Frequent Patterns
80 pages
Decision Support Systems Guide
No ratings yet
Decision Support Systems Guide
9 pages
Data Mining & BI Lecture Overview
No ratings yet
Data Mining & BI Lecture Overview
50 pages
Data Mining for Analysts
100% (1)
Data Mining for Analysts
29 pages
Lecture Notes For Chapter 6: by Tan, Steinbach, Kumar
No ratings yet
Lecture Notes For Chapter 6: by Tan, Steinbach, Kumar
65 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Data Mining Unit 1
No ratings yet
Data Mining Unit 1
91 pages
IBM Data Analyts Professional Certificate Note
No ratings yet
IBM Data Analyts Professional Certificate Note
16 pages
Performance Comparison Between Naïve Bayes, Decision Tree and K-Nearest Neighbor in Searching Alternative Design in An Energy Simulation Tool
No ratings yet
Performance Comparison Between Naïve Bayes, Decision Tree and K-Nearest Neighbor in Searching Alternative Design in An Energy Simulation Tool
7 pages
Lec 37
No ratings yet
Lec 37
13 pages
Data Mining Implementation
No ratings yet
Data Mining Implementation
9 pages
Module2 Ids 240201 162026
No ratings yet
Module2 Ids 240201 162026
11 pages
ML Seminar Presentation
No ratings yet
ML Seminar Presentation
26 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
8 pages
Unit - I IDS
No ratings yet
Unit - I IDS
33 pages
Review Article: Data Mining For The Internet of Things: Literature Review and Challenges
No ratings yet
Review Article: Data Mining For The Internet of Things: Literature Review and Challenges
14 pages
Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets
No ratings yet
Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets
89 pages
Unit 4
No ratings yet
Unit 4
5 pages
MGT 636 Chapter 01 Problems
0% (1)
MGT 636 Chapter 01 Problems
2 pages
Data Analysis For Beginners Book - 2
100% (1)
Data Analysis For Beginners Book - 2
27 pages
Concepts and Techniques: Data Mining
100% (1)
Concepts and Techniques: Data Mining
81 pages
DWDM Unit - 1-1
No ratings yet
DWDM Unit - 1-1
25 pages
A Machine Learning Approach For Problem Solving
No ratings yet
A Machine Learning Approach For Problem Solving
16 pages
Anomaly Detection
No ratings yet
Anomaly Detection
11 pages
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
No ratings yet
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
27 pages
Week-1-Introduction To Data Mining
No ratings yet
Week-1-Introduction To Data Mining
43 pages
Data Mining
No ratings yet
Data Mining
254 pages
1 - DM
No ratings yet
1 - DM
5 pages
Data Mining Mids
No ratings yet
Data Mining Mids
24 pages
DM Unit 1
No ratings yet
DM Unit 1
10 pages
Managing Projects Chapter 14
No ratings yet
Managing Projects Chapter 14
33 pages
Chp. 08 (Highlighted)
No ratings yet
Chp. 08 (Highlighted)
10 pages
Electrical Engineering Students
No ratings yet
Electrical Engineering Students
17 pages
Athens and Sparta
No ratings yet
Athens and Sparta
5 pages
05 Guard of The House Hellsgarde
No ratings yet
05 Guard of The House Hellsgarde
2 pages
Book List GNM 2nd Year
No ratings yet
Book List GNM 2nd Year
1 page
8.0 Resolving Multi-Signal Drivers: 8.1 Buses
No ratings yet
8.0 Resolving Multi-Signal Drivers: 8.1 Buses
20 pages
Labour CESS PDF
No ratings yet
Labour CESS PDF
6 pages
MUA 0900 Winter 2024 Syllabus
No ratings yet
MUA 0900 Winter 2024 Syllabus
5 pages
PH Bahasa Inggris Unit 6
No ratings yet
PH Bahasa Inggris Unit 6
3 pages
Japan'S Religion: Richard U. Cayabyab (Ph. D. - Math, Presentor)
No ratings yet
Japan'S Religion: Richard U. Cayabyab (Ph. D. - Math, Presentor)
9 pages
Topic 1: Financial Manager (3 Fundamental Questions)
100% (1)
Topic 1: Financial Manager (3 Fundamental Questions)
8 pages
21 - Data Structure and Algorithms - Hash Table
No ratings yet
21 - Data Structure and Algorithms - Hash Table
9 pages
English Irregular Verbs Guide
No ratings yet
English Irregular Verbs Guide
2 pages
Subject Syllabus 1616352144
No ratings yet
Subject Syllabus 1616352144
2 pages
2 1 2-Companion
No ratings yet
2 1 2-Companion
23 pages
Flowchart For Customs Clearance of Imported Goods
No ratings yet
Flowchart For Customs Clearance of Imported Goods
3 pages
Design Implementation and Power Analysis For Network-On-Chip Architectures
No ratings yet
Design Implementation and Power Analysis For Network-On-Chip Architectures
7 pages
Green Valley Organisational Study
100% (1)
Green Valley Organisational Study
58 pages
Revision For The First Term Test
No ratings yet
Revision For The First Term Test
9 pages
Law of Human Nature
No ratings yet
Law of Human Nature
4 pages
Suggest and Offer
No ratings yet
Suggest and Offer
3 pages
03 ForSci
No ratings yet
03 ForSci
12 pages
Renata-Under The Sea
No ratings yet
Renata-Under The Sea
2 pages
Manish Gour
No ratings yet
Manish Gour
6 pages
Full Pharmacotherapy Casebook A Patient Focused Approach Edition PDF All Chapters
100% (5)
Full Pharmacotherapy Casebook A Patient Focused Approach Edition PDF All Chapters
34 pages
Caribbean Studies SBA
67% (12)
Caribbean Studies SBA
2 pages
On Rizal's Retraction
No ratings yet
On Rizal's Retraction
10 pages
Philippine Independence Mission 1919-1934
No ratings yet
Philippine Independence Mission 1919-1934
24 pages
Class 10 Linear Equations
No ratings yet
Class 10 Linear Equations
2 pages

Introduction To Data Mining Unit1

Uploaded by

Introduction To Data Mining Unit1

Uploaded by

UNIT – I

• Selection: Obtain data from various sources.

1. Business and E-Commerce Data

Flexible structure using JSON from APIs, XML

No fixed structure; rich in Emails, documents,

Rich content like Medical scans, surveillance

• • Data cube structure with dimensions and

•Two major goals: Descriptive Analysis and

Regression Predict values Predict housing price

You might also like