0% found this document useful (0 votes)

25 views23 pages

Chapter 1 Intro

Uploaded by

321106410027

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

25 views23 pages

Chapter 1 Intro

Uploaded by

321106410027

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 23

Chapter 1.

Introduction
hy Data Mining?

 What Is Data Mining?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Summary

1
Why Data Mining?

 The Explosive Growth of Data: from terabytes to petabytes

 Data collection and data availability
 Automated data collection tools, database systems, Web,
computerized society
 Major sources of abundant data
 Business: Web, e-commerce, transactions, stocks, …
 Science: Remote sensing, bioinformatics, scientific simulation, …
 Society and everyone: digital cameras, YouTube, social media
 We are drowning in data, but starving for knowledge!
 Data mining—Automated analysis of massive data sets to discover
knowledge

2
Chapter 1. Introduction
 Why Data Mining?

 What Is Data Mining?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Summary

3
What Is Data Mining?

 Data mining (knowledge discovery from data)

 Extraction of interesting (non-trivial, implicit, previously
unknown and potentially useful) patterns or knowledge from
huge amount of data
 Alternative names
 Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, business intelligence, etc.
 Is everything “data mining”? Differenciate
 Simple search and query processing
 (Deductive) expert systems

4
Knowledge Discovery (KDD) Process
 This is a view from typical
database systems and data
Pattern Evaluation
warehousing communities
 Data mining plays an essential
role in the knowledge discovery
process Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases
5
KDD Process: A Typical View from ML and
Statistics

Input Data Data Pre- Data Post-

Processing Mining Processing

Data integration Pattern discovery Pattern evaluation

Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………

 This is a view from typical machine learning and statistics communities

6
Chapter 1. Introduction
 Why Data Mining?

 What Is Data Mining?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Summary

7
Data Mining: On What Kinds of Data?
 Database-oriented data sets and applications
 Relational database, data warehouse, transactional database
 Advanced data sets and advanced applications
 Data streams and sensor data
 Time-series data, temporal data, sequence data (incl. bio-sequences)
 Structure data, graphs, social networks and multi-linked data
 Object-relational databases
 Heterogeneous databases and legacy databases
 Spatial data and spatiotemporal data
 Multimedia database
 Text databases
 The World-Wide Web

8
Chapter 1. Introduction
 Why Data Mining?

 What Is Data Mining?

 A Multi-Dimensional View of Data Mining

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology Are Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 A Brief History of Data Mining and Data Mining Society

 Summary
9
Data Mining Function: (1) Generalization

 Information integration and data warehouse construction

 Data cleaning, transformation, integration, and
multidimensional data model
 Data cube technology
 Scalable methods for computing (i.e., materializing)
multidimensional aggregates
 OLAP (online analytical processing)
 Multidimensional concept description: Characterization
and discrimination
 Generalize, summarize, and contrast data
characteristics

10
Data Mining Function: (2) Association and
Correlation Analysis
 Frequent patterns (or frequent itemsets)
 What items are frequently purchased together by a
customer
 Association, correlation vs. causality
 A typical association rule
 Bread  Peanut Butter [0.5%, 75%] (support, confidence)
 Support reflects utility while confidence reflects certainty of the conclusion
 High confidence value need not necessarily indicate strong
correlation between the items.
 If 80% transactions has Peanut Butter, the above rule reflects negative
association between the two.

 Additional correlation metrics like ‘Lift’ are used to mine such

patterns and rules efficiently in large datasets. 11
Data Mining Function: (3) Classification

 Classification and label prediction

 Construct models (functions) based on labelled training examples
 Describe and distinguish classes or concepts for future prediction
 E.g., classify tourist locations based on (climate, affordability,
activities, # days, etc), or estimate the cost of used cars based
on (mileage, age, model, fuel type, etc.)
 Apply the models to predict class labels for unknown entities
 Typical methods
 Decision trees, naïve Bayesian classification, support vector
machines, neural networks, rule-based classification, pattern-
based classification, logistic regression, …
 Typical applications:
 Credit card fraud detection, direct marketing, diagnosing diseases,
etc.
12
Data Mining Function: (4) Cluster Analysis

 Unsupervised learning (i.e., Class label is unknown)

 Group data to form new categories (i.e., clusters) of similar
entities,
 e.g., cluster houses to find distribution patterns or neighborhoods
 Principle: Maximizing intra-cluster similarity & minimizing inter-
cluster similarity
 Typical methods:
 Partitional Clustering eg: K-Means, K-medoids
 Hierarchical clustering eg: AGNES, DIANA
 Density based clustering eg: DBSCAN, OPTICS
 Applications: customer segmentation, taxonomy formation, topic
identification by document clustering, image quantization, pattern
recognition, etc.
13
Data Mining Function: (5) Outlier Analysis
 Outlier analysis
 Outlier: A data object that does not comply with the general
behavior of the data
 Noise or exception? ― One person’s garbage could be another
person’s treasure
 Methods: by product of clustering or regression analysis, …
 Useful in fraud detection, rare events analysis

14
Evaluation of Patterns
 Interesting patterns represent knowledge
 Are all mined patterns interesting?
 One can mine tremendous amount of “patterns” and knowledge
 Patterns are interesting if they are:
 Easily understood
 Valid on new or unknown data with a high degree of certainty
 Potentially useful and Novel
 Evaluation of mined patterns  Directly mine only interesting
patterns / knowledge using:
 some objective measures like typicality, support, confidence are used for
descriptive tasks while precision, recall, accuracy, etc are used for
predictive tasks.
 Novelty, timeliness and actionability are subjective assessments 15
Chapter 1. Introduction
 Why Data Mining?

 What Is Data Mining?

 What is Data Warehousing?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Summary

16
Data Mining: Confluence of Multiple Disciplines

Machine Pattern Statistics

Learning Recognition

Info Retrieval Visualization

Data Mining

Algorithm Database High-Performance

Technology Computing

17
Why Confluence of Multiple Disciplines?

 Tremendous amount of data

 Algorithms must be highly scalable to handle tera-bytes of data
 High-dimensionality of data
 Micro-array may have tens of thousands of dimensions
 High complexity of data
 Data streams and sensor data
 Time-series data, temporal data, sequence data
 Structure data, graphs, social networks and multi-linked data
 Heterogeneous databases and legacy databases
 Spatial, spatiotemporal, multimedia, text and Web data
 Software programs, scientific simulations
 New and sophisticated applications

18
Chapter 1. Introduction
 Why Data Mining?

 What Is Data Mining?

 What is Data Warehousing?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Summary

19
Applications of Data Mining
 Business Intelligence systems: Customer Relationship Management,
Predictive analytics for specific contexts, OLAP support for better
understanding business scenario
 Web page analysis: Search engines for web page classification,
clustering using PageRank & HITS algorithms, context–aware Query
recommendations
 Collaborative Filtering & Recommender systems
 Market Basket analysis to targeted marketing
 Medical data analysis: disease diagnosis, anomaly detection in medical
images, microarray data analysis
 Weather modelling and prediction of future climatic conditions

20
Chapter 1. Introduction
 Why Data Mining?

 What Is Data Mining?

 What is Data Warehousing?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Summary

21
Major Data Mining Issues related to …
 Mining Methodology
 Mining various, possibly new, kinds of knowledge
 Mining knowledge in (the subspaces of) a multi-dimensional space
 Data mining: An interdisciplinary effort (eg: Q&A sys need NLP, Info
Retrieval and Mining)
 Boosting the power of discovery in a networked environment (info
sharing among semantically linked heterogeneous data sources)
 Handling noise, uncertainty, and incompleteness of data; sometimes
incorrect data due to attackers
 Pattern evaluation and pattern- or constraint-guided mining (to focus
mining on specific topics or aspects of interest, context-aware RSs, etc.)
 User Interaction
 Interactive mining(dynamically change focus based on previous results)
 Incorporation of background knowledge (domain specific relationships)
 Presentation and visualization of data mining results 22
Major Data Mining Issues related to …

 Efficiency and Scalability

 Efficiency and scalability of data mining algorithms
 Parallel, distributed, stream, and incremental mining methods
 Diversity of data types
 Handling complex types of data
 Mining dynamic, networked, and global data repositories
 Data mining and society
 Social impacts of data mining
 Privacy-preserving data mining
 Invisible data mining

What Is Data Mining?
No ratings yet
What Is Data Mining?
35 pages
01 Intro 1
No ratings yet
01 Intro 1
33 pages
Combine 056
No ratings yet
Combine 056
57 pages
01 - Introduction To Datamining
No ratings yet
01 - Introduction To Datamining
19 pages
DWDM LS1 Fall 24 25
No ratings yet
DWDM LS1 Fall 24 25
42 pages
21IS503 UnitII LM5
No ratings yet
21IS503 UnitII LM5
20 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
Day-2 BE-VIII DMDW (Into. Contd..)
No ratings yet
Day-2 BE-VIII DMDW (Into. Contd..)
23 pages
01 Intro
No ratings yet
01 Intro
23 pages
Module1 IntroToDataMining
No ratings yet
Module1 IntroToDataMining
36 pages
LECTURE 1 Data Mining
No ratings yet
LECTURE 1 Data Mining
41 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
Lecture 1
No ratings yet
Lecture 1
37 pages
01 Intro
No ratings yet
01 Intro
40 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
Module 1
No ratings yet
Module 1
40 pages
Data Mining & Warehousing Guide
No ratings yet
Data Mining & Warehousing Guide
23 pages
Data Mining Essentials for Students
No ratings yet
Data Mining Essentials for Students
95 pages
01 - Data Mining Introduction
No ratings yet
01 - Data Mining Introduction
21 pages
01 Intro
No ratings yet
01 Intro
29 pages
01 Intro
No ratings yet
01 Intro
41 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
37 pages
Lecture 1.1.1 1.1.2
No ratings yet
Lecture 1.1.1 1.1.2
32 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
Data Mining Essentials for Analysts
No ratings yet
Data Mining Essentials for Analysts
35 pages
Intro Data Mining
No ratings yet
Intro Data Mining
51 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
01 Intro
No ratings yet
01 Intro
40 pages
01 Intro
No ratings yet
01 Intro
40 pages
Chapter - 1
No ratings yet
Chapter - 1
22 pages
Chapter 1 DM
No ratings yet
Chapter 1 DM
20 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Unit 1 A
No ratings yet
Unit 1 A
39 pages
01 Intro
No ratings yet
01 Intro
26 pages
Data Mining Chapter 1
No ratings yet
Data Mining Chapter 1
43 pages
Data Mining 1
No ratings yet
Data Mining 1
39 pages
Lecture 1. Introduction
No ratings yet
Lecture 1. Introduction
42 pages
01 Intro
No ratings yet
01 Intro
28 pages
Introduction
No ratings yet
Introduction
46 pages
Data Mining Basics for Beginners
No ratings yet
Data Mining Basics for Beginners
59 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Unit 1a
No ratings yet
Unit 1a
39 pages
VIPDMTheory Chapter 1
No ratings yet
VIPDMTheory Chapter 1
25 pages
Data Mining: Concepts & Techniques
No ratings yet
Data Mining: Concepts & Techniques
41 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Inf 444e - Datamining N Advanced Databases Introduction 2019
No ratings yet
Inf 444e - Datamining N Advanced Databases Introduction 2019
32 pages
Ch1 (1) (Read-Only) (Compatibility Mode)
No ratings yet
Ch1 (1) (Read-Only) (Compatibility Mode)
39 pages
Unit 1: Data Warehousing & Data Mining
No ratings yet
Unit 1: Data Warehousing & Data Mining
54 pages
DWDM 3rd Edition Text Book Slides
No ratings yet
DWDM 3rd Edition Text Book Slides
938 pages
02-Introduction To Data Mining
No ratings yet
02-Introduction To Data Mining
40 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
IS414: Data Mining: DR - Waleed M.Ead
No ratings yet
IS414: Data Mining: DR - Waleed M.Ead
36 pages
Comprehensive Guide to Data Mining
No ratings yet
Comprehensive Guide to Data Mining
32 pages
DM Introduction-SSM
No ratings yet
DM Introduction-SSM
6 pages
Intro to Data Mining Course
No ratings yet
Intro to Data Mining Course
56 pages
Introduction
No ratings yet
Introduction
27 pages
Intro of Data Mining
No ratings yet
Intro of Data Mining
27 pages
cs516 Unit II
No ratings yet
cs516 Unit II
24 pages
ln13 Ds
No ratings yet
ln13 Ds
21 pages
Ds 1
No ratings yet
Ds 1
14 pages
Project Management Techniques Guide
100% (1)
Project Management Techniques Guide
12 pages
Ai Chapter 2
No ratings yet
Ai Chapter 2
27 pages
ETH Zurich Talk - April 14, 2025
No ratings yet
ETH Zurich Talk - April 14, 2025
84 pages
Applications of Graph Theory in Computer Science An Overview
100% (2)
Applications of Graph Theory in Computer Science An Overview
12 pages
Assignment 1
No ratings yet
Assignment 1
1 page
674176518fc17 PPT
No ratings yet
674176518fc17 PPT
12 pages
Distance Sort
No ratings yet
Distance Sort
6 pages
Discrete Time Signals and Systems
No ratings yet
Discrete Time Signals and Systems
18 pages
SQC CH6
0% (2)
SQC CH6
63 pages
Ma579 HM3
No ratings yet
Ma579 HM3
6 pages
Unit 3 ML
No ratings yet
Unit 3 ML
28 pages
Optimization for Graph Partitioning
No ratings yet
Optimization for Graph Partitioning
9 pages
Chapter 2 & 3 LP
No ratings yet
Chapter 2 & 3 LP
74 pages
Course Notes
No ratings yet
Course Notes
141 pages
Fractional Factorial Design Guide
No ratings yet
Fractional Factorial Design Guide
30 pages
Reinforcement Learning-Based Tracking Control For A Three Mecanum Wheeled Mobile Robot
No ratings yet
Reinforcement Learning-Based Tracking Control For A Three Mecanum Wheeled Mobile Robot
8 pages
Unit 4 Study Guide
No ratings yet
Unit 4 Study Guide
4 pages
AEN 206 18192 Quiz 1 - Key
No ratings yet
AEN 206 18192 Quiz 1 - Key
1 page
ANN Calculations
No ratings yet
ANN Calculations
24 pages
Early Detection of Mental Health Issues Using Soci
No ratings yet
Early Detection of Mental Health Issues Using Soci
9 pages
16 Hill Climbing
No ratings yet
16 Hill Climbing
17 pages
CP3404 Assignment 1 SP2 2020
No ratings yet
CP3404 Assignment 1 SP2 2020
7 pages
Hamming Code Implementation in Verilog
No ratings yet
Hamming Code Implementation in Verilog
5 pages
Mid q1 8 10 3rdattempt
100% (1)
Mid q1 8 10 3rdattempt
5 pages
Mathematics As Level Mock Exams 2022
No ratings yet
Mathematics As Level Mock Exams 2022
29 pages
La 2065
No ratings yet
La 2065
3 pages
B.Ed Discrete Mathematics Course
No ratings yet
B.Ed Discrete Mathematics Course
6 pages
Memetic Algorithm
No ratings yet
Memetic Algorithm
10 pages
BTech. 4th Year - Computer Science and Engineering - Hindi - 2024-25 - v2
No ratings yet
BTech. 4th Year - Computer Science and Engineering - Hindi - 2024-25 - v2
20 pages
Self-Directed Online Machine Learning For Topology
No ratings yet
Self-Directed Online Machine Learning For Topology
19 pages
Spring Midterm2
No ratings yet
Spring Midterm2
8 pages
Assignment One PRLD5121
No ratings yet
Assignment One PRLD5121
6 pages

Chapter 1 Intro

Uploaded by

Chapter 1 Intro

Uploaded by

Chapter 1.

 What Is Data Mining?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 The Explosive Growth of Data: from terabytes to petabytes

 What Is Data Mining?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Data mining (knowledge discovery from data)

Data Warehouse Selection

Input Data Data Pre- Data Post-

Data integration Pattern discovery Pattern evaluation

 This is a view from typical machine learning and statistics communities

 What Is Data Mining?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 What Is Data Mining?

 A Multi-Dimensional View of Data Mining

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology Are Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 A Brief History of Data Mining and Data Mining Society

 Information integration and data warehouse construction

 Additional correlation metrics like ‘Lift’ are used to mine such

 Classification and label prediction

 Unsupervised learning (i.e., Class label is unknown)

 What Is Data Mining?

 What is Data Warehousing?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

Machine Pattern Statistics

Info Retrieval Visualization

Algorithm Database High-Performance

 Tremendous amount of data

 What Is Data Mining?

 What is Data Warehousing?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 What Is Data Mining?

 What is Data Warehousing?

 What Kind of Data Can Be Mined?

 What Kinds of Patterns Can Be Mined?

 What Technology is Used?

 What Kind of Applications Are Targeted?

 Major Issues in Data Mining

 Efficiency and Scalability

You might also like