100% found this document useful (2 votes)

482 views29 pages

Data Preprocessing - Data Cleaning

Why preprocess the data? Data cleaning Data integration and transformation Data reduction Discretization and concept hierarchy generation Summary Data in the real world is dirty incomplete: lacking attribute values, lacking certain attributes of interest, or containing only aggregate data e.g., occupation=“ ” noisy: containing errors or outliers e.g., Salary=“-10” inconsistent: containing discrepancies in codes or names e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C” e.g., discrepancy between duplicate records

Uploaded by

tierSarge

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

100% found this document useful (2 votes)

482 views29 pages

Data Preprocessing - Data Cleaning

Uploaded by

tierSarge

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 29

Data Preprocessing

January 20, 2015

Data Mining: Concepts and Techniques

Data Preprocessing

Why preprocess the data?

Data cleaning

Data integration and transformation

Data reduction

Discretization and concept hierarchy

generation

Summary

January 20, 2015

Data Mining: Concepts and Techniques

Data Preprocessing

Why preprocess the data?

Data cleaning

Data integration and transformation

Data reduction

Discretization and concept hierarchy

generation

Summary

January 20, 2015

Data Mining: Concepts and Techniques

Why Data Preprocessing?

Data in the real world is dirty

incomplete: lacking attribute values,
lacking certain attributes of interest, or
containing only aggregate data

noisy: containing errors or outliers

e.g., occupation=
e.g., Salary=-10

inconsistent: containing discrepancies in

codes or names

January 20, 2015

e.g., Age=42 Birthday=03/07/1997

e.g., Was rating 1,2,3, now rating A, B, C
e.g., discrepancy between duplicate records
Data Mining: Concepts and Techniques

Why Is Data Dirty?

Incomplete data may come from

Noisy data (incorrect values) may come from

Faulty data collection instruments

Human or computer error at data entry
Errors in data transmission

Inconsistent data may come from

Not applicable data value when collected

Different considerations between the time when the data
was collected and when it is analyzed.
Human/hardware/software problems

Different data sources

Functional dependency violation (e.g., modify some linked
data)

Duplicate records also need data cleaning

January 20, 2015

Data Mining: Concepts and Techniques

Why Is Data Preprocessing

Important?

No quality data, no quality mining results!

Quality decisions must be based on quality data

e.g., duplicate or missing data may cause incorrect or

even misleading statistics.

Data warehouse needs consistent integration of

quality data

Data extraction, cleaning, and transformation

comprises the majority of the work of building a
data warehouse

January 20, 2015

Data Mining: Concepts and Techniques

Multi-Dimensional Measure of Data

Quality

Measures for data quality: A multidimensional view

Accuracy: correct or wrong, accurate or not

Completeness: not recorded, unavailable,

Consistency: some modified but some not,

dangling,

Timeliness: timely update?

Believability: how trustable the data are correct?

Interpretability: how easily the data can be

understood?

Major Tasks in Data Preprocessing

Data cleaning

Data integration

Fill in missing values, smooth noisy data, identify or

remove outliers, and resolve inconsistencies
Integration of multiple databases, data cubes, or files

Data reduction

Dimensionality reduction

Numerosity reduction

Data compression

Data transformation and data discretization

Normalization

Concept hierarchy generation

Forms of Data Preprocessing

January 20, 2015

Data Mining: Concepts and Techniques

Data Preprocessing

Why preprocess the data?

Data cleaning

Data integration and transformation

Data reduction

Discretization and concept hierarchy

generation

Summary

January 20, 2015

Data Mining: Concepts and Techniques

Data Cleaning

Importance
Data cleaning is one of the three biggest
problems in data warehousingRalph
Kimball
Data cleaning is the number one problem in
data warehousingDCI survey

January 20, 2015

Data Mining: Concepts and Techniques

Data Cleaning

Importance
Data cleaning is one of the three biggest
problems in data warehousingRalph Kimball
Data cleaning is the number one problem in
data warehousingDCI survey

Data cleaning tasks

Fill in missing values

Identify outliers and smooth out noisy data

Correct inconsistent data

Resolve redundancy caused by data integration

January 20, 2015

Data Mining: Concepts and Techniques

Incomplete (Missing) Data

Data is not always available

E.g., many tuples have no recorded value for

several attributes, such as customer income in
sales data

Incomplete (Missing) Data

Data is not always available

E.g., many tuples have no recorded value for several

attributes, such as customer income in sales data

Missing data may be due to

equipment malfunction

inconsistent with other recorded data and thus

deleted

data not entered due to misunderstanding

certain data may not be considered important at the

time of entry

not register history or changes of the data

Missing data may need to be inferred

How to Handle Missing Data?

Ignore the tuple: usually done when class label is

missing (when doing classification)not effective
when the % of missing values per attribute varies
considerably

Fill in the missing value manually: tedious +

infeasible?

How to Handle Missing Data?

Ignore the tuple: usually done when class label is

missing (when doing classification)not effective when
the % of missing values per attribute varies considerably

Fill in the missing value manually: tedious + infeasible?

Fill in it automatically with

a global constant : e.g., unknown, a new class?!

the attribute mean

the attribute mean for all samples belonging to the

same class: smarter

the most probable value: inference-based such as

Bayesian formula or decision tree

Noisy Data

Noise: random error or variance in a measured

variable

Incorrect attribute values may due to

faulty data collection instruments
data entry problems
data transmission problems
technology limitation
inconsistency in naming convention

January 20, 2015

Data Mining: Concepts and Techniques

How to Handle Noisy Data?

Binning
first sort data and partition into (equalfrequency) bins
then one can smooth by bin means, smooth by
bin median, smooth by bin boundaries, etc.

January 20, 2015

Data Mining: Concepts and Techniques

Simple Discretization Methods:

Binning

Equal-width (distance) partitioning

Divides the range into N intervals of equal size: uniform grid

if A and B are the lowest and highest values of the attribute, the
width of intervals will be: W = (B A)/N.

The most straightforward, but outliers may dominate

presentation

Skewed data is not handled well

Equal-depth (frequency) partitioning

Divides the range into N intervals, each containing

approximately same number of samples

Good data scaling

Managing categorical attributes can be tricky

January 20, 2015

Data Mining: Concepts and Techniques

Binning Methods for Data

January 20, 2015

Data Mining: Concepts and Techniques

Binning Methods for Data

Smoothing
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24,
25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29

January 20, 2015

Data Mining: Concepts and Techniques

Binning Methods for Data

Smoothing
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25,
26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34

January 20, 2015

Data Mining: Concepts and Techniques

How to Handle Noisy Data?

Binning
first sort data and partition into (equalfrequency) bins
then one can smooth by bin means, smooth by
bin median, smooth by bin boundaries, etc.
Regression
smooth by fitting the data into regression
functions

January 20, 2015

Data Mining: Concepts and Techniques

Regression
y
Y1

y=x+1

January 20, 2015

Data Mining: Concepts and Techniques

How to Handle Noisy Data?

January 20, 2015

Data Mining: Concepts and Techniques

Cluster Analysis

January 20, 2015

Data Mining: Concepts and Techniques

How to Handle Noisy Data?

Binning
first sort data and partition into (equal-frequency)
bins
then one can smooth by bin means, smooth by
bin median, smooth by bin boundaries, etc.
Regression
smooth by fitting the data into regression functions
Clustering
detect and remove outliers
Combined computer and human inspection
detect suspicious values and check by human
(e.g., deal with possible outliers)

January 20, 2015

Data Mining: Concepts and Techniques

Problems
3.3 Suppose that the data for analysis includes the
attribute age. The age values for the data tuples
are (in increasing order)
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,3
3,35,35,35,35,36,40,45,46,52,70.
i. Use smoothing by bin means and bondaries to
smooth the data, using a bin depth of 3. Illustrate
your steps.
ii. How might you determine the outliers?

January 20, 2015

Data Mining: Concepts and Techniques

Data Cleaning as a Process

Data discrepancy detection

Use metadata (e.g., domain, range, dependency, distribution)
Check field overloading
Check uniqueness rule, consecutive rule and null rule
Use commercial tools

Data scrubbing: use simple domain knowledge (e.g., postal

code, spell-check) to detect errors and make corrections

Data auditing: by analyzing data to discover rules and

relationship to detect violators (e.g., correlation and
clustering to find outliers)
Data migration and integration
Data migration tools: allow transformations to be specified
ETL (Extraction/Transformation/Loading) tools: allow users to
specify transformations through a graphical user interface
Integration of the two processes
Iterative and interactive (e.g., Potters Wheels)
29

Documenting Data Science Projects
No ratings yet
Documenting Data Science Projects
9 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
66 pages
Data Analytics: Key Concepts & Terms
No ratings yet
Data Analytics: Key Concepts & Terms
22 pages
Data Science Interview Question
No ratings yet
Data Science Interview Question
93 pages
Data Analytics
100% (3)
Data Analytics
11 pages
An Introduction To Big Data
No ratings yet
An Introduction To Big Data
31 pages
Cluster
100% (1)
Cluster
72 pages
Data Science Note
No ratings yet
Data Science Note
24 pages
Excel for Business Analytics Beginners
No ratings yet
Excel for Business Analytics Beginners
21 pages
Types of Relations: One To One
No ratings yet
Types of Relations: One To One
12 pages
Client Predictive Analytics Proposal PDF
100% (1)
Client Predictive Analytics Proposal PDF
7 pages
Data Mining
100% (1)
Data Mining
29 pages
Fundamentals of Business Analytics
No ratings yet
Fundamentals of Business Analytics
5 pages
Data Science Interview Guide
No ratings yet
Data Science Interview Guide
93 pages
Data Analytics
100% (3)
Data Analytics
14 pages
Business Analytics & Data Visualization - Unit1
100% (1)
Business Analytics & Data Visualization - Unit1
30 pages
Data Wrangling
No ratings yet
Data Wrangling
30 pages
Predictive Modeling Lecture Notes 1
No ratings yet
Predictive Modeling Lecture Notes 1
11 pages
Data Visualization Mastery Course
No ratings yet
Data Visualization Mastery Course
2 pages
Big Data's Impact on Marketing
100% (1)
Big Data's Impact on Marketing
44 pages
Customer Analytics & Competitive Intelligence
No ratings yet
Customer Analytics & Competitive Intelligence
29 pages
Data Analytics Notes
100% (2)
Data Analytics Notes
8 pages
Data Visualisation With Tableau
No ratings yet
Data Visualisation With Tableau
26 pages
Analysis Vs Reporting
No ratings yet
Analysis Vs Reporting
21 pages
Fundamentals of Predictive Analytics A Business Analytics Course
No ratings yet
Fundamentals of Predictive Analytics A Business Analytics Course
36 pages
Web Analytics, Web Mining, and Social Analytics
No ratings yet
Web Analytics, Web Mining, and Social Analytics
53 pages
Data Analysis
100% (1)
Data Analysis
4 pages
Engineering-A Review Web Data Scrapping
No ratings yet
Engineering-A Review Web Data Scrapping
4 pages
Big Data
100% (1)
Big Data
48 pages
Business Analytics
No ratings yet
Business Analytics
9 pages
Twitter Sentiment Analysis
No ratings yet
Twitter Sentiment Analysis
25 pages
DTS Modul Data Science Methodology
100% (1)
DTS Modul Data Science Methodology
56 pages
8 Power BI
No ratings yet
8 Power BI
20 pages
Enterprise Reporting
No ratings yet
Enterprise Reporting
40 pages
Data Analytics
75% (4)
Data Analytics
45 pages
Ucc & BM of Osmania University (MBA)
No ratings yet
Ucc & BM of Osmania University (MBA)
22 pages
Multimedia & Web Data Mining Guide
100% (2)
Multimedia & Web Data Mining Guide
13 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
Data Mining in Medicine
No ratings yet
Data Mining in Medicine
42 pages
SAS Presentation
No ratings yet
SAS Presentation
49 pages
Exploratory Data Analysis
100% (3)
Exploratory Data Analysis
26 pages
Lecture 7 p1
No ratings yet
Lecture 7 p1
38 pages
Data Discovery & Visualization - New
100% (1)
Data Discovery & Visualization - New
41 pages
Marketing Analytics Essentials
No ratings yet
Marketing Analytics Essentials
57 pages
Data Mini Proj
100% (2)
Data Mini Proj
44 pages
CH 05 PPTaccessible
No ratings yet
CH 05 PPTaccessible
60 pages
Lecture-1to8-HCL-DSE - Sumita Narang - IDS PDF
No ratings yet
Lecture-1to8-HCL-DSE - Sumita Narang - IDS PDF
304 pages
Business Intelligence Overview
No ratings yet
Business Intelligence Overview
8 pages
Data Wrangling and Visualization
No ratings yet
Data Wrangling and Visualization
48 pages
L1-D2 Basics of Data Preperation and Quality
100% (1)
L1-D2 Basics of Data Preperation and Quality
17 pages
Literature Review On Big Data Analytics Vishal Kumar Harsh Bansal
No ratings yet
Literature Review On Big Data Analytics Vishal Kumar Harsh Bansal
6 pages
Data Analysis
No ratings yet
Data Analysis
17 pages
Classification and Prediction
No ratings yet
Classification and Prediction
126 pages
Unit 3 Data Mining
No ratings yet
Unit 3 Data Mining
21 pages
Data Visualization and Story Telling Notes
No ratings yet
Data Visualization and Story Telling Notes
31 pages
Power BI - Exam Prep - 29 - 3
No ratings yet
Power BI - Exam Prep - 29 - 3
40 pages
Data Science Use Cases
100% (1)
Data Science Use Cases
10 pages
Business Intelligence for Managers
No ratings yet
Business Intelligence for Managers
36 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
59 pages
Chap 3
No ratings yet
Chap 3
55 pages
CSE 409 - Advanced Internet Technology
No ratings yet
CSE 409 - Advanced Internet Technology
42 pages
Lovi 11 30 PM
No ratings yet
Lovi 11 30 PM
51 pages
Lecture3 CSharp Lang-1
No ratings yet
Lecture3 CSharp Lang-1
41 pages
Error Control, Digital Data Communication Technique
No ratings yet
Error Control, Digital Data Communication Technique
44 pages
8.building Analysis Model
No ratings yet
8.building Analysis Model
64 pages
The MAC Layer
No ratings yet
The MAC Layer
77 pages
Design and Implementation of Programming Languages Introduction
No ratings yet
Design and Implementation of Programming Languages Introduction
71 pages
Data Transmission
No ratings yet
Data Transmission
23 pages
Design and Analysis of Algorithms
No ratings yet
Design and Analysis of Algorithms
13 pages
What Is Configure, Price, Quote (CPQ)
No ratings yet
What Is Configure, Price, Quote (CPQ)
6 pages
SMD Meter: User 'S Manual
No ratings yet
SMD Meter: User 'S Manual
2 pages
Oracle Linux 6 Installation
No ratings yet
Oracle Linux 6 Installation
35 pages
K - DMS Unit 1
No ratings yet
K - DMS Unit 1
47 pages
E8 - Full DC R32
No ratings yet
E8 - Full DC R32
2 pages
Model 363 Control Valve Guide
No ratings yet
Model 363 Control Valve Guide
20 pages
Resume: Personal Information
No ratings yet
Resume: Personal Information
3 pages
Elementary Level Test: 1. Open The Brackets Using The Correct Form of The Verb: Present Simple/continuous
No ratings yet
Elementary Level Test: 1. Open The Brackets Using The Correct Form of The Verb: Present Simple/continuous
2 pages
Account 421
No ratings yet
Account 421
537 pages
SATEC Catalog
No ratings yet
SATEC Catalog
28 pages
Coverage UVM Cookbook
0% (1)
Coverage UVM Cookbook
97 pages
Speed Control of Switched Reluctance Motor Based On Fuzzy Logic Controller
No ratings yet
Speed Control of Switched Reluctance Motor Based On Fuzzy Logic Controller
5 pages
5-7-6 FICHA TECNICA FUSIBLES TIPO K 15KV-signed
No ratings yet
5-7-6 FICHA TECNICA FUSIBLES TIPO K 15KV-signed
1 page
Ecus
No ratings yet
Ecus
10 pages
Openscape Business v2 Feature Description Issue 7
No ratings yet
Openscape Business v2 Feature Description Issue 7
676 pages
Knowledge Management and Clinical Practice - SGPGI Case Study
100% (1)
Knowledge Management and Clinical Practice - SGPGI Case Study
38 pages
Digital Environment Issues Guide
No ratings yet
Digital Environment Issues Guide
66 pages
Journal On Water Level Indicator
No ratings yet
Journal On Water Level Indicator
24 pages
Django E-commerce Website Guide
No ratings yet
Django E-commerce Website Guide
9 pages
82182A Time Module Owner's Manual
No ratings yet
82182A Time Module Owner's Manual
87 pages
Ebill 13072638909
No ratings yet
Ebill 13072638909
6 pages
31mk1 Safety - Regulatory Dfqw5483za Non Nonlogo 24lang p20100694
No ratings yet
31mk1 Safety - Regulatory Dfqw5483za Non Nonlogo 24lang p20100694
136 pages
BFF2612 Project Report
No ratings yet
BFF2612 Project Report
37 pages
Voice Response System
0% (1)
Voice Response System
74 pages
F02 - AC02 - Complex Number Impedance Admttance and Power For AC Circuit
No ratings yet
F02 - AC02 - Complex Number Impedance Admttance and Power For AC Circuit
70 pages
CSE
No ratings yet
CSE
20 pages
Laser Business Plan
No ratings yet
Laser Business Plan
11 pages
Data Visualization Techniques
No ratings yet
Data Visualization Techniques
3 pages
3d Modelling For Virtual Reality: Tutorial #2 - VRML Sliding Door!
No ratings yet
3d Modelling For Virtual Reality: Tutorial #2 - VRML Sliding Door!
12 pages
TOPOLT 72 Crack Serial
No ratings yet
TOPOLT 72 Crack Serial
1 page