Data Mining Techniques Using R Unit 1

Uploaded by

harshithamoturu6

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views26 pages

Data Mining Techniques Using R Unit 1

Uploaded by

harshithamoturu6

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 26

DATA MINING

TECHNIQUES USING
R
UNIT I: An idea on Data Warehouse, Data mining-KDD
versus data mining, Stages of the Data MiningProcess-
Task primitives., Data Mining Techniques – Data mining
knowledge representation.
Data Warehouse
• Designed for storing and analyzing large volumes of historical data
from various sources for business intelligence and reporting
• Data Warehouse is a centralized & Organized respository of data
EXAMPLE
Amazon Redshift, Google BigQuery
Data mining-KDD versus Data
mining
WHAT IS DATA MINING?
Data mining is the process of searching and analyzing a large batch of
raw data in order to identify patterns and extract useful information.
WHY DATA MINING?
• Discover Hidden Patterns
• Improve Decision-Making
• Enhance Customer Understanding
• Increase Efficiency
Data mining-KDD versus Data mining
• While the terms are often used interchangeably, there is a subtle
difference. KDD is the entire process of uncovering useful information
from data, while data mining is just one step within that process.
• Here’s a breakdown of the KDD process:
• Data Selection: Identify the relevant data for your project.
• Data Preprocessing: Clean and prepare the data for mining.
• Data Transformation: Transform the data into a format suitable for
mining algorithms.
• Data Mining: Apply algorithms to extract patterns and trends from
the data.
• Pattern Evaluation: Evaluate the validity and usefulness of the
discovered patterns.
• Knowledge Representation: Present the discovered knowledge in a
clear and understandable way.
Stages of the Data MiningProcess-Task
primitives

1. Data Cleaning
Handling missing values, removing noise, correcting inconsistencies.
Example: In a customer database, some records might have missing age
values. These can be filled using the mean age or a default value.
2. Data Integration
Combining data from multiple sources.
Example: Integrating customer data from a CRM system with sales
data from an ERP system to create a comprehensive dataset for
analysis.
3. Data Selection
Selecting relevant data for analysis.
Example: Selecting only the transaction records of the last two years
from a retail sales database to analyze recent purchasing trends.
4. Data Transformation
Normalization, aggregation, data type conversion.
Example: Normalizing the sales amount field to a common scale or
aggregating daily sales data to monthly sales data.
5. Data Mining
Applying data mining techniques to extract patterns.
Example: Using the Apriori algorithm to find frequent itemsets in a
transactional database.
6. Pattern Evaluation
Identifying truly interesting patterns that represent knowledge.
Example: Evaluating association rules generated by the Apriori
algorithm to determine which ones have the highest confidence and
support values.
7. Knowledge Presentation
Visualization, reporting.
Example: Creating a dashboard that shows the most frequent item
pairs purchased together and their association rules in a retail store.
Task primitives:
Data mining task primitives are the essential components that guide the
data mining process. They provide a structured approach to extracting
meaningful insights from data.
Key Primitives
1.Set of Task-Relevant Data:
Defines the specific data used for the mining process.
Involves data selection, cleaning, and preprocessing.
Data: Customer information (demographics, subscription details, usage
patterns, billing history, etc.), churn data (customers who left the company).
Example: Selecting data for customers who have been with the company
for more than six months and have a monthly bill exceeding $50.
2.Kind of Knowledge to be Mined:
• Specifies the type of patterns or information to be extracted.
• Common types include:
• Descriptive: Summarizing data characteristics (e.g., statistics, trends).
• Predictive: Building models to predict future values (e.g., classification,
regression).
• Associative: Discovering relationships between items (e.g., market basket
analysis).
• Cluster Analysis: Grouping similar data points (e.g., customer segmentation).
• Outlier Detection: Identifying unusual data points (e.g., fraud detection).
• Background Knowledge:
• Incorporates domain expertise or prior information to guide the
mining process.
• Can improve accuracy and efficiency.
Domain expertise: Understanding of customer behavior, telecom
industry trends, competitor offerings.
Example: Incorporating information about recent network outages or
new competitor plans.
4.Interestingness Measures and Thresholds:
• Evaluates the significance of discovered patterns.
• Helps filter out uninteresting or redundant patterns.
• Example: Support and confidence measures for association rules.
5.Representation for Visualizing Discovered Patterns:
• Determines how the mined patterns are presented.
• Includes charts, graphs, tables, decision trees, and other visual
formats.
• Example: Using a decision tree to visualize a classification model.
Data mining techniques are methods used to discover patterns,
relationships, and insights from large sets of data.
Here are the main techniques used in data mining:
Classification: Sorting data into categories. For example, categorizing
emails as spam or not spam.
Clustering: Grouping similar items together. For example, grouping
customers with similar buying habits
Regression:Predicting a continuous value based on other variables.
Example: Predicting house prices based on factors like location, size,
and number of bedrooms
• Association: Finding rules that show relationships between items. For
example, if people often buy bread and butter together.
• Prediction: Using past data to predict future outcomes. For example,
predicting which products will be popular next season.
• Sequential Patterns: Identifying patterns in data that occur in a
specific order. For example, finding that customers who buy a phone
often buy a case shortly after.
• Decision Trees: Using a tree-like model to make decisions based on
data. For example, deciding whether to approve a loan based on a set
of criteria.
Data mining knowledge
representation.
In data mining, knowledge representation is crucial for effectively
interpreting, visualizing, and utilizing the insights and patterns derived
from data.
BAR GRAPH
Histogram
Pie chart
Scatter plot
Line chart
LOESS curves
• LOESS (Locally Estimated Scatterplot Smoothing) is a non-parametric
regression method that is used to fit a smooth curve to a scatterplot
of data points
• LOESS curves are often used in real-world scenarios where data is
noisy and the relationship between variables is complex and non-
linear.

Seminar On Data Mining Concepts and Its
No ratings yet
Seminar On Data Mining Concepts and Its
8 pages
Fundamentals of Data Science Notes (Module - 1)
No ratings yet
Fundamentals of Data Science Notes (Module - 1)
19 pages
Unit III DWDM
No ratings yet
Unit III DWDM
113 pages
Week-1-Introduction To Data Mining
No ratings yet
Week-1-Introduction To Data Mining
43 pages
Data Mining-1
No ratings yet
Data Mining-1
7 pages
Data Mining for Business Insights
100% (1)
Data Mining for Business Insights
39 pages
Knowledge Management UNIT-3 Notes
No ratings yet
Knowledge Management UNIT-3 Notes
17 pages
Data Mining Module 1 Theory
No ratings yet
Data Mining Module 1 Theory
4 pages
Data Mining Summaries PDF
No ratings yet
Data Mining Summaries PDF
22 pages
Unit1 - Intoduction To Data Mining
No ratings yet
Unit1 - Intoduction To Data Mining
10 pages
Module 4
No ratings yet
Module 4
54 pages
DATA MINIING Unit 1 Notes
No ratings yet
DATA MINIING Unit 1 Notes
22 pages
Introduction To Data Mining-Week1
No ratings yet
Introduction To Data Mining-Week1
43 pages
Data Mining - Prashant
No ratings yet
Data Mining - Prashant
10 pages
DWDM Unit-II Notes
No ratings yet
DWDM Unit-II Notes
29 pages
Data Mining: Techniques & Applications
No ratings yet
Data Mining: Techniques & Applications
38 pages
DM Notes
No ratings yet
DM Notes
91 pages
UNIT 1 - Lecture 1 - Introduction To Data Mining
No ratings yet
UNIT 1 - Lecture 1 - Introduction To Data Mining
62 pages
Data Mining Survey Overview
No ratings yet
Data Mining Survey Overview
8 pages
Data Mining 1
No ratings yet
Data Mining 1
39 pages
5 Data Mining Proccess and Techniques - Week 7
No ratings yet
5 Data Mining Proccess and Techniques - Week 7
61 pages
DM Module1
No ratings yet
DM Module1
15 pages
Unit I Dbmi
No ratings yet
Unit I Dbmi
35 pages
DW and DM Notes
No ratings yet
DW and DM Notes
89 pages
Unit - I
No ratings yet
Unit - I
22 pages
Data Mining AND Warehousing: Abstract
No ratings yet
Data Mining AND Warehousing: Abstract
12 pages
Synopsis Print
No ratings yet
Synopsis Print
4 pages
Data Mining & Data Warehousing
No ratings yet
Data Mining & Data Warehousing
84 pages
Data Science & Big Data Analysis Module 1,2,3,4,5
No ratings yet
Data Science & Big Data Analysis Module 1,2,3,4,5
70 pages
Data Mining and Datawarehousing CS-303
No ratings yet
Data Mining and Datawarehousing CS-303
34 pages
Introduction
No ratings yet
Introduction
27 pages
Fundamentals of Data Mining
No ratings yet
Fundamentals of Data Mining
36 pages
Intro of Data Mining
No ratings yet
Intro of Data Mining
27 pages
R18CSE4102-UNIT 2 Data Mining Notes
100% (1)
R18CSE4102-UNIT 2 Data Mining Notes
31 pages
Data Warehousing&Dat Mining
No ratings yet
Data Warehousing&Dat Mining
12 pages
Data Mining Essentials
No ratings yet
Data Mining Essentials
13 pages
Data Mining
No ratings yet
Data Mining
4 pages
Data Mining Mids
No ratings yet
Data Mining Mids
24 pages
Data Mining Notes1
No ratings yet
Data Mining Notes1
56 pages
ISS-DSS - Module 3
No ratings yet
ISS-DSS - Module 3
23 pages
Combine 056
No ratings yet
Combine 056
57 pages
Past PPR
No ratings yet
Past PPR
31 pages
Data Mining Concepts & Techniques Guide
100% (2)
Data Mining Concepts & Techniques Guide
27 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Data Mining Techniques
No ratings yet
Data Mining Techniques
24 pages
DM Unit 1
No ratings yet
DM Unit 1
10 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
25 pages
Data Science
No ratings yet
Data Science
11 pages
Module1 1 Introduction
No ratings yet
Module1 1 Introduction
27 pages
Internship
No ratings yet
Internship
12 pages
DM-Unit-I Introduction To Association-1
No ratings yet
DM-Unit-I Introduction To Association-1
97 pages
10 Data Mining
No ratings yet
10 Data Mining
21 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Data Mining Tutorials
No ratings yet
Data Mining Tutorials
52 pages
Unit 2 Introduction To Data Mining
No ratings yet
Unit 2 Introduction To Data Mining
38 pages
Data Mining Simran
No ratings yet
Data Mining Simran
128 pages
Lecture 01 11jan
No ratings yet
Lecture 01 11jan
29 pages
1.8.4 Test (TST) - Statistical Analysis (Test)
No ratings yet
1.8.4 Test (TST) - Statistical Analysis (Test)
12 pages
Univariate, Bivariate & Multivariate Analysis
No ratings yet
Univariate, Bivariate & Multivariate Analysis
6 pages
Michael Akritas Probability Statistics With R PDF
100% (1)
Michael Akritas Probability Statistics With R PDF
526 pages
Reasoning With Data An Introduction To Traditional and Bayesian Statistics Using R 1st Edition Jeffrey M. Stanton PDF Download
100% (1)
Reasoning With Data An Introduction To Traditional and Bayesian Statistics Using R 1st Edition Jeffrey M. Stanton PDF Download
68 pages
Time Series Analysis for Students
No ratings yet
Time Series Analysis for Students
2 pages
SLDRS Fisher 2010 PDF
No ratings yet
SLDRS Fisher 2010 PDF
5 pages
NCE Assessment and Testing PDF
100% (2)
NCE Assessment and Testing PDF
7 pages
B. Com. H Business Statistics S FpigWq1
No ratings yet
B. Com. H Business Statistics S FpigWq1
8 pages
Advanced Statistics Course Guide
No ratings yet
Advanced Statistics Course Guide
10 pages
Complete Business Statistics: Simple Linear Regression and Correlation
No ratings yet
Complete Business Statistics: Simple Linear Regression and Correlation
50 pages
Rivregress
No ratings yet
Rivregress
16 pages
Machine Learning Course Guide
No ratings yet
Machine Learning Course Guide
3 pages
Examples Econometrics
No ratings yet
Examples Econometrics
9 pages
Measures of Dispersion Kurtosis and Skewness
No ratings yet
Measures of Dispersion Kurtosis and Skewness
19 pages
Job Stress & Performance Study
0% (1)
Job Stress & Performance Study
12 pages
Practice Exam III
100% (2)
Practice Exam III
8 pages
abdi-PLSC and PLSR2012
No ratings yet
abdi-PLSC and PLSR2012
31 pages
Wilcoxon Test: Serum Effectiveness
No ratings yet
Wilcoxon Test: Serum Effectiveness
6 pages
Decision Trees
No ratings yet
Decision Trees
26 pages
Exercise Bayesian
No ratings yet
Exercise Bayesian
2 pages
Chapter Non-Parametric Methods
No ratings yet
Chapter Non-Parametric Methods
9 pages
Notes Estimation Theory
100% (3)
Notes Estimation Theory
39 pages
hw3 Report 109090023
No ratings yet
hw3 Report 109090023
9 pages
Stats PDF
No ratings yet
Stats PDF
7 pages
Linear Regression Analysis in Education and Economics
No ratings yet
Linear Regression Analysis in Education and Economics
19 pages
Using Gretl
No ratings yet
Using Gretl
749 pages
ARDL
No ratings yet
ARDL
3 pages
DMDW 11 Classification Basic
No ratings yet
DMDW 11 Classification Basic
41 pages
Introduction To Normal Distribution
No ratings yet
Introduction To Normal Distribution
8 pages
Omv Bias Note
No ratings yet
Omv Bias Note
4 pages

Data Mining Techniques Using R Unit 1

Uploaded by

Data Mining Techniques Using R Unit 1

Uploaded by

DATA MINING

You might also like