0% found this document useful (0 votes)

21 views14 pages

Class 1a-DataCollection

The document provides an overview of data mining and knowledge discovery, highlighting its purpose of extracting useful knowledge from large datasets. It discusses the multidisciplinary nature of data mining, key definitions, and the life-cycle of data mining projects, including motivations and critical dilemmas. Additionally, it outlines various tasks and methods in data mining, as well as examples of discovered rules and open-source software tools for data mining.

Uploaded by

eltcarva

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

21 views14 pages

Class 1a-DataCollection

Uploaded by

eltcarva

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

Prof.

Heitor Silvério Lopes

Prof. Thiago H. Silva

Data Mining &

Knowledge
Discovery
Class 1a – Introduction &
Overview
2025
Data mining → Knowledge discovery
The purpose of D.M. is to find new, useful, and relevant knowledge hidden in
large amounts of data
The Multidisciplinarity of Data Mining
● Data mining uses concepts and methods from many areas:
○ Machine Learning
○ Databases
○ Computational Intelligence (EC, NN, FS)
○ Mathematics / Statistics
○ Programming languages
Data x Information X Knowledge
● Data:
○ Instances (objects, people, timestamps, etc)
○ Describe individual, not collective, properties, and they are:
■ Easy to collect
■ Available in large amounts and forms
■ Few useful for predictions or decision-making
● Information: We are drowning in
○ Classes (groups) of instances information,
○ Describe generic patterns, structures, principles, etc but starving for
■ Hard to obtain knowledge.
■ Few abundant John Naisbitt (1982)
■ Allow generalizations and predictions
● Knowledge
○ Regards the comprehension of something (including facts, habilities and informations)
○ Obtained by means of human perceptions or learning
Data x Information X Knowledge
Knowledge

complexity
Information

Data
Some important definitions of Data Mining
● Automatic/semi-automatic discovery of structural patterns in data (Witten et
al., 2000)

● Extraction of structured knowledge which is useful, previously unknown, non-

trivial, humanly comprehensible, from large amounts of data (Fayyad et al.,
1996)

● Desirable features of discovered knowledge:

○ Correctness
○ Generality
○ Utility
○ Comprehensibility
○ Novelty
Examples of rules discovered using data mining
● Case 1: consider a dataset of patient records from a maternity hospital.
A data-mining procedure found this rule:
Correctness ☺
IF (patient.age >) 15 AND (patient.age < 50) AND Generality ☺
(sector = “surgical clinic”) AND (surgery.type = Utility 
Comprehensibility ☺
“cesarean”) THEN (patient.sex = “female”) Novelty 

● Case 2: consider a dataset of pediatric oncological medical records*.

A data-mining procedure found this rule:
Correctness ☺
IF (histology.type = carcinoma) AND (patient.age < 3) Generality ☺
Utility ☺ ☺
AND (oncological.stage = 1) AND (metastasis=“no”) Comprehensibility ☺
THEN (years.survival > 5) Novelty ☺ ☺ ☺

* Bojarczuk, C.C., Lopes, H.S., Freitas, A.A. A constrained-syntax genetic programming system for discovering
classification rules: application to medical data sets. Artificial Intelligence in Medicine, v. 30, n. 1, p. 27-48, 2004.
Life-cycle of Data Mining projects Hard
work !

Pre-processing:
Collection, formatting,
selection, data cleaning, data
integration reduction
Raw data
Data warehouse

Pattern discovery
Data mining methods
Filtered/cleaned data
Pattern
analysis and
interpretation

Knowledge !!
Motivations for Data Mining
1) VERY LARGE amount of data freely available in the internet
o E-mails and social networks
o Business and bank transactions
o Web page searches (Webscrapping!)
o Medical and biological data
o Scientific and astronomical data
Motivations for Data Mining
2) Business/commercial interest ($$$)
Critical Dilema in Data Mining
● The amount of data generated, created, stored, etc, grows exponentially
● The ability to mine, understand, and effectively use these data grows
linearly (best case!)

• Data mining may help

us to understand
large amounts of data
by extracting useful
knowledge
* https://explodingtopics.com/blog/data-generated-per-day
Tasks x Methods in Data Mining
Tasks Methods
Classification Decision trees (C4.5), Cassification rules, k-nearest-neighboors,
Random forest, Support vector machine, Bayesian classifier,
Neural network, Adaboost
Association Rules Apriori, FP-growth, Eclat, Zigzag

Regression Linear Regression, Polynomial regression, Logistic regression

Feature Selection & Principal component analysis (PCA), Chi-square, Entropy,

Dimensionality Reduction Information gain

Clustering K-means, Kohonen’s self-organized map, Density-based scan,

Hierarchical grouping, t-SNE
Data visualization * Silhouette plot, scatter plot, heatmap, box plot, clusters, t-SNE
Tasks x Methods in Data Mining
● Types of data:
○ Numerical
○ Categorical
○ Text
○ Image/video
○ Time-series/signals

● Some data types require diferent tasks, for instance:

○ Image, time-series/signals can be clustered or classified
○ Text can be classified, but may require other specific tasks (e.g. sentiment analysis)
Some open-source softwares for Data Mining
● Orange (Python): developed and maintained by the University of Ljubljana (SL)
https://orangedatamining.com/
○ Easy-to-use windows interface (visual programming), add-ons for specific tasks, allows
integration with Python code.

● Weka (Java): created and maintained by the Waikato University (NZ)

https://www.cs.waikato.ac.nz/ml/weka
○ Very large library of methods, community support
○ Not-so-user-friendly interface, Poor documentation

● Knime (Java): developed and maintained by the Konztanz Universitaet (GE)

https://www.knime.com/

● Further information: https://www.datamation.com/big-data/open-source-data-

mining-tools/

Data Mining Merged PDF CS1 CS8
No ratings yet
Data Mining Merged PDF CS1 CS8
272 pages
Data Mining SSWT ZC 425
No ratings yet
Data Mining SSWT ZC 425
381 pages
01 Intro
No ratings yet
01 Intro
23 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
48 pages
Unit 3
No ratings yet
Unit 3
23 pages
Data Mining: Nicoleta ROGOVSCHI
No ratings yet
Data Mining: Nicoleta ROGOVSCHI
84 pages
AIML-HC Mod 02
No ratings yet
AIML-HC Mod 02
65 pages
01 Intro
No ratings yet
01 Intro
45 pages
Data Mining Course Overview
No ratings yet
Data Mining Course Overview
49 pages
Introduction To Data Mining Unit1
No ratings yet
Introduction To Data Mining Unit1
37 pages
Intro Data Mining
No ratings yet
Intro Data Mining
51 pages
0 Introduction
No ratings yet
0 Introduction
43 pages
Lec 1
No ratings yet
Lec 1
33 pages
1 Lect - 1.2 - 12 - August 2022 PDF
No ratings yet
1 Lect - 1.2 - 12 - August 2022 PDF
59 pages
Unit1 IntroductionToDWDM
No ratings yet
Unit1 IntroductionToDWDM
40 pages
Lect 1 2 Data Mining 3
No ratings yet
Lect 1 2 Data Mining 3
19 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
43 pages
DB 14
No ratings yet
DB 14
97 pages
1 - 1 Intro To Data Mining - ch1
No ratings yet
1 - 1 Intro To Data Mining - ch1
18 pages
Data Mining and Its Branches
No ratings yet
Data Mining and Its Branches
37 pages
Business Intelligence DM1
No ratings yet
Business Intelligence DM1
36 pages
01 Intro
No ratings yet
01 Intro
61 pages
Introduction Lecture1gghhhhh
No ratings yet
Introduction Lecture1gghhhhh
23 pages
Datamining&warehousing
No ratings yet
Datamining&warehousing
65 pages
Chapter 1. Introduction
No ratings yet
Chapter 1. Introduction
323 pages
Data Mining Essentials for Analysts
No ratings yet
Data Mining Essentials for Analysts
35 pages
Data Mining: An Overview From A Database Perspective
No ratings yet
Data Mining: An Overview From A Database Perspective
30 pages
What Is Data Mining?
No ratings yet
What Is Data Mining?
35 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
Data Mining
No ratings yet
Data Mining
61 pages
Data Mining
No ratings yet
Data Mining
26 pages
Data Mining
No ratings yet
Data Mining
27 pages
DWDM Unit 1 Part 1
No ratings yet
DWDM Unit 1 Part 1
35 pages
Data Mining - Concepts and Techniques
No ratings yet
Data Mining - Concepts and Techniques
224 pages
IS414: Data Mining: DR - Waleed M.Ead
No ratings yet
IS414: Data Mining: DR - Waleed M.Ead
36 pages
Data Mining & BI Course Guide
No ratings yet
Data Mining & BI Course Guide
25 pages
Chapter 1 - Tagged
No ratings yet
Chapter 1 - Tagged
46 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
Introduction
No ratings yet
Introduction
26 pages
Week 1-2
No ratings yet
Week 1-2
3 pages
DM-Unit 1
No ratings yet
DM-Unit 1
110 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
Chapter1 Introduction
No ratings yet
Chapter1 Introduction
92 pages
Lecture 1 Data Mining
No ratings yet
Lecture 1 Data Mining
51 pages
Data Whare House PDF
No ratings yet
Data Whare House PDF
51 pages
01intro (Autosaved)
No ratings yet
01intro (Autosaved)
43 pages
Intro to Data Mining Course
No ratings yet
Intro to Data Mining Course
56 pages
DWDM LS1 Fall 24 25
No ratings yet
DWDM LS1 Fall 24 25
42 pages
2020 - UNIT 2 Chapter 1
No ratings yet
2020 - UNIT 2 Chapter 1
73 pages
Comp 6838
No ratings yet
Comp 6838
41 pages
LectureSlide 1
No ratings yet
LectureSlide 1
12 pages
Data Mining
No ratings yet
Data Mining
33 pages
Data Mining for Tech Professionals
No ratings yet
Data Mining for Tech Professionals
33 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
01 Intro
No ratings yet
01 Intro
40 pages
1-Data Mining and Applications
No ratings yet
1-Data Mining and Applications
70 pages
DM Lec1
No ratings yet
DM Lec1
40 pages
NoteGPT AI PPT Maker 1728839592167
No ratings yet
NoteGPT AI PPT Maker 1728839592167
10 pages
Practical 3linux Practical For B.tech Student
No ratings yet
Practical 3linux Practical For B.tech Student
6 pages
GP Install
No ratings yet
GP Install
15 pages
MU-N Series: Instruction Manual
No ratings yet
MU-N Series: Instruction Manual
4 pages
Aqa A Level Computer Science Paper 2 2023 75172
No ratings yet
Aqa A Level Computer Science Paper 2 2023 75172
40 pages
Roxtec Transit Designer™: Online Tool For Easy Design of Cable and Pipe Transits
No ratings yet
Roxtec Transit Designer™: Online Tool For Easy Design of Cable and Pipe Transits
2 pages
Chapter4 OK
No ratings yet
Chapter4 OK
39 pages
C 09 S 4
100% (2)
C 09 S 4
12 pages
Design Value Improves ROI
100% (1)
Design Value Improves ROI
7 pages
Pydroid
No ratings yet
Pydroid
3 pages
Project Design Brief (G2)
No ratings yet
Project Design Brief (G2)
1 page
CCNA Security v2.0 Final Exam Answers PDF
No ratings yet
CCNA Security v2.0 Final Exam Answers PDF
22 pages
0418 w04 Ms 1
No ratings yet
0418 w04 Ms 1
8 pages
3d Modelling For Virtual Reality: Tutorial #2 - VRML Sliding Door!
No ratings yet
3d Modelling For Virtual Reality: Tutorial #2 - VRML Sliding Door!
12 pages
M2350-1 Windows Interface Ver1.2.1 April 2013
No ratings yet
M2350-1 Windows Interface Ver1.2.1 April 2013
12 pages
LM2575
No ratings yet
LM2575
25 pages
OLI Studio User Training Guide
No ratings yet
OLI Studio User Training Guide
7 pages
SATEC Catalog
No ratings yet
SATEC Catalog
28 pages
Iso 26866
No ratings yet
Iso 26866
20 pages
Descargar Pergaminos de Cristal Claudio Pasten
No ratings yet
Descargar Pergaminos de Cristal Claudio Pasten
3 pages
XML Services Developer's Guide 7.1
No ratings yet
XML Services Developer's Guide 7.1
80 pages
Addition Tips and Tricks
No ratings yet
Addition Tips and Tricks
11 pages
CMOS 4000 Series IC List
No ratings yet
CMOS 4000 Series IC List
6 pages
Extrahop Mib
No ratings yet
Extrahop Mib
6 pages
Cisco Live Introduction To SRv6 uSID Technology-2
No ratings yet
Cisco Live Introduction To SRv6 uSID Technology-2
129 pages
Drone Defence - Jammers 101 - DroneShield
No ratings yet
Drone Defence - Jammers 101 - DroneShield
3 pages
Chapter7 2
No ratings yet
Chapter7 2
23 pages
Bharath Kumar Nageli's Resume
No ratings yet
Bharath Kumar Nageli's Resume
2 pages
Reviewet
No ratings yet
Reviewet
22 pages

Class 1a-DataCollection

Uploaded by

Class 1a-DataCollection

Uploaded by

Prof.

Heitor Silvério Lopes

Data Mining &

● Extraction of structured knowledge which is useful, previously unknown, non-

● Desirable features of discovered knowledge:

● Case 2: consider a dataset of pediatric oncological medical records*.

• Data mining may help

Regression Linear Regression, Polynomial regression, Logistic regression

Feature Selection & Principal component analysis (PCA), Chi-square, Entropy,

Clustering K-means, Kohonen’s self-organized map, Density-based scan,

● Some data types require diferent tasks, for instance:

● Weka (Java): created and maintained by the Waikato University (NZ)

● Knime (Java): developed and maintained by the Konztanz Universitaet (GE)

● Further information: https://www.datamation.com/big-data/open-source-data-

You might also like