0% found this document useful (0 votes)

14 views17 pages

Biological Data Science Lecture7

Biological Data Science

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views17 pages

Biological Data Science Lecture7

Biological Data Science

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 17

Dr Athanasios Tsanas (‘Thanasis’)

Associate Prof. in Data Science

Usher Institute, Medical School
University of Edinburgh
Day 1 • Introduction and overview; reminder of basic concepts
Day 2 • Data collection and sampling

Day 3 • Data mining: signal/image processing and information extraction

Day 4 • Data visualization: density estimation, statistical descriptors

Day 5 • Exploratory analysis: hypothesis testing and quantifying relationships

Day 6 • Feature selection and feature transformation

Day 7 • Statistical machine learning and model validation

Day 8 • Statistical machine learning and model validation

Day 9 • Practical examples: bringing things together

Day 10 • Revision and exam preparation

Subjects feature1 feature2 ... feature M

P1 3.1 1.3 0.9
P2 3.7 1.0 1.3
X
N P3 2.9 2.6 0.6
…
PN 1.7 2.0 0.7

M (features or characteristics) © A. Tsanas, 2020

Feature generation Feature selection Statistical
from raw data or transformation mapping

X y
Subjects feature1 feature2 ... feature M result
P1 3.1 1.3 0.9 1
P2 3.7 1.0 1.3 2
N P3 2.9 2.6 0.6 1
… …
PN 1.7 2.0 0.7 3

M (features or characteristics) outcome

 Depending on the problem, “features” can be demographics, genes, …

 y = f (X), f : mechanism X: feature set y: outcome © A. Tsanas, 2020

Exploratory
Data
analysis: Feature Statistical
visualization
hypothesis selection or mapping
(density
testing and transformation (regression/clas
estimation,
statistical (e.g. PCA) sification)
scatter plots)
associations

 Assessing the accuracy of statistical model

 Everything we have done in the course

culminates in today’s two lectures on
statistical mapping
© A. Tsanas, 2020
 Information has been collected and presented in
the form of design matrix X
 Experts typically provide outcome of interest in the
biomedical domain, y
 Having both X & y: determining functional mapping
y = f (X) is known as supervised learning
 When the outcome y is not available, we can still
work in unsupervised learning mode. For example
clustering
© A. Tsanas, 2020
Outcome y • Unsupervised learning
• Visualization
is not • Transformation (e.g. PCA)
available • Clustering (not covered here)

• Supervised learning
Outcome y
is available • Determine functional mapping
strategy: y = f (X)

© A. Tsanas, 2020
Classification Discrete outcome (oftentimes binary)
• Learners f (X) = y: classifiers
• Examples: kNN, Logistic Regression (LR), Naïve Bayes, Support Vector
Machines (SVM), Random Forests (RF)…

Regression Continuous outcome (typically real numbers)

• Learners f (X) = y: regressors
• Examples: Ordinary Least Squares (OLS) regression (linear regression),
Support Vector Machines (SVM), Random Forests (RF)…

 Indicative regression model: Explanatory

variable
𝑈𝑃𝐷𝑅𝑆 = 3 + 8.5 ∙ 𝐽𝑖𝑡𝑡𝑒𝑟
intercept
Coefficient
(or slope

 Coefficient = Unit increase in x => increase in y

min ෍ 𝑒𝑖2
1600 𝑖=1

1200 𝑒ด
𝑁
𝑖𝑛𝑑𝑖𝑐𝑎𝑡𝑖𝑣𝑒 𝑒𝑟𝑟𝑜𝑟
Coefficient
800
(or slope
𝑒ถ
132
𝑖𝑛𝑑𝑖𝑐𝑎𝑡𝑖𝑣𝑒 𝑒𝑟𝑟𝑜𝑟 𝑓𝑜𝑟 𝑠𝑎𝑚𝑝𝑙𝑒 132
intercept 400

0 C76
0 600 1200 1800
X (explanatory variable)
© A. Tsanas, 2020
𝑦 = 𝑎 + 𝑏1 ∙ 𝑥1 + 𝑏2 ∙ 𝑥2 + ⋯ + 𝑏𝑀 ∙ 𝑥𝑀

𝑈𝑃𝐷𝑅𝑆 = 3 + 8.5 ∙ 𝐽𝑖𝑡𝑡𝑒𝑟 − 3.2 ∙ 𝑆ℎ𝑖𝑚𝑚𝑒𝑟 + ⋯

 Expresses how much each variable contributes to

the outcome

 Signs of coefficients express direction of

contribution

 This is an area beyond the scope of this

course

 We will now look into classification

▪ Given 𝐱 𝑖 , 𝑦𝑖 𝑖=1…𝑁 , with data samples 𝐱 𝑖 𝜖 ℝM and corresponding

response 𝑦𝑖 = −1, +1

−1, 𝑓 𝐱 𝑖 < 0
▪ Design a classifier 𝑓 𝐱 𝑖 : 𝑦𝑖 = ቊ
+1, 𝑓 𝐱 𝑖 ≥ 0

1
p=
1 + e −( +  x ) Linear

Logistics

0 x

 Logistic function taking values in the range [0,1].

Logistic function is a misnomer, it is a classification algorithm!

1
𝑝(𝑑𝑖𝑠𝑐ℎ𝑎𝑟𝑔𝑒) =
1 + 𝑒 −(5+2∙𝑏𝑙𝑜𝑜𝑑_𝑡𝑒𝑠𝑡)

 Find the probability that patient should be

discharged if 𝑏𝑙𝑜𝑜𝑑_𝑡𝑒𝑠𝑡 = 5
2.7182
 Substitute values: 𝑝(𝑑𝑖𝑠𝑐ℎ𝑎𝑟𝑔𝑒) = 0.99
© A. Tsanas, 2020
G. James et al. An introduction to statistical learning
(pages: 15-42, 59-83, 127-138)

https://www-
bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf

OPTIONAL G. James et al. An introduction to statistical

learning (pages: 83-104)

Biological Data Science Lecture6
No ratings yet
Biological Data Science Lecture6
29 pages
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
No ratings yet
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
253 pages
SPSS For Starters, Part 2 ISBN 9400748035, 9789400748033 Scribd Full Download
No ratings yet
SPSS For Starters, Part 2 ISBN 9400748035, 9789400748033 Scribd Full Download
14 pages
Data Science Course Overview
No ratings yet
Data Science Course Overview
34 pages
ML Model Paper 2 Solution
No ratings yet
ML Model Paper 2 Solution
15 pages
SPSS For Starters Part2
No ratings yet
SPSS For Starters Part2
106 pages
Biological Data Science Lecture4
No ratings yet
Biological Data Science Lecture4
21 pages
SPSS For Starters, Part 2
100% (15)
SPSS For Starters, Part 2
16 pages
QSRI Lecture1
No ratings yet
QSRI Lecture1
45 pages
Biological Data Science Lecture3
No ratings yet
Biological Data Science Lecture3
23 pages
07 Logistics Regression
No ratings yet
07 Logistics Regression
23 pages
ML Model Paper 2 Solution
No ratings yet
ML Model Paper 2 Solution
15 pages
Logistic Regression and Discriminant Analysis: Jerry D.T. Purnomo, PH.D
No ratings yet
Logistic Regression and Discriminant Analysis: Jerry D.T. Purnomo, PH.D
54 pages
Biological Data Science Lecture5
No ratings yet
Biological Data Science Lecture5
22 pages
Slides DS
No ratings yet
Slides DS
334 pages
Logistic Regression
No ratings yet
Logistic Regression
61 pages
Classification With Logistic Regression, Newton's Method For Optimization, Generalized Linear Models
No ratings yet
Classification With Logistic Regression, Newton's Method For Optimization, Generalized Linear Models
55 pages
APA Chapter3 T20
No ratings yet
APA Chapter3 T20
24 pages
Lecture 03 Bayes Classifier With Prob Concepts
No ratings yet
Lecture 03 Bayes Classifier With Prob Concepts
70 pages
South Africa Heart Disease Project: Omar M. Osama Deyaa Eldeen A. Almahallawi June 16, 2010
No ratings yet
South Africa Heart Disease Project: Omar M. Osama Deyaa Eldeen A. Almahallawi June 16, 2010
7 pages
Fiches Machine Learning
No ratings yet
Fiches Machine Learning
21 pages
Jds 1022
No ratings yet
Jds 1022
24 pages
07 - Linear Models For Classification
No ratings yet
07 - Linear Models For Classification
76 pages
Lecture 09 - 02.09.2024 - Regression-01
No ratings yet
Lecture 09 - 02.09.2024 - Regression-01
62 pages
Lecture 7 Classification
No ratings yet
Lecture 7 Classification
33 pages
Notes Stat Learning
No ratings yet
Notes Stat Learning
64 pages
Predictive Analytics Primer
No ratings yet
Predictive Analytics Primer
66 pages
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
No ratings yet
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
4 pages
ICT202B AI ML and Emerging Technologies UNIT 3 (Classification and Regression) 2
No ratings yet
ICT202B AI ML and Emerging Technologies UNIT 3 (Classification and Regression) 2
23 pages
MATH6183 Introduction+Regression
No ratings yet
MATH6183 Introduction+Regression
70 pages
Domande Complete ML UNIPD
No ratings yet
Domande Complete ML UNIPD
12 pages
Machine Learning and Data Mining
No ratings yet
Machine Learning and Data Mining
88 pages
Statistics N Probability
No ratings yet
Statistics N Probability
31 pages
Introduction 1
No ratings yet
Introduction 1
113 pages
Statistical Prediction and Machine Learning
100% (5)
Statistical Prediction and Machine Learning
314 pages
Dsbda Unit 5
No ratings yet
Dsbda Unit 5
30 pages
MLDL Lecture 1
No ratings yet
MLDL Lecture 1
28 pages
ML 2 PPT Unit 2
No ratings yet
ML 2 PPT Unit 2
214 pages
Dmitry Grapov
No ratings yet
Dmitry Grapov
41 pages
Regression Basics for Epidemiologists
No ratings yet
Regression Basics for Epidemiologists
18 pages
Murphy Book Solution
No ratings yet
Murphy Book Solution
100 pages
Final Cc01 Group05-1
No ratings yet
Final Cc01 Group05-1
26 pages
Lme4: Mixed-Effects Modeling With R
No ratings yet
Lme4: Mixed-Effects Modeling With R
145 pages
Information Securtiy
No ratings yet
Information Securtiy
8 pages
Statistical Learning: First Steps: Sasha Rakhlin
No ratings yet
Statistical Learning: First Steps: Sasha Rakhlin
26 pages
Model Evaluation for Data Scientists
No ratings yet
Model Evaluation for Data Scientists
7 pages
KNN and Baysian Method
No ratings yet
KNN and Baysian Method
43 pages
Statistical Learning
No ratings yet
Statistical Learning
4 pages
StatLearning3r PDF
No ratings yet
StatLearning3r PDF
136 pages
Bayesian Thinking in Biostatistics - 1st Edition PDF Ebook With Full Chapters
No ratings yet
Bayesian Thinking in Biostatistics - 1st Edition PDF Ebook With Full Chapters
15 pages
Merge
No ratings yet
Merge
240 pages
Comparacion Algoritmos
No ratings yet
Comparacion Algoritmos
17 pages
KCA 034 - Unit 2
No ratings yet
KCA 034 - Unit 2
97 pages
Doing Business in Hungary
No ratings yet
Doing Business in Hungary
22 pages
Master of Science in Renewable Energy and Management
No ratings yet
Master of Science in Renewable Energy and Management
1 page
W2e Multivariate Gaussian
No ratings yet
W2e Multivariate Gaussian
6 pages
Award in Education and Training Sample
No ratings yet
Award in Education and Training Sample
9 pages
w2c Central Limit
No ratings yet
w2c Central Limit
1 page
TS Part2
No ratings yet
TS Part2
62 pages
BDS 2018-19
No ratings yet
BDS 2018-19
6 pages
MATH11183 Week 1-Part 2
No ratings yet
MATH11183 Week 1-Part 2
18 pages
MLPR w0f - Machine Learning and Pattern Recognition
No ratings yet
MLPR w0f - Machine Learning and Pattern Recognition
3 pages
BDS 2016-17
No ratings yet
BDS 2016-17
4 pages
Part 5
No ratings yet
Part 5
31 pages
MDA3S
No ratings yet
MDA3S
22 pages
Week 2 Naive Bayes
No ratings yet
Week 2 Naive Bayes
15 pages
PMRslides 03 B
No ratings yet
PMRslides 03 B
45 pages
Part 3
No ratings yet
Part 3
29 pages
Part 4
No ratings yet
Part 4
24 pages
Week 8 Pca
No ratings yet
Week 8 Pca
26 pages
PMRslides 02
No ratings yet
PMRslides 02
13 pages
W6a Gaussian Process Kernels
No ratings yet
W6a Gaussian Process Kernels
6 pages
Slides 03 A
No ratings yet
Slides 03 A
21 pages
Bayesian Week4 LectureNotes
No ratings yet
Bayesian Week4 LectureNotes
15 pages
w9b Netflix Prize
No ratings yet
w9b Netflix Prize
3 pages
Bio Statslectures
No ratings yet
Bio Statslectures
60 pages
Heat Advection
No ratings yet
Heat Advection
12 pages
Bayesian Workshop1 Solution
No ratings yet
Bayesian Workshop1 Solution
3 pages
2019 AMAM Exam Paper
No ratings yet
2019 AMAM Exam Paper
3 pages
Laplace Approximation in Bayesian Logistic Regression
No ratings yet
Laplace Approximation in Bayesian Logistic Regression
4 pages
2017 AMAM Exam Paper
No ratings yet
2017 AMAM Exam Paper
6 pages
IEC 61010-1-2010 Amd1-2016 Cor1-2019
50% (2)
IEC 61010-1-2010 Amd1-2016 Cor1-2019
4 pages
Telehealth Access in Nepal Pandemic
No ratings yet
Telehealth Access in Nepal Pandemic
124 pages
Module 5 Light Side of The Internet
No ratings yet
Module 5 Light Side of The Internet
13 pages
Takeuchi Tb225 Parts Manual
No ratings yet
Takeuchi Tb225 Parts Manual
338 pages
CC 11
No ratings yet
CC 11
3 pages
Mind Map As A Tool For Critical Thinking
100% (1)
Mind Map As A Tool For Critical Thinking
6 pages
Piling-Inspection-Checklist - DDA Standart
No ratings yet
Piling-Inspection-Checklist - DDA Standart
1 page
Unit-I-VLSI Design 2023-24 Roth Book According To Syllabus
No ratings yet
Unit-I-VLSI Design 2023-24 Roth Book According To Syllabus
51 pages
Conference Schedule - Cyber Security in Telecoms 27022024161610
No ratings yet
Conference Schedule - Cyber Security in Telecoms 27022024161610
1 page
Data Science Full Stack Roadmap
No ratings yet
Data Science Full Stack Roadmap
25 pages
Manual Kick Tolerance Guide
100% (1)
Manual Kick Tolerance Guide
3 pages
DR - Srinivas Bachu
No ratings yet
DR - Srinivas Bachu
8 pages
20 Ua412s en 2.0 V1.16 Eag
No ratings yet
20 Ua412s en 2.0 V1.16 Eag
122 pages
COMP301 Lab 1
No ratings yet
COMP301 Lab 1
2 pages
FS 1 Learning Episode 11
No ratings yet
FS 1 Learning Episode 11
11 pages
Git Basics
No ratings yet
Git Basics
19 pages
Rozdział 12 - Nauka I Technika - MiniMatura (Grupa B)
No ratings yet
Rozdział 12 - Nauka I Technika - MiniMatura (Grupa B)
2 pages
The Autopsy of Jane Doe 2016 Screenplay by Richard Naing Ian Goldberg
No ratings yet
The Autopsy of Jane Doe 2016 Screenplay by Richard Naing Ian Goldberg
98 pages
Programming 1 FINAL EXAM
100% (1)
Programming 1 FINAL EXAM
2 pages
Student Name: Bhumika Shrestha TP Number: NP000194 Performance Criteria: REPORT (30%) Very Poor Poor Adequate Good Excellent
No ratings yet
Student Name: Bhumika Shrestha TP Number: NP000194 Performance Criteria: REPORT (30%) Very Poor Poor Adequate Good Excellent
4 pages
G8 - 2nd Quarterly Exam
No ratings yet
G8 - 2nd Quarterly Exam
3 pages
Types of Network
No ratings yet
Types of Network
18 pages
Photoshop Level 2 Session 02
No ratings yet
Photoshop Level 2 Session 02
21 pages
Lec13 Jack
No ratings yet
Lec13 Jack
54 pages
EST3 Life Safety Submittal Guide
No ratings yet
EST3 Life Safety Submittal Guide
64 pages
Experiment: 5: AIM: Study of CB & CE Characteristics of Transistor Theory
100% (4)
Experiment: 5: AIM: Study of CB & CE Characteristics of Transistor Theory
5 pages
MSB-HDR Sav
No ratings yet
MSB-HDR Sav
12 pages
CS601 Short Notes (VUAnswer - Com) Topic 124 To 204
100% (1)
CS601 Short Notes (VUAnswer - Com) Topic 124 To 204
98 pages
ECU Studio Manual V1-03
No ratings yet
ECU Studio Manual V1-03
33 pages
RFI-157 Request For NDT (Only RT) Acceptance For PQR Joints
No ratings yet
RFI-157 Request For NDT (Only RT) Acceptance For PQR Joints
1 page

Biological Data Science Lecture7

Uploaded by

Biological Data Science Lecture7

Uploaded by

Dr Athanasios Tsanas (‘Thanasis’)

Associate Prof. in Data Science

Day 3 • Data mining: signal/image processing and information extraction

Day 4 • Data visualization: density estimation, statistical descriptors

Day 5 • Exploratory analysis: hypothesis testing and quantifying relationships

Day 6 • Feature selection and feature transformation

Day 7 • Statistical machine learning and model validation

Day 8 • Statistical machine learning and model validation

Day 9 • Practical examples: bringing things together

Day 10 • Revision and exam preparation

Subjects feature1 feature2 ... feature M

M (features or characteristics) © A. Tsanas, 2020

M (features or characteristics) outcome

 y = f (X), f : mechanism X: feature set y: outcome © A. Tsanas, 2020

 Assessing the accuracy of statistical model

 Everything we have done in the course

Regression Continuous outcome (typically real numbers)

 Indicative regression model: Explanatory

 Coefficient = Unit increase in x => increase in y

𝑈𝑃𝐷𝑅𝑆 = 3 + 8.5 ∙ 𝐽𝑖𝑡𝑡𝑒𝑟 − 3.2 ∙ 𝑆ℎ𝑖𝑚𝑚𝑒𝑟 + ⋯

 Expresses how much each variable contributes to

 Signs of coefficients express direction of

 This is an area beyond the scope of this

 We will now look into classification

▪ Given 𝐱 𝑖 , 𝑦𝑖 𝑖=1…𝑁 , with data samples 𝐱 𝑖 𝜖 ℝM and corresponding

 Logistic function taking values in the range [0,1].

Logistic function is a misnomer, it is a classification algorithm!

 Find the probability that patient should be

OPTIONAL G. James et al. An introduction to statistical

You might also like