0% found this document useful (0 votes)

53 views14 pages

Data Science

This document provides an introduction and overview of the key concepts and steps involved in data science, from collecting and managing data to building models and deploying solutions. It discusses the roles of data engineers, analysts, scientists, and how exploratory analysis, visualization, preprocessing, and mathematical modeling are used to turn data into knowledge. Requirements for working in data science such as programming skills, mathematics, machine learning expertise, and experience with data analytics tools are also outlined.

Uploaded by

scientist01234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

53 views14 pages

Data Science

Uploaded by

scientist01234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

Introduction to Data science

Rathinaraja Jeyaraj Ph.D., RJ

Post-doctoral fellow,
University of Houston - Victoria,
Texas, USA.
FROM DATA TO KNOWLEDGE
1. Domain knowledge and problem formulation
2. Data engineering Data engineer
2.1 Capturing (collecting) the data from device/software/application
2.2 Ingesting (transporting) the data to the storage location
2.3 Managing the data (storing and retrieving data from databases/files)
3. Exploratory data analysis (to summarize the main characteristics and behaviour of data) Data analyst
4. Visualization (answering the questions – table, chart, plot, graph, statistics, rules (if-else), trees) Data visualization
5. Data pre-processing (preparing the data for feeding into the algorithm)
6. Mathematical modelling (machine learning)
Data scientist
6.1 Building the model
Data analytics
6.2 Evaluating (testing) the model
6.3 Is the model good? If not go to step 3 or step 4

7. Deploy the model for production ML (MLops) engineer

2
1. Abstract science
2. Social science
3. Natural science
4. Applied science

3
END-TO-END (E2E) IMPLEMENTATION
1. Domain knowledge and problem formulation for the questions.

Example: For web-series recommender system in Netflix,

Domain knowledge – the function of the social network, user activities, objective of E-com companies, etc.

Question – Can you recommend a new web series “W” to subscriber “X” based on his past browsing history?

Problem formulation – identify the list of variables and objectives for this problem to build an equation to be solved.

2. Data engineering

2.1 Capturing (collecting) the data from devices/software/application

From smartphone1 – teamscope, open data kit, kobo toolbox, Redcap, Magpi, Jotforms mobile, CommCare, etc.

Logging tools2 – log4j, Loggly, Splunk, Sumo Logic, Sematext, LogStash, GrayLog, PaperTrails, etc.

IoT tools – Raspberry pi, sensors, actuators, RFID readers, Scanner, temperature recorder, CCTV, etc.

Any applications – Facebook, Instagram, WhatsApp, etc.

4
2.2 Ingesting3 (transporting) the data – Kafka, Nifi, Kinesis, Spark, Storm, Syncsort, Flume, Chukwa, Sqoop, Samza, etc.

2.3 Managing the data (storing and retrieving from databases/files)

SQL – MySQL, Oracle, MariaDB, PostgreSQL, Microsoft SQL Server, DB2, etc.

NoSQL – Hbase, MongoDB, Cassandra, DynamoDB, Neo4j, etc.

File formats – CSV, XML, JSON, images, videos, etc.

3. Exploratory data analysis – EDA (to summarize the main characteristics and behaviour of data)

Statistical measures of centre and variation, graphs, charts, plots, etc., probability distribution.

4. Data pre-processing (preparing the data for modelling) - Data wrangling

Data cleaning1 – Binning, clustering, regression, normalization, aggregation, etc.

Data transformation2 – Smoothing, aggregation, normalization, feature extraction, etc.

Data integration – Correlation analysis, etc.

5
Data reduction – Data cube aggregation, dimensionality reduction, data compression, numerosity reduction, discretization

Feature engineering – Imputation, categorical encoding, binning, scaling, log transform, feature selection and grouping.

5. Visualization1 (answering the questions) – Python libraries, Tableau, PowerBI, Infogram, ChartBlocks, Datawrapper

The discovered knowledge can be presented as table, chart, plot, graph, statistics, rules (if-else), trees.

6. Mathematical modelling – machine learning (Python libraries, R, Weka, Matlab)

6.1 Building the model from pre-processed data

6.2 Evaluating (testing) the model

6.3 Is the model good? If not go to step 3 or step 4

7. Deploying the model for production – cloud (AWS, Google), personal computer, smartwatch, etc.
6
7
WHAT DO YOU NEED FOR DATA SCIENCE?
Single machine vs distributed system platform for data science

▪ To work in data science on a single machine – Python, Excel, MATLAB, SAS, R, Weka, SQL databases, etc.

▪ To work in data science on the distributed system – Hadoop, Spark, Storm, etc.

To get into data science using Python

▪ Invest your time and gain respective domain/subject knowledge.

▪ Get a grip on the basics of statistics, probability, mathematics (calculus, linear algebra), machine learning, optimization
techniques, etc.

▪ Python framework (Anaconda)

▪ Python programming and IDEs (Jupyter/Spyder, Google colab).

8
▪ Math and scientific computing libraries (Numpy/Scipy).

▪ Data pre-processing and managing library (Pandas).

▪ Graphing and visualization library (Matplotlib/Plotly/Seaborn).

▪ Machine learning and deep learning libraries (Scikit-learn, TensorFlow, PyTorch, Keras, Caffe, Thaeno).

▪ To work on an image dataset for computer vision (OpenCV).

▪ To work on a text dataset for NLP (NLTK).

9
REQUIREMENTS FOR DATA SCIENCE JOBS

Data science job - expectation Now, I am an expert in data science

10
Data science job - reality What?

11
Data scientist role

▪ An analytical mind and critical thinking to define and work on a wide variety of problems in different domains.

▪ Strong familiarity with algorithm design techniques for a given problem.

▪ Good at statistics, probability, discrete, mathematics, calculus, linear algebra, machine learning, optimization techniques, etc.

▪ Good programming knowledge.

▪ Experience in data analytics.

▪ Working knowledge of data science E2E implementation tools.

12
▪ PhD is expected as they accumulate domain knowledge.

▪ Ultimately, more focused on building models (algorithms) in data analytics.

Data analyst role

▪ Sufficient knowledge of exploratory data analysis tasks.

▪ Hands-on experience in using algorithms (pre-built models), sometimes building algorithms.

▪ Preferably graduate degree is desired.

Data engineer role

▪ ETL tools like database, data warehouse, and distributed file systems for designing storage plans for storing data.

▪ Undergraduate degree is good enough.

13
Any QUESTIONS?

You can reach me at: jrathinaraja@gmail.com

Personal website: https://jrathinaraja.co.in/

File
No ratings yet
File
27 pages
Introduction To Data Science - 23CSH-283
100% (1)
Introduction To Data Science - 23CSH-283
48 pages
Unit I
No ratings yet
Unit I
52 pages
Data Science
No ratings yet
Data Science
13 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
25 pages
Unit I - Notes
No ratings yet
Unit I - Notes
15 pages
Introductiontodatascience 230122140841 B90a0856 1
No ratings yet
Introductiontodatascience 230122140841 B90a0856 1
44 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
Introductiontodatascience 230122140841 B90a0856
No ratings yet
Introductiontodatascience 230122140841 B90a0856
44 pages
Introduction To Data Science Course Outline
No ratings yet
Introduction To Data Science Course Outline
5 pages
Data Science Report - Compress
No ratings yet
Data Science Report - Compress
31 pages
Seminar On Data Science
100% (7)
Seminar On Data Science
25 pages
Unit 3
No ratings yet
Unit 3
9 pages
Internship Report: T.J.Instituteoftechnology
No ratings yet
Internship Report: T.J.Instituteoftechnology
29 pages
Unit 1 Notes
No ratings yet
Unit 1 Notes
25 pages
5th Sem Internship Eport
No ratings yet
5th Sem Internship Eport
83 pages
Data Science
No ratings yet
Data Science
15 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
12 pages
Data Science Fundamentals Guide
No ratings yet
Data Science Fundamentals Guide
65 pages
Data Science Process UNIT - II PS New
No ratings yet
Data Science Process UNIT - II PS New
21 pages
Internship Report 2023-24 Data Science
100% (2)
Internship Report 2023-24 Data Science
23 pages
Data Science Management - Vss
No ratings yet
Data Science Management - Vss
84 pages
01 Introduction
No ratings yet
01 Introduction
7 pages
Data Science
No ratings yet
Data Science
17 pages
Ids Unit 1,2,3,4 & 5
No ratings yet
Ids Unit 1,2,3,4 & 5
117 pages
BMA - Recommended Sources For Analytics
No ratings yet
BMA - Recommended Sources For Analytics
13 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
Module 1 Applied Data Science 1.1 and 1.2
No ratings yet
Module 1 Applied Data Science 1.1 and 1.2
104 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
DSA Lecture1
No ratings yet
DSA Lecture1
15 pages
DSE 3 Unit 1
100% (1)
DSE 3 Unit 1
10 pages
Data Science
No ratings yet
Data Science
10 pages
Unit - 1
No ratings yet
Unit - 1
25 pages
Bd4151 Foundations of Data Science
No ratings yet
Bd4151 Foundations of Data Science
70 pages
Selected Topics - Datascience
No ratings yet
Selected Topics - Datascience
17 pages
Data Science Unit 1
No ratings yet
Data Science Unit 1
85 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
Data Science Unit 01
No ratings yet
Data Science Unit 01
19 pages
CH1 Introduction To Data Science BS
No ratings yet
CH1 Introduction To Data Science BS
69 pages
Dsdm-Unit1 241031 194317
No ratings yet
Dsdm-Unit1 241031 194317
38 pages
1666777204580-1666708806962-Introduction To Data Science REV
No ratings yet
1666777204580-1666708806962-Introduction To Data Science REV
41 pages
Datascience With Python
No ratings yet
Datascience With Python
178 pages
Fundamentals of Data Science Course
100% (3)
Fundamentals of Data Science Course
62 pages
BD4151 Foundations OF DATA Science BD4151 Foundations OF DATA Science
No ratings yet
BD4151 Foundations OF DATA Science BD4151 Foundations OF DATA Science
70 pages
Self Learning Material - Introduction To Data Science
No ratings yet
Self Learning Material - Introduction To Data Science
10 pages
Data Science Course in Pitampura
No ratings yet
Data Science Course in Pitampura
19 pages
Final Industrial Report
No ratings yet
Final Industrial Report
34 pages
Data Science Roadmap (2025) - From Fundamentals To Job-Ready
No ratings yet
Data Science Roadmap (2025) - From Fundamentals To Job-Ready
6 pages
IDS Complete Notes
No ratings yet
IDS Complete Notes
126 pages
Data Science Fundamentals Detailed Notes
No ratings yet
Data Science Fundamentals Detailed Notes
31 pages
Data Science Mastery Course in Pitampura
No ratings yet
Data Science Mastery Course in Pitampura
19 pages
Lecture - 5 - 2 - Skills Required by Data Scientist
No ratings yet
Lecture - 5 - 2 - Skills Required by Data Scientist
11 pages
Intro to Data Science Basics
No ratings yet
Intro to Data Science Basics
11 pages
Lecture 1 What Is Data Science Prerequisites, Lifecycle and Applications Simplilearn
No ratings yet
Lecture 1 What Is Data Science Prerequisites, Lifecycle and Applications Simplilearn
5 pages
Harsh Synopsis
No ratings yet
Harsh Synopsis
21 pages
Data Science Bcs A
No ratings yet
Data Science Bcs A
20 pages
1 Introduction To Data Science
No ratings yet
1 Introduction To Data Science
14 pages
Data Science & Big Data Course Guide
No ratings yet
Data Science & Big Data Course Guide
119 pages
JobRecord MUHAMMAD NAEEM F70a3eba Db3d 11ef A12f 96f32f87411b
No ratings yet
JobRecord MUHAMMAD NAEEM F70a3eba Db3d 11ef A12f 96f32f87411b
63 pages
Workflow Document
No ratings yet
Workflow Document
4 pages
EWM Central How-to Guide Overview
No ratings yet
EWM Central How-to Guide Overview
3 pages
Digital Logic Circuits Analysis and Converting Boolean Expressions To Digital Circuits
No ratings yet
Digital Logic Circuits Analysis and Converting Boolean Expressions To Digital Circuits
10 pages
Genetec Product Catalog
No ratings yet
Genetec Product Catalog
3 pages
Aspect Oriented Software Development: Prepared By: Ebru Doğan
No ratings yet
Aspect Oriented Software Development: Prepared By: Ebru Doğan
25 pages
h07rn F Bs en 50525 2 21 Flexible Rubber Cable
No ratings yet
h07rn F Bs en 50525 2 21 Flexible Rubber Cable
6 pages
Field Group:-Qualifier Section Heading
No ratings yet
Field Group:-Qualifier Section Heading
22 pages
Library Information Management System
No ratings yet
Library Information Management System
6 pages
EMIDS Technologies Interview Questions
No ratings yet
EMIDS Technologies Interview Questions
1 page
Heat Exchanger Fabrication & Service
No ratings yet
Heat Exchanger Fabrication & Service
2 pages
Item PWS6600C-N / AP1600C-N PWS6600C-P / AP1600C-P PWS6600C-S / AP1600C-S
No ratings yet
Item PWS6600C-N / AP1600C-N PWS6600C-P / AP1600C-P PWS6600C-S / AP1600C-S
3 pages
Four Common Erp Implementation Mistakes
No ratings yet
Four Common Erp Implementation Mistakes
7 pages
Unity Alert User Guide - EN
No ratings yet
Unity Alert User Guide - EN
60 pages
Tech Note 91 - Using HistData With InTouch and Excel
No ratings yet
Tech Note 91 - Using HistData With InTouch and Excel
11 pages
9789382332787
No ratings yet
9789382332787
2 pages
OSC Manual
No ratings yet
OSC Manual
25 pages
Učenje - Programiranje Industrijskega Robota Fanuc: Iztok MILOŠIČ, Univ. Dipl. Inž. El
No ratings yet
Učenje - Programiranje Industrijskega Robota Fanuc: Iztok MILOŠIČ, Univ. Dipl. Inž. El
43 pages
StarBoard Software Installation Guide PDF
100% (1)
StarBoard Software Installation Guide PDF
12 pages
HTML Lab File PDF
No ratings yet
HTML Lab File PDF
15 pages
Zhejiang Gaia Textile Co., LTD
No ratings yet
Zhejiang Gaia Textile Co., LTD
6 pages
Audi VW Parts Catalog 2022
No ratings yet
Audi VW Parts Catalog 2022
3 pages
Advanced Computer Architecture: Section 1 Parallel Computer Models
No ratings yet
Advanced Computer Architecture: Section 1 Parallel Computer Models
56 pages
2SD401A SavantIC
No ratings yet
2SD401A SavantIC
3 pages
Diesel To Dual Fuel Conversion Process Development
No ratings yet
Diesel To Dual Fuel Conversion Process Development
6 pages
Workplace Efficiency Guide
No ratings yet
Workplace Efficiency Guide
5 pages
Ict Proposal
100% (1)
Ict Proposal
98 pages
FEI Quanta 400 FEG - FEI Company
No ratings yet
FEI Quanta 400 FEG - FEI Company
2 pages
SAP History
No ratings yet
SAP History
9 pages
Safari - May 26, 2024 at 7:59 AM
No ratings yet
Safari - May 26, 2024 at 7:59 AM
1 page
Vibrating Grizzly Feeder Guide
100% (1)
Vibrating Grizzly Feeder Guide
2 pages

Data Science

Uploaded by

Data Science

Uploaded by

Introduction to Data science

Rathinaraja Jeyaraj Ph.D., RJ

7. Deploy the model for production ML (MLops) engineer

Example: For web-series recommender system in Netflix,

2.1 Capturing (collecting) the data from devices/software/application

Any applications – Facebook, Instagram, WhatsApp, etc.

2.3 Managing the data (storing and retrieving from databases/files)

NoSQL – Hbase, MongoDB, Cassandra, DynamoDB, Neo4j, etc.

File formats – CSV, XML, JSON, images, videos, etc.

4. Data pre-processing (preparing the data for modelling) - Data wrangling

Data cleaning1 – Binning, clustering, regression, normalization, aggregation, etc.

Data transformation2 – Smoothing, aggregation, normalization, feature extraction, etc.

Data integration – Correlation analysis, etc.

6. Mathematical modelling – machine learning (Python libraries, R, Weka, Matlab)

6.1 Building the model from pre-processed data

6.2 Evaluating (testing) the model

6.3 Is the model good? If not go to step 3 or step 4

To get into data science using Python

▪ Invest your time and gain respective domain/subject knowledge.

▪ Python framework (Anaconda)

▪ Python programming and IDEs (Jupyter/Spyder, Google colab).

▪ Data pre-processing and managing library (Pandas).

▪ Graphing and visualization library (Matplotlib/Plotly/Seaborn).

▪ To work on an image dataset for computer vision (OpenCV).

▪ To work on a text dataset for NLP (NLTK).

Data science job - expectation Now, I am an expert in data science

▪ Strong familiarity with algorithm design techniques for a given problem.

▪ Good programming knowledge.

▪ Experience in data analytics.

▪ Working knowledge of data science E2E implementation tools.

▪ Ultimately, more focused on building models (algorithms) in data analytics.

Data analyst role

▪ Sufficient knowledge of exploratory data analysis tasks.

▪ Hands-on experience in using algorithms (pre-built models), sometimes building algorithms.

▪ Preferably graduate degree is desired.

Data engineer role

▪ Undergraduate degree is good enough.

You can reach me at: jrathinaraja@gmail.com

You might also like