0% found this document useful (0 votes)

23 views8 pages

Data Science Fundamentals

Full university lecture notes covering Python programming, statistics, data visualization, machine learning basics, and practical assignments for introductory data science courses.

Uploaded by

cultrustle.ai

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views8 pages

Data Science Fundamentals

Full university lecture notes covering Python programming, statistics, data visualization, machine learning basics, and practical assignments for introductory data science courses.

Uploaded by

cultrustle.ai

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

Data Science Fundamentals

University Lecture Notes - CS 4820

Professor: Dr. Sarah Johnson
Semester: Fall 2025
Course: Introduction to Data Science

Lecture 1: Introduction to Data Science

Learning Objectives
By the end of this lecture, students will be able to:
Define data science and its core components
Understand the data science lifecycle
Identify different types of data and their characteristics
Recognize applications across various industries

What is Data Science?

Data Science is an interdisciplinary field that combines:
Statistics & Mathematics: Foundation for analysis
Computer Science: Programming and algorithms
Domain Expertise: Understanding business context
Communication: Presenting insights effectively

The Data Science Process

1. Problem Definition
Understanding business objectives
Translating business questions into analytical problems
Defining success metrics
2. Data Collection
Identifying relevant data sources
Web scraping and API integration
Database queries and data extraction
Survey design and data gathering
3. Data Exploration & Cleaning
Exploratory Data Analysis (EDA)
Handling missing values
Outlier detection and treatment
Data quality assessment
4. Feature Engineering
Creating new variables from existing data
Dimensionality reduction techniques
Variable transformation and scaling
Feature selection methods
5. Modeling
Algorithm selection
Model training and validation
Hyperparameter tuning
Performance evaluation
6. Deployment & Monitoring
Model deployment strategies
Monitoring model performance
Model maintenance and updates
A/B testing frameworks

Lecture 2: Python for Data Science

Essential Libraries
NumPy: Numerical Computing

import numpy as np

# Creating arrays
arr = np.array([1, 2, 3, 4, 5])
matrix = np.array([[1, 2], [3, 4]])

# Mathematical operations
mean_value = np.mean(arr)
std_dev = np.std(arr)

Pandas: Data Manipulation

import pandas as pd

# Reading data
df = pd.read_csv('data.csv')

# Basic operations
df.head()
df.info()
df.describe()

# Data cleaning
df.dropna()
df.fillna(method='ffill')

Matplotlib & Seaborn: Data Visualization

import matplotlib.pyplot as plt

import seaborn as sns

# Basic plotting
plt.figure(figsize=(10, 6))
plt.plot(x, y)
plt.title('Sample Plot')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.show()

# Statistical plots
sns.boxplot(data=df, x='category', y='value')
sns.heatmap(correlation_matrix, annot=True)

Data Types and Structures

Structured Data:
Tabular format (rows and columns)
Relational databases
CSV files, Excel spreadsheets
Example: Customer transaction records
Semi-Structured Data:
JSON, XML formats
Log files with consistent patterns
Web data with tags
Example: Social media posts with metadata
Unstructured Data:
Text documents, images, videos
Audio files, emails
Social media content
Example: Customer reviews, medical images

Lecture 3: Statistical Foundations

Descriptive Statistics
Measures of Central Tendency:
Mean: Average value
Formula: μ = Σx / n
Sensitive to outliers
Median: Middle value when sorted
More robust to outliers
Better for skewed distributions
Mode: Most frequently occurring value
Useful for categorical data
Can have multiple modes
Measures of Dispersion:
Variance: Average squared deviation from mean
Formula: σ² = Σ(x - μ)² / n
Standard Deviation: Square root of variance
Same units as original data
Interpretable measure of spread
Distribution Shapes:
Normal Distribution: Bell-shaped, symmetric
Skewed Distribution: Asymmetric tail
Bimodal Distribution: Two peaks
Uniform Distribution: Equal probability across range

Inferential Statistics
Hypothesis Testing:
1. Null Hypothesis (H₀): No effect or difference
2. Alternative Hypothesis (H₁): There is an effect
3. Significance Level (α): Typically 0.05
4. P-value: Probability of observing results under H₀
5. Decision Rule: Reject H₀ if p-value < α
Common Statistical Tests:
T-test: Compare means between groups
Chi-square test: Test independence in categorical data
ANOVA: Compare means across multiple groups
Correlation analysis: Measure linear relationship

Lecture 4: Machine Learning Basics

Types of Machine Learning

Supervised Learning:
Uses labeled training data
Goal: Predict target variable for new data
Examples: Classification, Regression
Unsupervised Learning:
No target variable provided
Goal: Discover hidden patterns
Examples: Clustering, Dimensionality Reduction
Reinforcement Learning:
Agent learns through interaction
Goal: Maximize cumulative reward
Examples: Game playing, Robotics

Model Evaluation
Classification Metrics:
Accuracy: (TP + TN) / (TP + TN + FP + FN)
Precision: TP / (TP + FP)
Recall: TP / (TP + FN)
F1-Score: 2 * (Precision * Recall) / (Precision + Recall)
Regression Metrics:
Mean Absolute Error (MAE): Σ|yᵢ - ŷᵢ| / n
Mean Squared Error (MSE): Σ(yᵢ - ŷᵢ)² / n
R-squared: Proportion of variance explained
Cross-Validation:
K-fold cross-validation
Leave-one-out cross-validation
Stratified cross-validation
Time series cross-validation

Lecture 5: Data Visualization

Principles of Effective Visualization

Choose Appropriate Chart Types:
Bar charts: Comparing categories
Line charts: Showing trends over time
Scatter plots: Exploring relationships
Histograms: Showing distributions
Heatmaps: Displaying correlation matrices
Design Guidelines:
1. Clarity: Clear titles, labels, and legends
2. Simplicity: Avoid chart junk and unnecessary elements
3. Consistency: Use consistent colors and styles
4. Accessibility: Consider color-blind friendly palettes

Advanced Visualization Techniques

Interactive Visualizations:
Plotly for interactive web-based charts
Bokeh for large dataset visualization
D3.js for custom interactive graphics
Dashboard Creation:
Tableau for business intelligence
Power BI for Microsoft ecosystem
Streamlit for Python-based dashboards
Dash for web applications
Assignments and Projects

Assignment 1: Exploratory Data Analysis

Due: Week 3
Objective: Perform comprehensive EDA on provided dataset
Deliverables:
Data quality report
Statistical summary
Visualization portfolio
Insights and recommendations

Assignment 2: Predictive Modeling

Due: Week 6
Objective: Build and evaluate machine learning models
Requirements:
Data preprocessing pipeline
Model comparison and selection
Performance evaluation
Model interpretation

Final Project: End-to-End Data Science Project

Due: Week 12
Scope: Complete data science project from problem definition to deployment
Components:
Problem statement and objectives
Data collection and preprocessing
Exploratory data analysis
Model development and evaluation
Business recommendations
Presentation to class

Study Resources
Recommended Textbooks
1. "Python for Data Analysis" by Wes McKinney
2. "The Elements of Statistical Learning" by Hastie, Tibshirani, and Friedman
3. "Pattern Recognition and Machine Learning" by Christopher Bishop

Online Resources
Kaggle Learn courses and competitions
Coursera Data Science Specialization
edX MITx Introduction to Computational Thinking and Data Science
GitHub repositories with sample projects

Practice Datasets
Iris flower classification
Boston housing prices
Titanic passenger survival
Netflix movie recommendations
COVID-19 tracking data

Office Hours and Contact Information

Office Hours: Tuesdays and Thursdays, 2:00-4:00 PM
Location: Computer Science Building, Room 314
Email: sarah.johnson@university.edu
Course Website: www.university.edu/cs4820

Complete Data Science Learning Guide - Beginner To Expert
No ratings yet
Complete Data Science Learning Guide - Beginner To Expert
25 pages
Data Science Master
No ratings yet
Data Science Master
11 pages
Data Science With Python-Sasmita PDF
67% (3)
Data Science With Python-Sasmita PDF
9 pages
Module 1 - Introduction To Data Science
No ratings yet
Module 1 - Introduction To Data Science
3 pages
Data Science Course Syllabus 2015
No ratings yet
Data Science Course Syllabus 2015
5 pages
Nac PDF
No ratings yet
Nac PDF
23 pages
Udacity Dandsyllabus
No ratings yet
Udacity Dandsyllabus
7 pages
Data Science Training in Naresh I Technologies
100% (3)
Data Science Training in Naresh I Technologies
18 pages
FDSNotes
No ratings yet
FDSNotes
12 pages
Full Detailed I Need
No ratings yet
Full Detailed I Need
7 pages
Applied Data Science with Python
No ratings yet
Applied Data Science with Python
17 pages
DSA04
No ratings yet
DSA04
2 pages
Ocs353dsf Unit Wise Notes
100% (2)
Ocs353dsf Unit Wise Notes
121 pages
Sem 6
No ratings yet
Sem 6
12 pages
CS3352 FDS
No ratings yet
CS3352 FDS
23 pages
Data Scientist Roadmap 2025-26
No ratings yet
Data Scientist Roadmap 2025-26
32 pages
Data Science Course for Students
No ratings yet
Data Science Course for Students
30 pages
Ya5uE5 Syllabus Instructors
No ratings yet
Ya5uE5 Syllabus Instructors
2 pages
AI-ML Syllabus
100% (1)
AI-ML Syllabus
8 pages
Introduction To Data Science Course Outline
No ratings yet
Introduction To Data Science Course Outline
5 pages
Python
100% (2)
Python
635 pages
Data Science Course: MTS-555 MJP
No ratings yet
Data Science Course: MTS-555 MJP
5 pages
Cds3005 Foundations-Of-data-science LP 1.0 18 Cds3005 Foundation-Of-data-science LP 1.0 1 Foundations of Data Science
No ratings yet
Cds3005 Foundations-Of-data-science LP 1.0 18 Cds3005 Foundation-Of-data-science LP 1.0 1 Foundations of Data Science
2 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
25 pages
DataScience Minordegree 2023 Syllabus
No ratings yet
DataScience Minordegree 2023 Syllabus
12 pages
Data Analytics Syllabus
No ratings yet
Data Analytics Syllabus
15 pages
Chapter 1 SAIDS
No ratings yet
Chapter 1 SAIDS
38 pages
Free Data Science Course Material 2018
No ratings yet
Free Data Science Course Material 2018
32 pages
Data Science
No ratings yet
Data Science
9 pages
Data Science & Aiml (Mile Stone Solution)
No ratings yet
Data Science & Aiml (Mile Stone Solution)
37 pages
Teks DATA SCIENCE Syllabus - QR
No ratings yet
Teks DATA SCIENCE Syllabus - QR
26 pages
Course Title Course Number
No ratings yet
Course Title Course Number
15 pages
Prime Classes Brochure
No ratings yet
Prime Classes Brochure
14 pages
Module1 DS
No ratings yet
Module1 DS
61 pages
Data Science & AI Essentials
100% (1)
Data Science & AI Essentials
20 pages
Syllabus FDS
No ratings yet
Syllabus FDS
4 pages
Lec 1
No ratings yet
Lec 1
9 pages
AFRICDSA Certified Data Scientist Syllabus - V1.2
No ratings yet
AFRICDSA Certified Data Scientist Syllabus - V1.2
12 pages
Data Science Course in Hyderabad - Innomatics
No ratings yet
Data Science Course in Hyderabad - Innomatics
10 pages
Part 1 Lectures
No ratings yet
Part 1 Lectures
100 pages
DL RoadMap
No ratings yet
DL RoadMap
9 pages
# Syllabus
No ratings yet
# Syllabus
2 pages
Datamites Certified Data Scientist Syllabus PDF
50% (2)
Datamites Certified Data Scientist Syllabus PDF
12 pages
Unit I-V
No ratings yet
Unit I-V
184 pages
Data Science 1
100% (5)
Data Science 1
133 pages
Data Science
No ratings yet
Data Science
15 pages
Full Stack Data Science
No ratings yet
Full Stack Data Science
54 pages
Data Science
No ratings yet
Data Science
9 pages
DSP U2
No ratings yet
DSP U2
172 pages
Data Science - CS109: Joe Blitzstein, Verena Kaynig-Fittkau, Hanspeter Pfister
No ratings yet
Data Science - CS109: Joe Blitzstein, Verena Kaynig-Fittkau, Hanspeter Pfister
47 pages
Data Science & Machine Learning Guide
No ratings yet
Data Science & Machine Learning Guide
3 pages
Data Science Master Class 2023
No ratings yet
Data Science Master Class 2023
8 pages
Ex MTech DSDA Sem 1 Syllabus
No ratings yet
Ex MTech DSDA Sem 1 Syllabus
6 pages
Course Plan - FDS Theory
No ratings yet
Course Plan - FDS Theory
8 pages
Course Outline PDF
No ratings yet
Course Outline PDF
2 pages
CRM Strategies for Marketers
No ratings yet
CRM Strategies for Marketers
25 pages
2022 ORVIBO Smart Home Catalog
No ratings yet
2022 ORVIBO Smart Home Catalog
52 pages
EGM Notice - Gensol
No ratings yet
EGM Notice - Gensol
62 pages
Resume Harshada Chame
No ratings yet
Resume Harshada Chame
2 pages
192 ITAP Y-Strainer Catalog
No ratings yet
192 ITAP Y-Strainer Catalog
5 pages
sf08-22 24oct2023 16-47
No ratings yet
sf08-22 24oct2023 16-47
4 pages
Telehealth Access in Nepal Pandemic
No ratings yet
Telehealth Access in Nepal Pandemic
124 pages
Unit-3 SQE (Models)
No ratings yet
Unit-3 SQE (Models)
7 pages
Innovative Mining Services - Capability Statement
No ratings yet
Innovative Mining Services - Capability Statement
9 pages
31 Startup Ideas
No ratings yet
31 Startup Ideas
32 pages
Problem On Monte Carlo Simulation
No ratings yet
Problem On Monte Carlo Simulation
3 pages
RevelX Corporate Innovation Playbook 2021
No ratings yet
RevelX Corporate Innovation Playbook 2021
57 pages
Sun Cluster
100% (1)
Sun Cluster
87 pages
IEC 61010-1-2010 Amd1-2016 Cor1-2019
50% (2)
IEC 61010-1-2010 Amd1-2016 Cor1-2019
4 pages
CAGA Consultants Pte LTD Company Profile
No ratings yet
CAGA Consultants Pte LTD Company Profile
27 pages
CAT 777E Steering
No ratings yet
CAT 777E Steering
2 pages
Building Automation Product Catalogue - Issue 3: A Vital Part of Your World
No ratings yet
Building Automation Product Catalogue - Issue 3: A Vital Part of Your World
54 pages
ICG - Preview
No ratings yet
ICG - Preview
1 page
Transformer Health Monitoring System
No ratings yet
Transformer Health Monitoring System
16 pages
What The Pandemic Means For Health Care's Digital Transformation
No ratings yet
What The Pandemic Means For Health Care's Digital Transformation
9 pages
Iphone 4 (GSM - AT&T) Screen Replacement - Ifixit Repair Guide
No ratings yet
Iphone 4 (GSM - AT&T) Screen Replacement - Ifixit Repair Guide
1 page
Cable Types & Electrical Accessories Guide
No ratings yet
Cable Types & Electrical Accessories Guide
9 pages
Thermofluids Laboratory Report
No ratings yet
Thermofluids Laboratory Report
28 pages
Email Engine 700 PDF
No ratings yet
Email Engine 700 PDF
328 pages
Manual Kick Tolerance Guide
100% (1)
Manual Kick Tolerance Guide
3 pages
Razer Gold Gift Card - Google Search
No ratings yet
Razer Gold Gift Card - Google Search
1 page
20KVA Yangdong Diesel Generator Specs
No ratings yet
20KVA Yangdong Diesel Generator Specs
7 pages
iPhone 5C Sales in Indonesia
No ratings yet
iPhone 5C Sales in Indonesia
4 pages
TOS-1st Quarter-Math 9
No ratings yet
TOS-1st Quarter-Math 9
3 pages
On Egsismo: Frequently Asked Questions
No ratings yet
On Egsismo: Frequently Asked Questions
2 pages