0% found this document useful (0 votes)

32 views10 pages

Mtech Study Material

The document provides an overview of key concepts in Python for data preprocessing, including the use of SimpleImputer for handling missing values, StandardScaler for feature scaling, and the significance of train_test_split for model evaluation. It also explains OneHotEncoding, the differences between fit(), transform(), and fit_transform() methods, and the importance of normalization and standardization in machine learning. Additionally, it emphasizes the necessity of splitting data before normalization to prevent data leakage.

Uploaded by

Shubham Bandopadhyay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views10 pages

Mtech Study Material

Uploaded by

Shubham Bandopadhyay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Subject Code: PGCSE 102

Subject Name: Python for Data Science

Q1. What is the purpose of the SimpleImputer class in Python?

Answer:
The SimpleImputer class in Python (from sklearn.impute) is used to fill missing values in a
dataset with a specific strategy such as mean, median, most frequent, or a constant value.

Code Example:

from sklearn.impute import SimpleImputer

import numpy as np

data = np.array([[1, 2], [np.nan, 3], [7, 6]])

imputer = SimpleImputer(strategy='mean')
result = imputer.fit_transform(data)
print(result)

Q2. Define how the “preprocessing” module is useful in Python for data preprocessing.

Answer:
The sklearn.preprocessing module provides functions and classes for feature scaling,
normalization, encoding categorical features, and transformation, making raw data suitable for
modeling.

Functions include: StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder, etc.

Q3. Describe the significance of StandardScaler class in data preprocessing.

Answer:
StandardScaler standardizes features by removing the mean and scaling to unit variance. It is
crucial for algorithms sensitive to feature scales (e.g., SVM, KNN).

Code Example:

from sklearn.preprocessing import StandardScaler

data = [[1, 20], [2, 40], [3, 60]]

scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print(scaled_data)

Q4. How does Label Encoding affect model performance?

Answer:
Label Encoding converts categorical labels into numeric values. For models that consider label
ordering (like linear regression), it may introduce unintended bias. Best for tree-based models.

Q5. What are the steps involved in data preprocessing for machine learning?

Answer:

1. Importing libraries

2. Loading the dataset

3. Handling missing values

4. Encoding categorical data

5. Feature scaling
6. Splitting into train-test sets

7. Model fitting
Q6. Explain the use of train_test_split in data preprocessing.

Answer:
train_test_split (from sklearn.model_selection) is used to divide the dataset into training and
testing sets to evaluate model generalization.

Code Example:

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4]]

y = [1, 2, 3, 4]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

******************************************************************************

Q1. Define the term "OneHotEncoding” and its application with suitable example.

Answer:
One-Hot Encoding converts categorical variables into a binary matrix (dummy variables),
avoiding ordinal relationships.

Code Example:

from sklearn.preprocessing import OneHotEncoder

import numpy as np

data = np.array([['red'], ['green'], ['blue']])

encoder = OneHotEncoder(sparse=False)
encoded = encoder.fit_transform(data)
print(encoded)
Application: Used in ML models that require numeric input like logistic regression or neural
networks.
Q2. Describe the difference between fit_transform(), fit() and transform()

methods. Answer:

Method Description

fit() Learns parameters from data (e.g., mean/std)

transform() Applies the learned parameters to transform data

fit_transform() Combines fit() and transform() in one step

Example:

scaler = StandardScaler()
scaler.fit(X_train) # learns mean/std
X_train_scaled = scaler.transform(X_train) # uses learned parameters
# OR
X_train_scaled = scaler.fit_transform(X_train)

Q3. Demonstrate how to load a dataset in Python using Pandas and perform basic
summary statistics.

Answer:

import pandas as pd

# Load dataset
df = pd.read_csv("data.csv")

# Display first 5 rows

print(df.head())

# Summary statistics
print(df.describe())
# Check for missing values
print(df.isnull().sum())
******************************************************************************

Q1. Analyze a dataset to deal with missing values and the potential impact of these missing
values on a machine learning model.

Answer:
Missing data can reduce model accuracy, introduce bias, or cause errors during training.

Handling Missing Values:

● Remove rows (dropna())

● Impute with mean/median/mode (SimpleImputer)

● Predict missing values (advanced methods)

Code Example:

import pandas as pd
from sklearn.impute import SimpleImputer

df = pd.read_csv("data.csv")
print("Missing before:\n", df.isnull().sum())

# Imputation
imputer = SimpleImputer(strategy='mean')
df[['Age', 'Salary']] = imputer.fit_transform(df[['Age', 'Salary']])
print("Missing after:\n", df.isnull().sum())

Impact on Model:

● Improved completeness

● Better generalization
● Avoids runtime errors
Q2. Analyze how the “compose” module is significant in Python for data preprocessing.

Answer:
The sklearn.compose module allows combining multiple preprocessing steps for different
column types using ColumnTransformer.

Significance:

● Streamlines preprocessing for numerical and categorical columns

● Reduces manual processing

● Supports pipeline integration

Code Example:

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import StandardScaler, OneHotEncoder
import pandas as pd

df = pd.DataFrame({
'age': [25, 30, 35],
'city': ['Delhi', 'Mumbai', 'Chennai']
})

preprocessor = ColumnTransformer(
transformers=[
('num', StandardScaler(), ['age']),
('cat', OneHotEncoder(), ['city'])
])

processed = preprocessor.fit_transform(df)
print(processed)

*****************************************************************************

Here are detailed notes on data normalization, standardization, and train-test split with clear
explanations of why normalization is done after splitting the data.
Data Normalization, Standardization, and Train-Test Split

1. Data Normalization

Definition:
Normalization is the process of rescaling features to a specific range, typically [0, 1] or [-1, 1],
without distorting differences in the ranges of values.

Formula:
For Min-Max Normalization:

Use Case:

● Suitable when the data has varying scales.

● Useful for distance-based models like KNN, K-means, Neural Networks.

Code Example:

from sklearn.preprocessing import MinMaxScaler

import numpy as np

data = np.array([[1, 20], [2, 40], [3, 60]])

scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)
print(normalized_data)

2. Data Standardization

Definition:
Standardization transforms data to have zero mean and unit variance.
This is achieved using Z-score scaling.
Formula:

where

● μ\mu = mean of feature values

● σ\sigma = standard deviation of feature values

Use Case:

● Works well with algorithms like SVM, Logistic Regression, PCA.

● Keeps negative values (unlike normalization).

Code Example:

from sklearn.preprocessing import StandardScaler

data = [[1, 20], [2, 40], [3, 60]]

scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)
print(standardized_data)

3. Train-Test Split

Definition:
The train_test_split function from scikit-learn divides the dataset into training and testing sets,
ensuring the model is trained on one part and evaluated on unseen data.

Why split the data?

● To prevent overfitting.
● To check how the model performs on unseen data.

Code Example:

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4], [5]]

y = [1, 2, 3, 4, 5]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Train:", X_train, y_train)

print("Test:", X_test, y_test)

4. Why Normalization Should Be Done After Train-Test Split

Key Point:
We must fit the scaler only on training data and then transform both train and test data
using the same parameters (mean, std, min, max from the training set).

Reason:

1. If we normalize the entire dataset before splitting, information from the test set leaks
into the training process (data leakage).

2. The test set should mimic real-world unseen data.

Correct Approach:

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train) # Fit + transform training data
X_test_scaled = scaler.transform(X_test) # Transform test data using training params

5. Why Train-Test Split Should Not Be Null?

● Null test split means no evaluation: If you do not split the dataset, the model is
evaluated on the same data it was trained on, leading to over-optimistic
performance
metrics.

● Generalization check fails: Without a test set, we cannot measure how well the model
performs on new, unseen data.

Summary

Concept Purpose Normalization Scale values to a fixed range (0 to 1).

Standardization Center data around 0 with unit variance.

Train-Test Split Evaluate generalization of the model.

NormalizationAfter
Split
Prevents data leakage.

Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
Data - Preprocessing - Jupyter Notebook
No ratings yet
Data - Preprocessing - Jupyter Notebook
5 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
Mini 4
No ratings yet
Mini 4
9 pages
Scikit-Learn ML Cheat Sheet Guide
No ratings yet
Scikit-Learn ML Cheat Sheet Guide
3 pages
Machine Learning Data Preprocessing Guide
No ratings yet
Machine Learning Data Preprocessing Guide
24 pages
Kabir Data Preprocessing Python
No ratings yet
Kabir Data Preprocessing Python
14 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
Data Pre-Processing With Sklearn Using Standard and Minmax
No ratings yet
Data Pre-Processing With Sklearn Using Standard and Minmax
21 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
Lecture 2 20022025 092902am
No ratings yet
Lecture 2 20022025 092902am
87 pages
Data Preprocessing For Machine Learning in Python
No ratings yet
Data Preprocessing For Machine Learning in Python
27 pages
Scikit Learn
No ratings yet
Scikit Learn
17 pages
Data Preprocessing PT 2
No ratings yet
Data Preprocessing PT 2
7 pages
ML Lab
No ratings yet
ML Lab
29 pages
Data Preprocessing
No ratings yet
Data Preprocessing
8 pages
Lecture Material 10
No ratings yet
Lecture Material 10
9 pages
Subject - Machine Learning Group - E27-24 Name
No ratings yet
Subject - Machine Learning Group - E27-24 Name
18 pages
4 Data Preprocessing
No ratings yet
4 Data Preprocessing
27 pages
Feature Engineering Assignment
No ratings yet
Feature Engineering Assignment
7 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
Python in Research
No ratings yet
Python in Research
18 pages
Data Pre-Processing Steps
No ratings yet
Data Pre-Processing Steps
32 pages
Data Preprocessing
No ratings yet
Data Preprocessing
11 pages
Machine Learning
No ratings yet
Machine Learning
9 pages
Lec 2 Unit 1
No ratings yet
Lec 2 Unit 1
89 pages
ML File Syllabus
No ratings yet
ML File Syllabus
43 pages
Résumé-Analyse Des Données Resumee Resumee
No ratings yet
Résumé-Analyse Des Données Resumee Resumee
4 pages
ML Normalization Techniques - Overview & Practical Guide
No ratings yet
ML Normalization Techniques - Overview & Practical Guide
5 pages
Data Mining Lab Manual CSE VII Sem
No ratings yet
Data Mining Lab Manual CSE VII Sem
63 pages
Scikit Hca
No ratings yet
Scikit Hca
8 pages
Exp. 1
No ratings yet
Exp. 1
4 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
Cheat Sheet: Python For Data Science
100% (1)
Cheat Sheet: Python For Data Science
1 page
Document
No ratings yet
Document
3 pages
Preprocessing ch.2
No ratings yet
Preprocessing ch.2
19 pages
Viva
No ratings yet
Viva
7 pages
Preprocessing
No ratings yet
Preprocessing
5 pages
Set-C AnsKey CT2
No ratings yet
Set-C AnsKey CT2
10 pages
ML Interview Questions
No ratings yet
ML Interview Questions
10 pages
(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
ML - Lab - Ex 2
No ratings yet
ML - Lab - Ex 2
4 pages
Huy
No ratings yet
Huy
11 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
Study Material For Machine Learning - 1 - 1754721598318
No ratings yet
Study Material For Machine Learning - 1 - 1754721598318
18 pages
EE2211 CheatSheet
No ratings yet
EE2211 CheatSheet
15 pages
ML Algorithms for Data Scientists
100% (1)
ML Algorithms for Data Scientists
148 pages
Mlviva
No ratings yet
Mlviva
14 pages
Linear REgression Lab Report 4
No ratings yet
Linear REgression Lab Report 4
3 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
3 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Machine Learning With Python Data Preprocessing, Analysis and Visualization
No ratings yet
Machine Learning With Python Data Preprocessing, Analysis and Visualization
8 pages
ML Assignment
No ratings yet
ML Assignment
34 pages
LTI CheckList Assignment 1.ipynb - Colab
No ratings yet
LTI CheckList Assignment 1.ipynb - Colab
13 pages
Digital Watch Warranty Details
No ratings yet
Digital Watch Warranty Details
2 pages
Cybersecurity Skills Certification
No ratings yet
Cybersecurity Skills Certification
1 page
OD333147309844972200
No ratings yet
OD333147309844972200
4 pages
aNJGnRtgfiK5fQqcR Verizon pqhH55EZ4M2mFhcdc 1729024820161 Completion Certificate
No ratings yet
aNJGnRtgfiK5fQqcR Verizon pqhH55EZ4M2mFhcdc 1729024820161 Completion Certificate
1 page
Admission WEB General Information 2024 PG
No ratings yet
Admission WEB General Information 2024 PG
1 page
Expected Questions in GATE 2022 Part I With Anno
No ratings yet
Expected Questions in GATE 2022 Part I With Anno
84 pages
Statistics Problem Set
No ratings yet
Statistics Problem Set
2 pages
From Career Decision-Making Styles To Career Decision-Making Profiles
No ratings yet
From Career Decision-Making Styles To Career Decision-Making Profiles
15 pages
Dummy TEST de Chow Illustration
No ratings yet
Dummy TEST de Chow Illustration
13 pages
Data Mining Models - GeeksforGeeks
No ratings yet
Data Mining Models - GeeksforGeeks
4 pages
MINIMUM DETECTABLE EFFECTS A Simple Way To Report The Statistical Power of Experimental Designs
No ratings yet
MINIMUM DETECTABLE EFFECTS A Simple Way To Report The Statistical Power of Experimental Designs
10 pages
Spss Tutorials: Independent Samples T Test
100% (1)
Spss Tutorials: Independent Samples T Test
13 pages
Normal Curve - Final
No ratings yet
Normal Curve - Final
43 pages
Stata's suest Command Guide
No ratings yet
Stata's suest Command Guide
19 pages
RV Econometrics II - Exam Fall 2016 - Solution Guide
No ratings yet
RV Econometrics II - Exam Fall 2016 - Solution Guide
15 pages
Uster Statistics-50s CBD Compact Cone
100% (1)
Uster Statistics-50s CBD Compact Cone
6 pages
Midterm Testbank
No ratings yet
Midterm Testbank
13 pages
Acharya Nagarjuna University: Answer Any Five of The Following Questions Marks
No ratings yet
Acharya Nagarjuna University: Answer Any Five of The Following Questions Marks
2 pages
Define Mean Square Error
No ratings yet
Define Mean Square Error
3 pages
Elements of Nonlinear Series Analysis and Forecasting PDF
100% (8)
Elements of Nonlinear Series Analysis and Forecasting PDF
626 pages
Wilcoxon Test: Serum Effectiveness
No ratings yet
Wilcoxon Test: Serum Effectiveness
6 pages
Content: Dplyr, Readr, TM, Ggplot2/+ggforce/, Tidyr, Broom Dplyr
No ratings yet
Content: Dplyr, Readr, TM, Ggplot2/+ggforce/, Tidyr, Broom Dplyr
8 pages
ECS4863 - Solutions To Activity 1.3
No ratings yet
ECS4863 - Solutions To Activity 1.3
16 pages
Descriptive Statistics Assignment 1
No ratings yet
Descriptive Statistics Assignment 1
2 pages
672ef30d3aa29a0544cbbfbf Fonelolukof
No ratings yet
672ef30d3aa29a0544cbbfbf Fonelolukof
2 pages
ADL 07 Quantitative Techniques in Management V3
No ratings yet
ADL 07 Quantitative Techniques in Management V3
5 pages
Key Steps in Exploratory Data Analysis
No ratings yet
Key Steps in Exploratory Data Analysis
2 pages
Smart PLS
100% (4)
Smart PLS
54 pages
Unveiling Relationships (A Guide To Correlation Analysis Using SPSS)
No ratings yet
Unveiling Relationships (A Guide To Correlation Analysis Using SPSS)
12 pages
နှိုင်းယှဥ်မှုပြသုတေသနစာတမ်းရေးသားနည်းလမ်းညွှန်
No ratings yet
နှိုင်းယှဥ်မှုပြသုတေသနစာတမ်းရေးသားနည်းလမ်းညွှန်
88 pages
Econometric Model With Qualitative Variables - 2
No ratings yet
Econometric Model With Qualitative Variables - 2
20 pages
Probability Final Threoms
No ratings yet
Probability Final Threoms
2 pages
CH 07 Tif
100% (1)
CH 07 Tif
29 pages
3250+module+1+ +Intro+to+Data+Science
No ratings yet
3250+module+1+ +Intro+to+Data+Science
71 pages
Omv Bias Note
No ratings yet
Omv Bias Note
4 pages
Types of Correlation
No ratings yet
Types of Correlation
4 pages

Mtech Study Material

Uploaded by

Mtech Study Material

Uploaded by

Subject Code: PGCSE 102

Subject Name: Python for Data Science

Q1. What is the purpose of the SimpleImputer class in Python?

from sklearn.impute import SimpleImputer

data = np.array([[1, 2], [np.nan, 3], [7, 6]])

Functions include: StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder, etc.

from sklearn.preprocessing import StandardScaler

data = [[1, 20], [2, 40], [3, 60]]

Q4. How does Label Encoding affect model performance?

2. Loading the dataset

3. Handling missing values

4. Encoding categorical data

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4]]

from sklearn.preprocessing import OneHotEncoder

data = np.array([['red'], ['green'], ['blue']])

fit() Learns parameters from data (e.g., mean/std)

transform() Applies the learned parameters to transform data

fit_transform() Combines fit() and transform() in one step

# Display first 5 rows

Handling Missing Values:

● Remove rows (dropna())

● Impute with mean/median/mode (SimpleImputer)

● Predict missing values (advanced methods)

● Streamlines preprocessing for numerical and categorical columns

● Reduces manual processing

● Supports pipeline integration

from sklearn.compose import ColumnTransformer

● Suitable when the data has varying scales.

● Useful for distance-based models like KNN, K-means, Neural Networks.

from sklearn.preprocessing import MinMaxScaler

data = np.array([[1, 20], [2, 40], [3, 60]])

● μ\mu = mean of feature values

● σ\sigma = standard deviation of feature values

● Works well with algorithms like SVM, Logistic Regression, PCA.

● Keeps negative values (unlike normalization).

from sklearn.preprocessing import StandardScaler

data = [[1, 20], [2, 40], [3, 60]]

Why split the data?

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4], [5]]

print("Train:", X_train, y_train)

4. Why Normalization Should Be Done After Train-Test Split

2. The test set should mimic real-world unseen data.

5. Why Train-Test Split Should Not Be Null?

Concept Purpose Normalization Scale values to a fixed range (0 to 1).

Standardization Center data around 0 with unit variance.

Train-Test Split Evaluate generalization of the model.

You might also like