0% found this document useful (0 votes)

136 views6 pages

Data Preprocessing with Pandas & Sklearn

The document provides 4 examples of pre-processing steps for machine learning models. The examples show how to import data, handle missing values, encode categorical variables, split data into training and test sets, and scale features. Common pre-processing steps demonstrated include removing unnecessary columns, imputing missing data, label encoding, one-hot encoding, train-test split, and feature scaling.

Uploaded by

Ishani Mehta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

136 views6 pages

Data Preprocessing with Pandas & Sklearn

Uploaded by

Ishani Mehta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Pre-Processing

Example – 1:
import pandas as pd
data = pd.read_csv("J:\Machine
Learning\Class\Practical\Practical_1\age_salary.csv")
print(data.columns)
X = data.iloc[:,:-1].values #Takes all rows of all columns except
the last column
Y = data.iloc[:,-1].values # Takes all rows of the last column
X
Y
Example – 2:
import pandas as pd
dataset = pd.read_csv('J:\\Machine
Learning\\Class\Practical\\Preprocessing\\Data1.csv')
print(dataset.columns)
dataset

dataset.info()
dataset.head()

#Row and column count

dataset.shape
#Removing insufficient column
dataset_new = dataset.drop(['Age',], axis = 1)
dataset_new

#To measure the central tendency of variables

dataset_new.describe()

#To change column name

dataset.rename(index =str, columns={'Country' : 'Countries',
'Age' : 'age',
'Salary' : 'Sal',
'Purchased' : 'Purchased'}, inplace =
True)

dataset
#Count missing values
dataset.isnull().sum().sort_values(ascending=False)

#Print the missing value column

dataset[dataset.isnull().any(axis=1)].head()
#Remove missing value rows
ds_new = dataset.dropna()
ds_new
ds_new.isnull().sum().sort_values(ascending=False)

#To check datatype

ds_new.dtypes

#To convert as integer

ds_new['age'] = ds_new['age'].astype('int64')

ds_new.dtypes

Example – 3
import pandas as pd
data = pd.read_csv('J:\\Machine
Learning\\Class\Practical\\Preprocessing\\Book1.csv')

# Slice the result for first 5 rows

print (data[0:5]['Salary'])

# Use the multi-axes indexing method called .loc

print (data.loc[:,['Salary','Name']])

# Use the multi-axes indexing funtion

print (data.loc[[1,3,5],['Salary','Name']])

# Use the multi-axes indexing funtion

print (data.loc[2:6,['Salary','Name']])

print (data.loc[:,['Salary','Name']])

Example – 4

import pandas as pd
dataset = pd.read_csv('J:\\Machine
Learning\\Class\Practical\\Preprocessing\\Data1.csv')
print(dataset.columns)
dataset
dataset.info()

#Creating Independent variable

X = dataset.iloc[:, :-1].values #Takes all rows of all columns
except the last column
#Creating Dependent variable
Y = dataset.iloc[:, -1].values # Takes all rows of the last column
X
Y

#Dealing with missing values with mean imputer

from sklearn.preprocessing import Imputer
imputer=Imputer(missing_values='NaN',strategy='mean',axis=0)
imputer.fit(X[:,1:3])
X[:,1:3]=imputer.transform(X[:,1:3])
X

#Encoding categorical data

from sklearn.preprocessing import
LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0]) #Encoding the
values of column Country
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
X

labelencoder_y=LabelEncoder()
Y= labelencoder_y.fit_transform(Y)
Y

#Splitting the data into training and test data

from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,Y,test_size=0.2,
random_state=0)

from sklearn.preprocessing import StandardScaler

sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)
X_test=sc_X.fit_transform(X_test)

X_train
X_test

Handle Missing Data in Real-Time
No ratings yet
Handle Missing Data in Real-Time
5 pages
ML (Prac1)
No ratings yet
ML (Prac1)
12 pages
Data Preprocesing JavaPoint
No ratings yet
Data Preprocesing JavaPoint
19 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
27 pages
Unit 2 Notes
No ratings yet
Unit 2 Notes
16 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
Data Preprocessing for Beginners
No ratings yet
Data Preprocessing for Beginners
3 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
Pandas Introduction: What Is Python Pandas Used For?
No ratings yet
Pandas Introduction: What Is Python Pandas Used For?
28 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
1 Import and Handling Data - Jupyter Notebook
No ratings yet
1 Import and Handling Data - Jupyter Notebook
9 pages
Justenoughpython Pandas 220915 175329
No ratings yet
Justenoughpython Pandas 220915 175329
64 pages
ProductionMGmt XII IP ProjectReprotFinal
No ratings yet
ProductionMGmt XII IP ProjectReprotFinal
16 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Dataframe Syntax
No ratings yet
Dataframe Syntax
3 pages
Data Analysis Tools
No ratings yet
Data Analysis Tools
26 pages
EDA - Session-1 - Basic Dataframe Opertaions-1
No ratings yet
EDA - Session-1 - Basic Dataframe Opertaions-1
7 pages
Python Data Science 101
100% (1)
Python Data Science 101
41 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
NumPy and Pandas Basics Guide
No ratings yet
NumPy and Pandas Basics Guide
8 pages
Intro Pandas
No ratings yet
Intro Pandas
18 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Data Pre-Processing Steps
No ratings yet
Data Pre-Processing Steps
32 pages
ML - Lab - Ex 2
No ratings yet
ML - Lab - Ex 2
4 pages
Pandas Python Library Guide
No ratings yet
Pandas Python Library Guide
54 pages
Lab File
No ratings yet
Lab File
96 pages
EX2 - BIGDATA - San
No ratings yet
EX2 - BIGDATA - San
9 pages
Machine Learning Laboratory (BTCS619-18) B.Tech Cse 6Th 2024 EVEN
No ratings yet
Machine Learning Laboratory (BTCS619-18) B.Tech Cse 6Th 2024 EVEN
29 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Data Pre Process I
No ratings yet
Data Pre Process I
6 pages
Pandas
No ratings yet
Pandas
20 pages
Pandas
No ratings yet
Pandas
5 pages
FDS Record-1-4
No ratings yet
FDS Record-1-4
18 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Machine Learning Data Preprocessing Guide
No ratings yet
Machine Learning Data Preprocessing Guide
24 pages
Weak AI Generative AI Strong AI:-Machine Learning Tutorial 1.supervised Leaning 2.un Supervised Learning 3.reinforcement Learning
No ratings yet
Weak AI Generative AI Strong AI:-Machine Learning Tutorial 1.supervised Leaning 2.un Supervised Learning 3.reinforcement Learning
53 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Python Data Management Guide
No ratings yet
Python Data Management Guide
55 pages
DHP Unit - 4 Part2
No ratings yet
DHP Unit - 4 Part2
16 pages
Pandas Merged
No ratings yet
Pandas Merged
2 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Exp 3
No ratings yet
Exp 3
10 pages
Wa0000.
No ratings yet
Wa0000.
53 pages
MACHINE LEARNING Manual
No ratings yet
MACHINE LEARNING Manual
36 pages
Unit - II MLT
No ratings yet
Unit - II MLT
75 pages
INFORMATIC Complete Project
No ratings yet
INFORMATIC Complete Project
27 pages
DA Lab
No ratings yet
DA Lab
27 pages
Python Pandas: 12 Data Manipulation Techniques
100% (2)
Python Pandas: 12 Data Manipulation Techniques
19 pages
AI & Data Science Lab Record
No ratings yet
AI & Data Science Lab Record
28 pages
Revision Notes DataFrame XII IP
No ratings yet
Revision Notes DataFrame XII IP
8 pages
Experiment 1 Solution
No ratings yet
Experiment 1 Solution
5 pages
Data Mining Using Python Manual
No ratings yet
Data Mining Using Python Manual
69 pages
Exp - 1 - Introduction To Data Analytics and Python Fundamentals - SDK - Ok
No ratings yet
Exp - 1 - Introduction To Data Analytics and Python Fundamentals - SDK - Ok
9 pages
Student Guide to Productivity Tools
No ratings yet
Student Guide to Productivity Tools
31 pages
Telnet Ftp-Mono
No ratings yet
Telnet Ftp-Mono
13 pages
Amiks Karki LB6
No ratings yet
Amiks Karki LB6
15 pages
Curriculum Map
No ratings yet
Curriculum Map
10 pages
Vo Phuoc Hoang PDF
No ratings yet
Vo Phuoc Hoang PDF
2 pages
Swe 202: Introduction To Software Engineering: Chapter 8 (Part 1) Lecturer: Rand Albrahim
No ratings yet
Swe 202: Introduction To Software Engineering: Chapter 8 (Part 1) Lecturer: Rand Albrahim
19 pages
QBC Star - Network Model
No ratings yet
QBC Star - Network Model
5 pages
Acm Submission Template
No ratings yet
Acm Submission Template
13 pages
LaTeX, Standalone
No ratings yet
LaTeX, Standalone
30 pages
ACS Questions Answers
No ratings yet
ACS Questions Answers
3 pages
MCA - Project PPT Format
No ratings yet
MCA - Project PPT Format
18 pages
(Ebook PDF) Introduction To Solid Modeling Using SOLIDWORKS 2020 16th Edition PDF Download
100% (1)
(Ebook PDF) Introduction To Solid Modeling Using SOLIDWORKS 2020 16th Edition PDF Download
56 pages
Arduino Error
No ratings yet
Arduino Error
2 pages
Ms Word Practical Assignment PDF
No ratings yet
Ms Word Practical Assignment PDF
52 pages
Lecture Notes
No ratings yet
Lecture Notes
87 pages
Blum Catalogue and Technical Manual 2020-2021
No ratings yet
Blum Catalogue and Technical Manual 2020-2021
726 pages
Class 12 Board Exam Project Bakery Management
No ratings yet
Class 12 Board Exam Project Bakery Management
19 pages
Viva Questions
No ratings yet
Viva Questions
10 pages
Amino A125: Multi Codec Ip-Stb
No ratings yet
Amino A125: Multi Codec Ip-Stb
2 pages
JEDI Generator Error Guide
100% (2)
JEDI Generator Error Guide
63 pages
Yassmin Mohamed Gamal C.V
No ratings yet
Yassmin Mohamed Gamal C.V
3 pages
Stacktical - Dsla White Paper
No ratings yet
Stacktical - Dsla White Paper
28 pages
Architecture of A Numeric Machine by Eng. Ibrahim Jomaa
No ratings yet
Architecture of A Numeric Machine by Eng. Ibrahim Jomaa
23 pages
VI Lect - Notes#3 Btech Vii Sem Aug Dec2022
No ratings yet
VI Lect - Notes#3 Btech Vii Sem Aug Dec2022
164 pages
Industrial Automation Solutions
No ratings yet
Industrial Automation Solutions
25 pages
Lightbox Texas Contract
No ratings yet
Lightbox Texas Contract
27 pages
01 - Get Started With Edison Guide English
No ratings yet
01 - Get Started With Edison Guide English
25 pages
3.5.2.1integration Queries-Commonly Raised (Last Updated 24 March 2025)
No ratings yet
3.5.2.1integration Queries-Commonly Raised (Last Updated 24 March 2025)
17 pages
Compatibility AN 2.6.0 To 3.0.0 E
No ratings yet
Compatibility AN 2.6.0 To 3.0.0 E
3 pages
8 Flexi Module
No ratings yet
8 Flexi Module
4 pages

Data Preprocessing with Pandas & Sklearn

Uploaded by

Data Preprocessing with Pandas & Sklearn

Uploaded by

Pre-Processing

#Row and column count

#To measure the central tendency of variables

#To change column name

#Print the missing value column

#To check datatype

#To convert as integer

# Slice the result for first 5 rows

# Use the multi-axes indexing method called .loc

# Use the multi-axes indexing funtion

# Use the multi-axes indexing funtion

#Creating Independent variable

#Dealing with missing values with mean imputer

#Encoding categorical data

#Splitting the data into training and test data

from sklearn.preprocessing import StandardScaler

You might also like