0% found this document useful (0 votes)

23 views3 pages

Data Pipeline in ML

Uploaded by

golgothgolgoth039

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views3 pages

Data Pipeline in ML

Uploaded by

golgothgolgoth039

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Creating Machine Learning Pipeline

# import packages

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

import warnings
warnings.filterwarnings('ignore')

# load dataset

df = pd.read_csv('/content/pima-indians-diabetes.csv', header=None)
df.head()

0 1 2 3 4 5 6 7 8

0 6 148 72 35 0 33.6 0.627 50 1

1 1 85 66 29 0 26.6 0.351 31 0

2 8 183 64 0 0 23.3 0.672 32 1

3 1 89 66 23 94 28.1 0.167 21 0

4 0 137 40 35 168 43.1 2.288 33 1

# assiging Columns name

df.columns = ['Pregnancies','Glucose','BloodPressure','SkinThicness','Insulin','BMI','DiabetesPedigreeFunction','Age','Class']
df.head()

Pregnancies Glucose BloodPressure SkinThicness Insulin BMI DiabetesPedigreeFunction Age Class

0 1 85 66 29 0 26.6 0.351 31 0

1 8 183 64 0 0 23.3 0.672 32 1

2 1 89 66 23 94 28.1 0.167 21 0

3 0 137 40 35 168 43.1 2.288 33 1

4 5 116 74 0 0 25.6 0.201 30 0

# Dividing Data Into train test

X = df.iloc[:, [0,1,2,3,4,5,6,7]] # all the rows and columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThicness',
# 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
y = df.iloc[:, [8]] # all the rows and columns = ['Class]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

Creating Pipeline
Creating pipeline for LogisticRegression , DecisionTree and RandomForest models
The pipeline steps will be include
1. Data Preprocessing using MinMaxScaler
2. Reducing Dimentionality using PCA
3. Training the models

# Logistic Regression Pipeline

LogisticRegressionPipeline = Pipeline([('myscaler',MinMaxScaler()),
('mypca',PCA(n_components=3)),
('logist_regression',LogisticRegression())])

# Decision Tree Pipeline

DecisionTreePipeline = Pipeline([('myscaler',MinMaxScaler()),
('mypca',PCA(n_components=3)),
('logist_regression',DecisionTreeClassifier())])

# Random Forest Pipeline

RandomForestPipeline = Pipeline([('myscaler',MinMaxScaler()),
('mypca',PCA(n_components=3)),
('logist_regression',RandomForestClassifier())])

Model training and validation

# Defining the pipelines in a list

mypipeline = [LogisticRegressionPipeline, DecisionTreePipeline, RandomForestPipeline]

# Defining variables for choosing the best model

accuracy = 0
# classifier = 0
pipeline = ''

# creating dictionaries of pipelines and training models

PipelineDict = {0:'Logistic Regreesion', 1:'Decision Tree', 2:'Random Forest'}

# Fit the pipelines

for mypipe in mypipeline:
mypipe.fit(X_train, y_train)

# Getting test accuracy for all the pipeline

for i, model in enumerate(mypipeline):

print('{} Test Accuracy: {}'.format(PipelineDict[i], model.score(X_test, y_test)))

Logistic Regreesion Test Accuracy: 0.7077922077922078

Decision Tree Test Accuracy: 0.7077922077922078
Random Forest Test Accuracy: 0.7532467532467533

# Choosing the best model for the given data

for i, model in enumerate(mypipeline):

if model.score(X_test, y_test) > accuracy:
accuracy = model.score(X_test, y_test)
pipeline = model
# classifier = i
# print('Classifier with the best Accuracy: {}: {}'.format(PipelineDict[classifier], accuracy))
print('Classifier with the best Accuracy: {}: {}'.format(PipelineDict[i], accuracy))

Classifier with the best Accuracy: Random Forest: 0.7532467532467533

Colab paid products - Cancel contracts here
check 0s completed at 11:13 AM

Untitled5.Ipynb - Colab
No ratings yet
Untitled5.Ipynb - Colab
1 page
Naive Bayes
No ratings yet
Naive Bayes
5 pages
Assignment 2
No ratings yet
Assignment 2
4 pages
PR 6
No ratings yet
PR 6
2 pages
BTVN6 Code
No ratings yet
BTVN6 Code
2 pages
Machine Learning
100% (1)
Machine Learning
21 pages
Diabetes Data Analysis
No ratings yet
Diabetes Data Analysis
1 page
23UCC554
No ratings yet
23UCC554
9 pages
Classification Demo
No ratings yet
Classification Demo
4 pages
Decision Trees for Data Scientists
No ratings yet
Decision Trees for Data Scientists
28 pages
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
No ratings yet
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
8 pages
Diabetes Data Analysis Guide
No ratings yet
Diabetes Data Analysis Guide
6 pages
Prediction of Diabetes Using Machine Learning Techniques
No ratings yet
Prediction of Diabetes Using Machine Learning Techniques
10 pages
Jupyter Notebook On Obesity Prediction
No ratings yet
Jupyter Notebook On Obesity Prediction
15 pages
Diabetes Prediction Model Chapters
No ratings yet
Diabetes Prediction Model Chapters
3 pages
End To End Project Multiple Disease Detection Using ML - Nomidl
No ratings yet
End To End Project Multiple Disease Detection Using ML - Nomidl
24 pages
MLPPT 11 45
No ratings yet
MLPPT 11 45
31 pages
Ai Datascience Project Grade 10
No ratings yet
Ai Datascience Project Grade 10
14 pages
Minor Project FINAL Review in Signal Processing Domain: Supervisor
No ratings yet
Minor Project FINAL Review in Signal Processing Domain: Supervisor
32 pages
Genai-Capstone 2
No ratings yet
Genai-Capstone 2
2 pages
Experiment 6: Aim: Write A Program To Apply Decision Tree Classifier On Pima Indian Diabetes Dataset
No ratings yet
Experiment 6: Aim: Write A Program To Apply Decision Tree Classifier On Pima Indian Diabetes Dataset
2 pages
Deep Learning
No ratings yet
Deep Learning
41 pages
23 Ucc 554 Aiml
No ratings yet
23 Ucc 554 Aiml
5 pages
Project Report
No ratings yet
Project Report
10 pages
Fronted Code
No ratings yet
Fronted Code
6 pages
Real-Time Calorie Burn Prediction
No ratings yet
Real-Time Calorie Burn Prediction
27 pages
Diabetes Classification Report
No ratings yet
Diabetes Classification Report
17 pages
Assignment 1 (B)
No ratings yet
Assignment 1 (B)
3 pages
Generative AI Binary Classification
No ratings yet
Generative AI Binary Classification
7 pages
Binod ML Project-052
No ratings yet
Binod ML Project-052
14 pages
Machine Learning in Health
No ratings yet
Machine Learning in Health
13 pages
CLC Assignment 03 AI START
No ratings yet
CLC Assignment 03 AI START
23 pages
Assignment 03 AI START
No ratings yet
Assignment 03 AI START
23 pages
Bio-Inspired PSO For Improving Neural Based Diabetes Prediction System
No ratings yet
Bio-Inspired PSO For Improving Neural Based Diabetes Prediction System
21 pages
Internshippppp Fimnalllll
No ratings yet
Internshippppp Fimnalllll
16 pages
ML LAb Task
No ratings yet
ML LAb Task
4 pages
PS25
No ratings yet
PS25
3 pages
Chat-AI ML Project Proposal
No ratings yet
Chat-AI ML Project Proposal
4 pages
P 7
No ratings yet
P 7
5 pages
Capstone Project
No ratings yet
Capstone Project
2 pages
Machine Learning and Deep Learning Techniques
No ratings yet
Machine Learning and Deep Learning Techniques
13 pages
Diabetes Prediction Using Logistic Regression - Untitled - Ipynb at Main Prajwal10031999 - Diabetes Prediction Using Logistic Regression GitHub
No ratings yet
Diabetes Prediction Using Logistic Regression - Untitled - Ipynb at Main Prajwal10031999 - Diabetes Prediction Using Logistic Regression GitHub
8 pages
Diabetes Prediction with Logistic Regression
No ratings yet
Diabetes Prediction with Logistic Regression
9 pages
Diabetes Prediction Using Data Mining
No ratings yet
Diabetes Prediction Using Data Mining
17 pages
Diabetes Prediction
No ratings yet
Diabetes Prediction
15 pages
Literature Survey Paper On Comparative Analysis of Diabetics Prediction Systems Using Machine Learning Algorithms
No ratings yet
Literature Survey Paper On Comparative Analysis of Diabetics Prediction Systems Using Machine Learning Algorithms
4 pages
LinearSVC on Diabetes Dataset
No ratings yet
LinearSVC on Diabetes Dataset
3 pages
5 Efficient Machine Learning Models For The Accurate Prediction of Diabetes
No ratings yet
5 Efficient Machine Learning Models For The Accurate Prediction of Diabetes
5 pages
Unit5 - Logistic Regression
No ratings yet
Unit5 - Logistic Regression
4 pages
Diabetes - Test Report
No ratings yet
Diabetes - Test Report
62 pages
Dia PGM
No ratings yet
Dia PGM
2 pages
Irjet V6i3277
No ratings yet
Irjet V6i3277
7 pages
MLDA1
No ratings yet
MLDA1
8 pages
DIABETES
No ratings yet
DIABETES
17 pages
Diabetes ML Project
No ratings yet
Diabetes ML Project
7 pages
Diabetes Prediction Analysis
No ratings yet
Diabetes Prediction Analysis
1 page
1 Lecture 2: Supervised Machine Learning
No ratings yet
1 Lecture 2: Supervised Machine Learning
20 pages
Personalized Healthcare Recommendations
No ratings yet
Personalized Healthcare Recommendations
6 pages
RAGE Against The Machine - Retrieval-Augmented LLM Explanations
No ratings yet
RAGE Against The Machine - Retrieval-Augmented LLM Explanations
4 pages
Time Series Analysis 1718649022
No ratings yet
Time Series Analysis 1718649022
5 pages
Programming With Python and GUI Development... 2024
No ratings yet
Programming With Python and GUI Development... 2024
145 pages
Stock Market Dashboard in Python
No ratings yet
Stock Market Dashboard in Python
4 pages
Notebook - Deep Neural Networks
No ratings yet
Notebook - Deep Neural Networks
28 pages
Building A Tanh Activation Function
No ratings yet
Building A Tanh Activation Function
9 pages
1 3 Multiple Hypothesis Testing
No ratings yet
1 3 Multiple Hypothesis Testing
14 pages
Notebook - Text Classification
No ratings yet
Notebook - Text Classification
7 pages
Notebook - Music Recommendation System Reference
No ratings yet
Notebook - Music Recommendation System Reference
22 pages
Notebook - Geospatial
No ratings yet
Notebook - Geospatial
11 pages
Covariance Kernel Role in Spatial Prediction
No ratings yet
Covariance Kernel Role in Spatial Prediction
3 pages
Notebook - Main Code
No ratings yet
Notebook - Main Code
4 pages
Boston Dataset
No ratings yet
Boston Dataset
6 pages
Notebook - Agave Plant Maturation Model Inference and Testing
No ratings yet
Notebook - Agave Plant Maturation Model Inference and Testing
7 pages
New System To Harness 40% of The Sun's Heat To Produce Clean Hydrogen Fuel
No ratings yet
New System To Harness 40% of The Sun's Heat To Produce Clean Hydrogen Fuel
6 pages
MLS 1 - Presentation
No ratings yet
MLS 1 - Presentation
11 pages
Glossary of Notations - Recommender Systems Part 3
No ratings yet
Glossary of Notations - Recommender Systems Part 3
4 pages
5 2-6 Spatial Environmental Data Gaussian Processes
No ratings yet
5 2-6 Spatial Environmental Data Gaussian Processes
4 pages
5 3-2 Spatial Environmental Data Model Selection Long-Range Dependencies
No ratings yet
5 3-2 Spatial Environmental Data Model Selection Long-Range Dependencies
3 pages
The CNN Architecture
No ratings yet
The CNN Architecture
15 pages
ML LVC 3 Post-Session Summary
No ratings yet
ML LVC 3 Post-Session Summary
16 pages
MLS 1 - Regression
No ratings yet
MLS 1 - Regression
20 pages
ML LVC 3 Glossary
No ratings yet
ML LVC 3 Glossary
1 page
ML LVC 2 Post-Session Summary
No ratings yet
ML LVC 2 Post-Session Summary
12 pages
Binomial Distribution Exercise Solutions
No ratings yet
Binomial Distribution Exercise Solutions
3 pages
Ii. Theory of Errors and Measurements A. Precision and Accuracy
No ratings yet
Ii. Theory of Errors and Measurements A. Precision and Accuracy
2 pages
Vade Mecum 2002
No ratings yet
Vade Mecum 2002
168 pages
A Note On Selecting Target and Process Capability Index Based On Fuzzy Optimization
No ratings yet
A Note On Selecting Target and Process Capability Index Based On Fuzzy Optimization
6 pages
Explore: Notes
No ratings yet
Explore: Notes
37 pages
Moments J Skewness and Kurtosis - Final
No ratings yet
Moments J Skewness and Kurtosis - Final
70 pages
Chi-Squared Test Explained
No ratings yet
Chi-Squared Test Explained
31 pages
Test of Homogeneity Based On Geometric Mean of Variances
No ratings yet
Test of Homogeneity Based On Geometric Mean of Variances
11 pages
Normal Distribution 67ByCTbQJVmmyq7V
No ratings yet
Normal Distribution 67ByCTbQJVmmyq7V
39 pages
ANOVA
No ratings yet
ANOVA
4 pages
K Means Vs Isodata
No ratings yet
K Means Vs Isodata
1 page
AUTOCORRELATION
No ratings yet
AUTOCORRELATION
14 pages
Practice Exercises (Chi-Square Test)
No ratings yet
Practice Exercises (Chi-Square Test)
2 pages
Bayesian Reputation Systems Guide
No ratings yet
Bayesian Reputation Systems Guide
10 pages
-读 Bivariate distribution of shear strength parameters using copulas and its impact on geotechnical system reliability
No ratings yet
-读 Bivariate distribution of shear strength parameters using copulas and its impact on geotechnical system reliability
12 pages
Exam For Grade 6
No ratings yet
Exam For Grade 6
3 pages
An Extension of The Exponential Distribution
No ratings yet
An Extension of The Exponential Distribution
17 pages
Linear Regression & Algorithms
No ratings yet
Linear Regression & Algorithms
24 pages
Solomon Press S1G
No ratings yet
Solomon Press S1G
4 pages
Principles and Applications of Multilevel Modeling in Human Resource Management Research
No ratings yet
Principles and Applications of Multilevel Modeling in Human Resource Management Research
15 pages
Hasil Output Regresi Sederhana Dan Berganda
No ratings yet
Hasil Output Regresi Sederhana Dan Berganda
37 pages
Depvar Indepvars Numlist Numlist: Arima - ARIMA, ARMAX, and Other Dynamic Regression Models
No ratings yet
Depvar Indepvars Numlist Numlist: Arima - ARIMA, ARMAX, and Other Dynamic Regression Models
24 pages
ICI Forecast
No ratings yet
ICI Forecast
9 pages
Mathematics HL Mock Exam Paper 1: Section A
No ratings yet
Mathematics HL Mock Exam Paper 1: Section A
4 pages
Forecasting Methods and Models
100% (1)
Forecasting Methods and Models
30 pages
II PU Statistics PDF
No ratings yet
II PU Statistics PDF
41 pages
Statistics Assignment
No ratings yet
Statistics Assignment
17 pages
Get Introductory Statistics 4TH REVISED EDITION Edition Sheldon M. Ross Free All Chapters
100% (6)
Get Introductory Statistics 4TH REVISED EDITION Edition Sheldon M. Ross Free All Chapters
28 pages
Advanced Business Statistics For Decision Making: Facilitator-Dr. Shilpa Bhaskar Mujumdar
100% (1)
Advanced Business Statistics For Decision Making: Facilitator-Dr. Shilpa Bhaskar Mujumdar
31 pages
Data - FORECASETING MENGGUNAKAN REGRESI - 21060027 - MUHAMMAD SYIHABUDIN RIYADI
No ratings yet
Data - FORECASETING MENGGUNAKAN REGRESI - 21060027 - MUHAMMAD SYIHABUDIN RIYADI
11 pages