0% found this document useful (0 votes)

38 views32 pages

Data Science Lab Manual

The document provides steps and code snippets for various machine learning techniques like regression, classification, clustering and dimensionality reduction. It includes practical examples on Excel functions, pivot tables, VLOOKUP, conditional formatting, reading data from files, preprocessing tasks, feature scaling, dummy variables, hypothesis testing using t-test and chi-square test, ANOVA, different types of regression, logistic regression and decision trees.

Uploaded by

Ravishankar Gautam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

38 views32 pages

Data Science Lab Manual

Uploaded by

Ravishankar Gautam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 32

PRACTICAL 1

Introduction to Excel
A. Perform conditional formatting on a dataset using various criteria.

Steps
Step 1: Go to conditional formatting > Greater Than

Step 2: Enter the greater than filter value for example 2000.
Step 3: Go to Data Bars > Solid Fill in conditional formatting.

B. Create a pivot table to analyse and summarize data.

Steps
Step 1: select the entire table and go to Insert tab PivotChart > Pivotchart
Step 2: Select “New worksheet” in the create pivot chart window.
Step 3: Select and drag attributes in the below boxes.

C. Use VLOOKUP function to retrieve information from a different worksheet or table.

Steps:
Step 1: click on an empty cell and type the following command.
=VLOOKUP(B3, B3:D3,1, TRUE)
D. Perform what-if analysis using Goal Seek to determine input values for desired
output.
Steps-
Step 1: In the Data tab go to the what if analysis>Goal seek.

Step 2: Fill the information in the window accordingly and click ok

PRACTICAL 2

Data Frames and Basic Data Pre-processing

A. Read data from CSV and JSON files into a data frame.
(1)
# Read data from a csv file
import pandas as pd
df = pd.read_csv('Student_Marks.csv')
print("Our dataset ")
print(df)

(2)
# Reading data from a JSON file
import pandas as pd
data = pd.read_json('dataset.json')
print(data)

B. Perform basic data pre-processing tasks such as handling missing values and outliers.
Code:
(1)
# Replacing NA values using fillna()
import pandas as pd
df = pd.read_csv('titanic.csv')
print(df)
df.head(10)
print("Dataset after filling NA values with 0 : ")
df2=df.fillna(value=0)
print(df2)

(2)
# Dropping NA values using dropna()
import pandas as pd
df = pd.read_csv('titanic.csv')
print(df)
df.head(10)

print("Dataset after dropping NA values: ")

df.dropna(inplace = True)
print(df)
C. Manipulate and transform data using functions like filtering, sorting, and grouping
Code:
import pandas as pd

# Load iris dataset

iris = pd.read_csv('Iris.csv')

# Filtering data based on a condition

setosa = iris[iris['Species'] == 'setosa']
print("Setosa samples:")
print(setosa.head())

# Sorting data
sorted_iris = iris.sort_values(by='SepalLengthCm', ascending=False)
print("\nSorted iris dataset:")
print(sorted_iris.head())

# Grouping data
grouped_species = iris.groupby('Species').mean()
print("\nMean measurements for each species:")
print(grouped_species)
PRACTICAL 3

Feature Scaling and Dummification

A. Apply feature-scaling techniques like standardization and normalization to numerical

features.

Code:

# Standardization and normalization

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler, StandardScaler
df = pd.read_csv('wine.csv', header=None, usecols=[0, 1, 2], skiprows=1)
df.columns = ['classlabel', 'Alcohol', 'Malic Acid']
print("Original DataFrame:")
print(df)
scaling=MinMaxScaler()
scaled_value=scaling.fit_transform(df[['Alcohol','Malic Acid']])
df[['Alcohol','Malic Acid']]=scaled_value
print("\n Dataframe after MinMax Scaling")
print(df)
scaling=StandardScaler()
scaled_standardvalue=scaling.fit_transform(df[['Alcohol','Malic Acid']])
df[['Alcohol','Malic Acid']]=scaled_standardvalue
print("\n Dataframe after Standard Scaling")
print(df)
B. Perform feature Dummification to convert categorical variables into numerical
representations.

Code:

import pandas as pd
iris=pd.read_csv("Iris.csv")
print(iris)
from sklearn.preprocessing import LabelEncoder
le=LabelEncoder()
iris['code']=le.fit_transform(iris.Species)
print(iris)
Practical 4
Hypothesis Testing
Conduct a hypothesis test using appropriate statistical tests (e.g., t-test, chi-square test)
# t-test
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# Generate two samples for demonstration purposes

np.random.seed(42)
sample1 = np.random.normal(loc=10, scale=2, size=30)
sample2 = np.random.normal(loc=12, scale=2, size=30)

# Perform a two-sample t-test

t_statistic, p_value = stats.ttest_ind(sample1, sample2)

# Set the significance level

alpha = 0.05

print("Results of Two-Sample t-test:")

print(f'T-statistic: {t_statistic}')
print(f'P-value: {p_value}')
print(f"Degrees of Freedom: {len(sample1) + len(sample2) - 2}")

# Plot the distributions

plt.figure(figsize=(10, 6))
plt.hist(sample1, alpha=0.5, label='Sample 1', color='blue')
plt.hist(sample2, alpha=0.5, label='Sample 2', color='orange')
plt.axvline(np.mean(sample1), color='blue', linestyle='dashed', linewidth=2)
plt.axvline(np.mean(sample2), color='orange', linestyle='dashed', linewidth=2)
plt.title('Distributions of Sample 1 and Sample 2')
plt.xlabel('Values')
plt.ylabel('Frequency')
plt.legend()

# Highlight the critical region if null hypothesis is rejected

if p_value < alpha:
critical_region = np.linspace(min(sample1.min(), sample2.min()), max(sample1.max(),
sample2.max()), 1000)
plt.fill_between(critical_region, 0, 5, color='red', alpha=0.3, label='Critical Region')
plt.text(11, 5, f'T-statistic: {t_statistic:.2f}', ha='center', va='center', color='black',
backgroundcolor='white')

# Show the plot

plt.show()

# Draw Conclusions
if p_value < alpha:
if np.mean(sample1) > np.mean(sample2):
print("Conclusion: There is significant evidence to reject the null hypothesis.")
print("Interpretation: The mean of Sample 1 is significantly higher than that of Sample
2.")
else:
print("Conclusion: There is significant evidence to reject the null hypothesis.")
print("Interpretation: The mean of Sample 2 is significantly higher than that of Sample
1.")
else:
print("Conclusion: Fail to reject the null hypothesis.")
print("Interpretation: There is not enough evidence to claim a significant difference
between the means.")

Output:

#chi-test
import pandas as pd
import numpy as np
import matplotlib as plt
import seaborn as sb
import warnings
from scipy import stats
warnings.filterwarnings('ignore')
df=sb.load_dataset('mpg')
print(df)
print(df['horsepower'].describe())
print(df['model_year'].describe())
bins=[0,75,150,240]
df['horsepower_new']=pd.cut(df['horsepower'],bins=bins,labels=['l','m','h'])
c=df['horsepower_new']
print(c)
ybins=[69,72,74,84]
label=['t1','t2','t3']
df['modelyear_new']=pd.cut(df['model_year'],bins=ybins,labels=label)
newyear=df['modelyear_new']
print(newyear)
df_chi=pd.crosstab(df['horsepower_new'],df['modelyear_new'])
print(df_chi)
print(stats.chi2_contingency(df_chi)
Output:
Conclusion: There is sufficient evidence to reject the null hypothesis, indicating that
there is a significant association between 'horsepower_new' and 'modelyear_new'
categories.
Practical 5
ANOVA (Analysis of Variance)
Perform one-way ANOVA to compare means across multiple groups.
Conduct post-hoc tests to identify significant differences between group means.

import pandas as pd
import scipy.stats as stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd

group1 = [23, 25, 29, 34, 30]

group2 = [19, 20, 22, 24, 25]
group3 = [15, 18, 20, 21, 17]
group4 = [28, 24, 26, 30, 29]

all_data = group1 + group2 + group3 + group4

group_labels = ['Group1'] * len(group1) + ['Group2'] * len(group2) + ['Group3'] *
len(group3) + ['Group4'] * len(group4)

f_statistics, p_value = stats.f_oneway(group1, group2, group3, group4)

print("one-way ANOVA:")
print("F-statistics:", f_statistics)
print("p-value", p_value)

tukey_results = pairwise_tukeyhsd(all_data, group_labels)

print("\nTukey-Kramer post-hoc test:")
print(tukey_results)

Output:-
Practical 6
Regression and its Types.

import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

housing = fetch_california_housing()
housing_df = pd.DataFrame(housing.data, columns=housing.feature_names)
print(housing_df)

housing_df['PRICE'] = housing.target

X = housing_df[['AveRooms']]
y = housing_df['PRICE']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()

model.fit(X_train, y_train)

mse = mean_squared_error(y_test, model.predict(X_test))

r2 = r2_score(y_test, model.predict(X_test))
print("Mean Squared Error:", mse)
print("R-squared:", r2)
print("Intercept:", model.intercept_)
print("Coefficient:", model.coef_)

#########################################

#Multiple Liner Regression

X = housing_df.drop('PRICE',axis=1)
y = housing_df['PRICE']

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)

model = LinearRegression()

model.fit(X_train,y_train)

y_pred = model.predict(X_test)

mse = mean_squared_error(y_test,y_pred)
r2 = r2_score(y_test,y_pred)

print("Mean Squared Error:",mse)

print("R-squared:",r2)
print("Intercept:",model.intercept_)
print("Coefficient:",model.coef_)
Output:
Practical 7

Logistic Regression and Decision Tree

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score,
classification_report
# Load the Iris dataset and create a binary classification problem
iris = load_iris()
iris_df = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris['feature_names'] +
['target'])
binary_df = iris_df[iris_df['target'] != 2]
X = binary_df.drop('target', axis=1)
y = binary_df['target']
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Train a logistic regression model and evaluate its performance
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred_logistic = logistic_model.predict(X_test)

print("Logistic Regression Metrics")

print("Accuracy: ", accuracy_score(y_test, y_pred_logistic))
print("Precision:", precision_score(y_test, y_pred_logistic))
print("Recall: ", recall_score(y_test, y_pred_logistic))
print("\nClassification Report")
print(classification_report(y_test, y_pred_logistic))
# Train a decision tree model and evaluate its performance
decision_tree_model = DecisionTreeClassifier()
decision_tree_model.fit(X_train, y_train)
y_pred_tree = decision_tree_model.predict(X_test)
print("\nDecision Tree Metrics")
print("Accuracy: ", accuracy_score(y_test, y_pred_tree))
print("Precision:", precision_score(y_test, y_pred_tree))
print("Recall: ", recall_score(y_test, y_pred_tree))
print("\nClassification Report")
print(classification_report(y_test, y_pred_tree))
Output:-
Practical 8
K-Means clustering
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

data = pd.read_csv("C:\\Users\Reape\Downloads\wholesale\wholesale.csv")
data.head()

categorical_features = ['Channel', 'Region']

continuous_features = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']
data[continuous_features].describe()

for col in categorical_features:

dummies = pd.get_dummies(data[col], prefix = col)
data = pd.concat([data, dummies], axis = 1)
data.drop(col, axis = 1, inplace = True)
data.head()

mms = MinMaxScaler()
mms.fit(data)
data_transformed = mms.transform(data)

sum_of_squared_distances = []
K = range(1, 15)
for k in K:
km = KMeans(n_clusters=k)
km = km.fit(data_transformed)
sum_of_squared_distances.append(km.inertia_)

plt.plot(K, sum_of_squared_distances, 'bx-')

plt.xlabel('k')
plt.ylabel('sum_of_squared_distances')
plt.title('elbow Mehtod for optimal k')
plt.show()

Output:
Practical 9

Principal Component Analysis (PCA)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

iris = load_iris()
iris_df = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris['feature_names'] +
['target'])
X = iris_df.drop('target', axis=1)
y = iris_df['target']

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

pca = PCA()
X_pca = pca.fit_transform(X_scaled)
explained_variance_ratio = pca.explained_variance_ratio_

plt.figure(figsize=(8, 6))
plt.plot(np.cumsum(explained_variance_ratio), marker='o', linestyle='--')
plt.title('Explained Variance Ratio')
plt.xlabel('Number of Principal Components')
plt.ylabel('Cumulative Explained Variance Ratio')
plt.grid(True)
plt.show()

cumulative_variance_ratio = np.cumsum(explained_variance_ratio)
n_components = np.argmax(cumulative_variance_ratio >= 0.95) + 1
print(f"Number of principal components to explain 95% variance: {n_components}")

pca = PCA(n_components=n_components)
X_reduced = pca.fit_transform(X_scaled)

plt.figure(figsize=(8, 6))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='viridis', s=50, alpha=0.5)
plt.title('Data in Reduced-dimensional Space')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.colorbar(label='Target')
plt.show()
Output:

Data Science Practical With Solutions BSC Cs Sem 6
No ratings yet
Data Science Practical With Solutions BSC Cs Sem 6
29 pages
Data Science Practicals
No ratings yet
Data Science Practicals
47 pages
Omkar
No ratings yet
Omkar
37 pages
Data Science Practicals
No ratings yet
Data Science Practicals
40 pages
Index: SR. NO. Practical Name Date of Perform NO. Sign
No ratings yet
Index: SR. NO. Practical Name Date of Perform NO. Sign
28 pages
TYCS Practical
No ratings yet
TYCS Practical
26 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
DVA Lab Manual
No ratings yet
DVA Lab Manual
20 pages
Ex. No.: 01 Working With Numpy Arrays
No ratings yet
Ex. No.: 01 Working With Numpy Arrays
30 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Data Science
No ratings yet
Data Science
18 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Vanshika Goyal Gec Practicals
No ratings yet
Vanshika Goyal Gec Practicals
31 pages
DAV Practical
No ratings yet
DAV Practical
12 pages
Gec Practicals
No ratings yet
Gec Practicals
31 pages
External
No ratings yet
External
11 pages
Some Exercises
No ratings yet
Some Exercises
9 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
23bet10114 Naman Gupta Assignment-1
No ratings yet
23bet10114 Naman Gupta Assignment-1
17 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Experimenting With Data Analysis Packages and Statistical Operations
No ratings yet
Experimenting With Data Analysis Packages and Statistical Operations
18 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
ML
No ratings yet
ML
21 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
Pattern Recognition
No ratings yet
Pattern Recognition
26 pages
R Basics
No ratings yet
R Basics
18 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
Bda Assign
No ratings yet
Bda Assign
15 pages
Python in Research
No ratings yet
Python in Research
18 pages
Data Science
No ratings yet
Data Science
15 pages
ADS LAB Merged
No ratings yet
ADS LAB Merged
86 pages
Machine Exercise 3
No ratings yet
Machine Exercise 3
22 pages
FDSA Lab Manual
No ratings yet
FDSA Lab Manual
27 pages
ADS EXP Assignments
No ratings yet
ADS EXP Assignments
38 pages
DS Slips Solutions Sem 5
No ratings yet
DS Slips Solutions Sem 5
23 pages
Data Mining Lab: Regression & Clustering
No ratings yet
Data Mining Lab: Regression & Clustering
36 pages
AD3411
No ratings yet
AD3411
28 pages
Ankit Python
No ratings yet
Ankit Python
26 pages
Dav Practicals
No ratings yet
Dav Practicals
33 pages
Experiment No 11
No ratings yet
Experiment No 11
19 pages
TD5Numpy Pandas and Matplotlib
No ratings yet
TD5Numpy Pandas and Matplotlib
5 pages
DA Lab
No ratings yet
DA Lab
27 pages
CS3362 Data Science Laboratory Manual 2022-23
No ratings yet
CS3362 Data Science Laboratory Manual 2022-23
54 pages
ML Lab
No ratings yet
ML Lab
14 pages
Python For Data Sceince l1 Hands On
No ratings yet
Python For Data Sceince l1 Hands On
5 pages
Data Analysis Lab with Python
No ratings yet
Data Analysis Lab with Python
11 pages
ML Lab Manual
No ratings yet
ML Lab Manual
37 pages
AE II Simulation File PDF
No ratings yet
AE II Simulation File PDF
32 pages
Jashan ML
No ratings yet
Jashan ML
20 pages
BAN5
No ratings yet
BAN5
2 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Vedic Age
No ratings yet
Vedic Age
4 pages
CC and WS Practical Journal
No ratings yet
CC and WS Practical Journal
65 pages
Products
No ratings yet
Products
4 pages
SEO-Optimized Info Retrieval Manual
No ratings yet
SEO-Optimized Info Retrieval Manual
13 pages
Numpy, Pandas, Matplotlib Basics
No ratings yet
Numpy, Pandas, Matplotlib Basics
70 pages
FoAI - ASM2 - Mai Ngo
100% (1)
FoAI - ASM2 - Mai Ngo
15 pages
STA 2402 Design and Analysis of Sample Surveys PDF
No ratings yet
STA 2402 Design and Analysis of Sample Surveys PDF
81 pages
Chapter 4: Analysis of Variance
No ratings yet
Chapter 4: Analysis of Variance
23 pages
CP 1 - Abigail Olivia Angelica Davidson - TP062624
No ratings yet
CP 1 - Abigail Olivia Angelica Davidson - TP062624
37 pages
Comparative Study of House Price Prediction Using Machine Learning Research Paper
No ratings yet
Comparative Study of House Price Prediction Using Machine Learning Research Paper
14 pages
MC Multiple Regression
No ratings yet
MC Multiple Regression
7 pages
ML Cheatsheet for Beginners
100% (1)
ML Cheatsheet for Beginners
211 pages
Problem Set 3-FIEM
No ratings yet
Problem Set 3-FIEM
10 pages
12seng04 - Group 5 - Manuscript
No ratings yet
12seng04 - Group 5 - Manuscript
12 pages
Safi ML Lab6
No ratings yet
Safi ML Lab6
10 pages
Predictive Analytics Overview
No ratings yet
Predictive Analytics Overview
39 pages
NLP Tokenization Techniques Guide
No ratings yet
NLP Tokenization Techniques Guide
50 pages
BUSI 2013 Unit 1-10 Notes
No ratings yet
BUSI 2013 Unit 1-10 Notes
10 pages
Workflow of Supervised Learning
No ratings yet
Workflow of Supervised Learning
2 pages
FDPI Study Guide March 2020 Exam PDF
No ratings yet
FDPI Study Guide March 2020 Exam PDF
71 pages
Measures of Centrality and Variability
No ratings yet
Measures of Centrality and Variability
42 pages
Optimization of Hata Pathloss Model Using Terrain Roughness Parameter
No ratings yet
Optimization of Hata Pathloss Model Using Terrain Roughness Parameter
6 pages
Latin Square (Revised)
No ratings yet
Latin Square (Revised)
28 pages
L4b - Perfomance Evaluation Metric - Regression
No ratings yet
L4b - Perfomance Evaluation Metric - Regression
6 pages
Real Estate Price Prediction Guide
No ratings yet
Real Estate Price Prediction Guide
10 pages
Intermediate Statistics Formula Sheet
No ratings yet
Intermediate Statistics Formula Sheet
30 pages
Water: Hydrological Modeling Approach Using Radar-Rainfall Ensemble and Multi-Runo Blending Technique
No ratings yet
Water: Hydrological Modeling Approach Using Radar-Rainfall Ensemble and Multi-Runo Blending Technique
18 pages
Credit Scoring System Using Machine Learning
No ratings yet
Credit Scoring System Using Machine Learning
5 pages
Coding Questions
No ratings yet
Coding Questions
124 pages
Deep Learning Predictive Model For Colon Cancer
No ratings yet
Deep Learning Predictive Model For Colon Cancer
10 pages
Aiml Manual 6th Sem
No ratings yet
Aiml Manual 6th Sem
15 pages
Linear Models 2nd Edition Shayle R. Searle PDF Download
No ratings yet
Linear Models 2nd Edition Shayle R. Searle PDF Download
52 pages
AI Revision Worksheet for Grade XII
No ratings yet
AI Revision Worksheet for Grade XII
7 pages
Linear Regression and Classification
No ratings yet
Linear Regression and Classification
8 pages

Data Science Lab Manual

Uploaded by

Data Science Lab Manual

Uploaded by

PRACTICAL 1

B. Create a pivot table to analyse and summarize data.

C. Use VLOOKUP function to retrieve information from a different worksheet or table.

Step 2: Fill the information in the window accordingly and click ok

Data Frames and Basic Data Pre-processing

print("Dataset after dropping NA values: ")

# Load iris dataset

# Filtering data based on a condition

Feature Scaling and Dummification

A. Apply feature-scaling techniques like standardization and normalization to numerical

# Standardization and normalization

# Generate two samples for demonstration purposes

# Perform a two-sample t-test

# Set the significance level

print("Results of Two-Sample t-test:")

# Plot the distributions

# Highlight the critical region if null hypothesis is rejected

# Show the plot

group1 = [23, 25, 29, 34, 30]

all_data = group1 + group2 + group3 + group4

f_statistics, p_value = stats.f_oneway(group1, group2, group3, group4)

tukey_results = pairwise_tukeyhsd(all_data, group_labels)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

mse = mean_squared_error(y_test, model.predict(X_test))

#Multiple Liner Regression

print("Mean Squared Error:",mse)

Logistic Regression and Decision Tree

print("Logistic Regression Metrics")

categorical_features = ['Channel', 'Region']

for col in categorical_features:

plt.plot(K, sum_of_squared_distances, 'bx-')

Principal Component Analysis (PCA)

You might also like