0% found this document useful (0 votes)

10 views9 pages

A Data Science Project 2

The document outlines a data science project involving a global super-store's sales data, focusing on data cleaning, analysis, and visualization using Python libraries such as Pandas, Matplotlib, and Seaborn. Key tasks include handling missing values, identifying duplicates, and performing statistical analysis, including correlation and regression modeling. The project culminates in a linear regression model to predict sales based on profit and discount variables.

Uploaded by

23stcs21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views9 pages

A Data Science Project 2

Uploaded by

23stcs21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 9

A DATA SCIENCE PROJECT

GLOBAL SUPER-STORE

AND

SALES DATA

TASL 2(1)

import pandas as pd

from google.colab import files

import matplotlib.pyplot as plt

import seaborn as sns

uploaded=files.upload()

data=pd.read_csv(list(uploaded.keys())[0], encoding='ISO-8859-1')

print("data")

print(data.region())

print(data.product-category())

print(data.profit())

print(data.sales())

print("Any missing values")

print(data.isnull().sum())

print(data.notnull())

data=data.drop_duplicates()

print("Handling outliers")
print(Q1=data.quantile(0.25))

print(Q3=data.quantile(0.75))

IQR=Q3-Q1

print(IQR)

print("Descriptive Statistics")

print(data[['Sales','Profit']].describe())

print("Sales Variance:", data['Sales'].var())

print("Sales Standard Deviation:", data['Sales'].std())

print("Profit Variance:", data['Profit'].var())

print("Profit Standard Deviation:", data['Profit'].std())

print("correlation")

corr_matrix = data.corr(numeric_only=True)

print(corr_matrix[['Sales','Profit']])

sns.histplot(data['Sales'], kde=true)

plt.title("Sales Distribution")

plt.show()

sns.boxplot(x-data['Profit'])

plt.title("Profit Boxplot")

plt.show()

sns.heatmap(data.corr(numeric_only=true), annot=true, cmap='coolwarm')

plt.title("Correlation Heatmap")

plt.show()
SALES DATA

TASK 2(2)

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

uploaded=files.upload()

df=pd.read_csv(list(uploaded.keys())[0], encoding='ISO-8859-1')

print("The data:")

display(df.head())

print("Dataset Information")

df.info()

print("Statistical Summary")

display(df.describe())

duplicates= df,duplicates().sum()

print(f"Number of duplicate rows:{duplicates}")

df= df.drop_duplicates()

print(f"Missing values before cleaning:"{df.isnull().sum()}")

df.fillna(df.select_dtypes(include='number').mean(), inplace=True)

df['Region'] = df['Region'].fillna(fd['Region'].mode()[0])
df['Date']= df['Date'].fillna(df['Date'].mode()[0])

print(f"Missing values after cleaning:{df.isnull().sum()}")

df['Date']= pd.to_datetime(df['Date'], format= '%d-%m-%Y')

print("Data after cleaning:")

display(df.head())

plt.figure(figsize=(8,6))

sns.scatterplot(x='Discount', y='Profit', data =df, color= 'orange')

plt.title('Profit vs Discount')

plt.xlabel('Discount')

plt.ylabel('Profit')

plt.show()

plt.figure(figsize=(8,6))

region_sales= df.groupby('Region')['Sales'].sum()

region_sales.plot(kind='bar',color='green')

plt.title('Sales by region')

plt.ylabel('Total Sales')

plt.show()

plt.figure(figsize=(8,6))

sns.heatmap(df.select_dtypes(include='number').corr(), annot=True,
cmap='coolwarm')

plt.title('Correlation Matrix')

plt.show()
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

X=df[['Profit', 'Discount']]

Y= df['Sales']

X_train, X_test, Y_train, Y_test= train_test_split(X,Y,test_size=0.2,

random_state=42)

model= LinearRegression()

model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

print(f"Mean Squared Error:{ mean_squared_error(Y_test, Y_pred):.3f}")

print(f"R-squared Score:{r2_score(Y_test, Y_pred):.2f}")

Quantium Task 2
No ratings yet
Quantium Task 2
30 pages
Deep Learning Assignments
No ratings yet
Deep Learning Assignments
13 pages
Wa0002.
No ratings yet
Wa0002.
4 pages
Retail Analysis Walmart
No ratings yet
Retail Analysis Walmart
18 pages
Project Amazon Sales Data Analysis
No ratings yet
Project Amazon Sales Data Analysis
12 pages
DSA Lab Exp1
No ratings yet
DSA Lab Exp1
3 pages
Task 6
No ratings yet
Task 6
14 pages
DMV Lab 12
No ratings yet
DMV Lab 12
8 pages
Task 2 - Experimentation and Uplift Testing - Jupyter Notebook
No ratings yet
Task 2 - Experimentation and Uplift Testing - Jupyter Notebook
41 pages
Supermarket Sales Data Analysis
No ratings yet
Supermarket Sales Data Analysis
6 pages
Sample Sales Data Analysis
No ratings yet
Sample Sales Data Analysis
13 pages
Raw Customer Analysis
No ratings yet
Raw Customer Analysis
2 pages
Data Collection and Data Cleaning: Next Connect To The Drive
No ratings yet
Data Collection and Data Cleaning: Next Connect To The Drive
16 pages
CDAC Assignment
No ratings yet
CDAC Assignment
3 pages
Naan Mudhalvan - Google Cloud Data Analytics
No ratings yet
Naan Mudhalvan - Google Cloud Data Analytics
33 pages
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
No ratings yet
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
17 pages
Final
No ratings yet
Final
2 pages
Wa0003.
No ratings yet
Wa0003.
3 pages
BIDA Practical Print
No ratings yet
BIDA Practical Print
56 pages
Experiment No 11
No ratings yet
Experiment No 11
19 pages
EDA Report Week2
No ratings yet
EDA Report Week2
15 pages
Dva
No ratings yet
Dva
19 pages
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
No ratings yet
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
23 pages
Document 11
No ratings yet
Document 11
6 pages
Python for Business Analysts
No ratings yet
Python for Business Analysts
21 pages
UNIT 5 Scenario
No ratings yet
UNIT 5 Scenario
5 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Pranita Dane - IBM - Internship Project Submission - Data Analytics
No ratings yet
Pranita Dane - IBM - Internship Project Submission - Data Analytics
28 pages
A Real World Scenario Solution Using Pandas
No ratings yet
A Real World Scenario Solution Using Pandas
3 pages
Technologyname Phase2
No ratings yet
Technologyname Phase2
20 pages
Guides
No ratings yet
Guides
23 pages
Amazon Sales Analysis
No ratings yet
Amazon Sales Analysis
3 pages
Python Exp 11
No ratings yet
Python Exp 11
5 pages
Supermart Grocery Sales - Retail Analytics Dataset (Finance Analyst)
No ratings yet
Supermart Grocery Sales - Retail Analytics Dataset (Finance Analyst)
19 pages
Supermarket - Sales - Analysis - Algorithm - by Data Analaysis
No ratings yet
Supermarket - Sales - Analysis - Algorithm - by Data Analaysis
2 pages
Final Ca
No ratings yet
Final Ca
10 pages
Sales Data Analysis - Ipynb - Colab
No ratings yet
Sales Data Analysis - Ipynb - Colab
3 pages
Intro To BA
No ratings yet
Intro To BA
7 pages
Data Analysis
No ratings yet
Data Analysis
4 pages
Analyzing Sales Data
No ratings yet
Analyzing Sales Data
11 pages
All Analysiscode Explanation
No ratings yet
All Analysiscode Explanation
22 pages
Identifying Columns With Missing Values
No ratings yet
Identifying Columns With Missing Values
4 pages
Rithika
No ratings yet
Rithika
16 pages
Project Merged
No ratings yet
Project Merged
7 pages
Experiment No 7 DMV
No ratings yet
Experiment No 7 DMV
5 pages
Supermarket Sales Insights
No ratings yet
Supermarket Sales Insights
8 pages
Superstore Sales Data Analysis Report - 24MSG1R43 - Sanjeev Kumar
No ratings yet
Superstore Sales Data Analysis Report - 24MSG1R43 - Sanjeev Kumar
8 pages
Final Project
No ratings yet
Final Project
15 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
Manmohan Pandey Lab Mannual
No ratings yet
Manmohan Pandey Lab Mannual
30 pages
PRJ Sales Forecasting
No ratings yet
PRJ Sales Forecasting
22 pages
Project Python
No ratings yet
Project Python
3 pages
Exercise3 Solution
No ratings yet
Exercise3 Solution
19 pages
Notes 20241025083428
No ratings yet
Notes 20241025083428
4 pages
Data Visualization For Python - Sales Retail - r1
No ratings yet
Data Visualization For Python - Sales Retail - r1
19 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Supermart Grocery Sales Analysis
No ratings yet
Supermart Grocery Sales Analysis
8 pages
Sample Project 1
No ratings yet
Sample Project 1
14 pages
Coffee Sales - (Data Analyst)
No ratings yet
Coffee Sales - (Data Analyst)
31 pages
Sugar Community Edition Application Guide 6.2
No ratings yet
Sugar Community Edition Application Guide 6.2
196 pages
Recruitment & Appraisal in SPL
No ratings yet
Recruitment & Appraisal in SPL
46 pages
DIFAL Calculation
100% (1)
DIFAL Calculation
8 pages
Introduction: Pestel Analysis
No ratings yet
Introduction: Pestel Analysis
44 pages
Life Cycle Assessment
100% (1)
Life Cycle Assessment
12 pages
MRF LTD Kottayam.: Online Internship Report
No ratings yet
MRF LTD Kottayam.: Online Internship Report
36 pages
FusionServer 2288H V7 Server User Guide 08
No ratings yet
FusionServer 2288H V7 Server User Guide 08
491 pages
Fluid, Thermal & Energy Conf 2022
No ratings yet
Fluid, Thermal & Energy Conf 2022
1 page
22 208 219 Ajsshr (S) Use+of+Digital+Sports+Technologies+in+Sports+Television
No ratings yet
22 208 219 Ajsshr (S) Use+of+Digital+Sports+Technologies+in+Sports+Television
12 pages
Medical Biller Practice Test, Medical Billing Practice Test
No ratings yet
Medical Biller Practice Test, Medical Billing Practice Test
7 pages
AWS Academy Cloud Foundations Module 08 Student Guide
100% (2)
AWS Academy Cloud Foundations Module 08 Student Guide
69 pages
Connect Diag SUR-RON - 105V - Brake - v08
No ratings yet
Connect Diag SUR-RON - 105V - Brake - v08
1 page
Action Plan School Based Reading Edited
100% (1)
Action Plan School Based Reading Edited
6 pages
Hastamalaka
No ratings yet
Hastamalaka
8 pages
PhD Research Topic Selection Guide
0% (2)
PhD Research Topic Selection Guide
177 pages
Gothic Architecture Presentation
No ratings yet
Gothic Architecture Presentation
81 pages
(Nisar) Zakat Declaration
100% (1)
(Nisar) Zakat Declaration
2 pages
English 10 1
No ratings yet
English 10 1
24 pages
Biogas: Rural India's Energy Solution
67% (3)
Biogas: Rural India's Energy Solution
37 pages
Soft Drink Industry Profitability Analysis
No ratings yet
Soft Drink Industry Profitability Analysis
3 pages
Customer Service Management Guide
No ratings yet
Customer Service Management Guide
24 pages
Valuing Options: Multiple Choice Questions
100% (1)
Valuing Options: Multiple Choice Questions
15 pages
S22 Winning - Motorrad Article
No ratings yet
S22 Winning - Motorrad Article
5 pages
Afternoon OR Nurse Position Application
No ratings yet
Afternoon OR Nurse Position Application
2 pages
UoPeople BUS 5411 - Written Assignment Unit 5
No ratings yet
UoPeople BUS 5411 - Written Assignment Unit 5
4 pages
Dental Radiography Guide
No ratings yet
Dental Radiography Guide
23 pages
2021.08.29 News Chapter 5 Chain
No ratings yet
2021.08.29 News Chapter 5 Chain
53 pages
Makalah Social Media Group 3
No ratings yet
Makalah Social Media Group 3
6 pages
Risk Assessment Foundation Work
No ratings yet
Risk Assessment Foundation Work
2 pages
Beast: A Tale of Love and Revenge by Lisa Jansen Chapter Sampler
No ratings yet
Beast: A Tale of Love and Revenge by Lisa Jansen Chapter Sampler
41 pages

A Data Science Project 2

Uploaded by

A Data Science Project 2

Uploaded by

A DATA SCIENCE PROJECT

from google.colab import files

import matplotlib.pyplot as plt

import seaborn as sns

print("Any missing values")

print("Sales Variance:", data['Sales'].var())

print("Sales Standard Deviation:", data['Sales'].std())

print("Profit Variance:", data['Profit'].var())

print("Profit Standard Deviation:", data['Profit'].std())

sns.heatmap(data.corr(numeric_only=true), annot=true, cmap='coolwarm')

import matplotlib.pyplot as plt

import seaborn as sns

print(f"Number of duplicate rows:{duplicates}")

print(f"Missing values before cleaning:"{df.isnull().sum()}")

print(f"Missing values after cleaning:{df.isnull().sum()}")

df['Date']= pd.to_datetime(df['Date'], format= '%d-%m-%Y')

print("Data after cleaning:")

sns.scatterplot(x='Discount', y='Profit', data =df, color= 'orange')

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

X_train, X_test, Y_train, Y_test= train_test_split(X,Y,test_size=0.2,

print(f"Mean Squared Error:{ mean_squared_error(Y_test, Y_pred):.3f}")

print(f"R-squared Score:{r2_score(Y_test, Y_pred):.2f}")

You might also like