0% found this document useful (0 votes)

9 views5 pages

Module 3

Uploaded by

kcmanu112004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views5 pages

Module 3

Uploaded by

kcmanu112004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

import pandas as pd

import numpy as np

import time

# Create a large DataFrame with random data

np.random.seed(0)

n_rows = 1_000_000

df = pd.DataFrame({

'A': np.random.rand(n_rows),

'B': np.random.rand(n_rows),

'C': np.random.rand(n_rows),

'D': np.random.rand(n_rows)

})

# Regular Pandas syntax for a new column (without eval)

start_time = time.time()

df['Result1'] = df['A'] + df['B'] * df['C'] - df['D']

regular_time = time.time() - start_time

print(f"Regular computation time: {regular_time:.4f} seconds")

# Use eval for the same operation

start_time = time.time()

df.eval('Result2 = A + B * C - D', inplace=True)

eval_time = time.time() - start_time

print(f"eval() computation time: {eval_time:.4f} seconds")

# Verify both results are (almost) equal

comparison = np.allclose(df['Result1'], df['Result2'])

print(f"Results are equal: {comparison}")

Output:

Regular computation time: 0.1152 seconds

eval() computation time: 0.0487 seconds

Results are equal: True

Common Challenges with Large Datasets in Pandas:

1. High Memory Usage

• Pandas loads the entire dataset into memory (RAM).

• Large CSV/Excel files (GBs in size) can cause crashes or slowdowns.

2. Slow Computations

• Operations like groupby(), merge(), or sorting can be slow on millions of rows.

3. Data Loading Bottlenecks

• Reading large files (CSV, Excel) can take a long time.

4. Inefficient Data Types

• By default, Pandas may use memory-inefficient data types (float64, object).

5. Limited Parallelism

• Pandas is mostly single-threaded, limiting speed on multi-core CPUs.

Solutions and Best Practices:

1. Use Efficient Data Types

• Convert to smaller types (float32, int8, category) to reduce memory.

df['id'] = df['id'].astype('int32')

df['category'] = df['category'].astype('category')

2. Load Data in Chunks

• Use chunksize to read large files in pieces.

chunks = pd.read_csv('large_file.csv', chunksize=100000)

for chunk in chunks:

process(chunk)

3. Use dtype Argument While Reading

• Explicitly define data types during import to save memory.

df = pd.read_csv('data.csv', dtype={'id': 'int32', 'flag': 'bool'})

4. Use .query() and .eval() for Speed

• Faster filtering and math expressions using NumExpr backend.

df.query('value > 100')

df.eval('total = price * quantity', inplace=True)

5. Downcast Numeric Columns

• Reduce memory for integer/float columns using .to_numeric().

df['value'] = pd.to_numeric(df['value'], downcast='float')

6. Use Dask or Vaex for Out-of-Core Processing

• Pandas alternative libraries like Dask or Vaex allow processing data larger than RAM.

import dask.dataframe as dd

df = dd.read_csv('large_file.csv')

7. Filter Early and Often

• Apply filters as early as possible to reduce data before performing expensive operations.

df = df[df['date'] >= '2023-01-01']

8. Use Indexing for Speed

• Set indexes when filtering or joining data.

df.set_index('id', inplace=True)
Python Script: Time-Series Analysis in Pandas

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 1. Generate synthetic time-series data

date_rng = pd.date_range(start='2024-01-01', end='2024-03-31', freq='D')

np.random.seed(42)

data = np.random.normal(loc=100, scale=10, size=len(date_rng))

df = pd.DataFrame(data, columns=['Sales'])

df['Date'] = date_rng

df.set_index('Date', inplace=True)

print("First 5 rows of time-series data:")

print(df.head())

# 2. Plot the raw time-series data

df.plot(title='Daily Sales Over Time', figsize=(10, 4))

plt.xlabel("Date")

plt.ylabel("Sales")

plt.grid(True)

plt.show()

# 3. Resample to monthly frequency and compute the mean

monthly_avg = df.resample('M').mean()

print("\nMonthly Average Sales:")

print(monthly_avg)

# 4. Calculate rolling average (7-day window)

df['7-day MA'] = df['Sales'].rolling(window=7).mean()

# 5. Plot original and rolling average

df[['Sales', '7-day MA']].plot(title='7-Day Rolling Average of Sales', figsize=(10, 4))

plt.xlabel("Date")

plt.ylabel("Sales")

plt.grid(True)

plt.show()

# 6. Time-based filtering

print("\nSales in February 2024:")

print(df['2024-02'])

# 7. Add lag feature (shifted sales)

df['Yesterday Sales'] = df['Sales'].shift(1)

print("\nData with lag feature:")

print(df.head(10))

What This Script Demonstrates:

Step Feature Description

1 DatetimeIndex Setting a time-based index

2 Plotting Line plot of time-series

3 Resampling Aggregating daily data monthly

Calculating 7-day moving

4 Rolling
average

5 Filtering Time-based data slicing

6 Shifting Creating lag features

Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Pandas Operations Guide
No ratings yet
Pandas Operations Guide
6 pages
Cheat Sheet
No ratings yet
Cheat Sheet
12 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Pandas Introduction: What Is Python Pandas Used For?
No ratings yet
Pandas Introduction: What Is Python Pandas Used For?
28 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Python - Pandas - Numpy Interview Q&A
No ratings yet
Python - Pandas - Numpy Interview Q&A
12 pages
Unit IV
No ratings yet
Unit IV
49 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Pandas
No ratings yet
Pandas
6 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
Excel To Pandas Advanced Data Techniques For BI Devs 1729266352
No ratings yet
Excel To Pandas Advanced Data Techniques For BI Devs 1729266352
9 pages
45 Important Pandas Function
No ratings yet
45 Important Pandas Function
15 pages
Usage of NumPy For Numerical Data in Detail
No ratings yet
Usage of NumPy For Numerical Data in Detail
52 pages
Pandas & PyNumS Essentials
No ratings yet
Pandas & PyNumS Essentials
10 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Learn Pandas
No ratings yet
Learn Pandas
37 pages
Pandas
No ratings yet
Pandas
2 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
IP CH 1 12th
No ratings yet
IP CH 1 12th
3 pages
04-Data Manipulation With Pandas
No ratings yet
04-Data Manipulation With Pandas
28 pages
Supermarket Sales Data Analysis
No ratings yet
Supermarket Sales Data Analysis
6 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
Pandas Practise Problems
No ratings yet
Pandas Practise Problems
8 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Python Data Insights Using Pandas Interview Q&A
No ratings yet
Python Data Insights Using Pandas Interview Q&A
5 pages
Data Analysis
No ratings yet
Data Analysis
4 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
Exercise 3
No ratings yet
Exercise 3
12 pages
Pandas Notes
No ratings yet
Pandas Notes
8 pages
Oddstudents
No ratings yet
Oddstudents
35 pages
List of Practicals Python 2024 - 25
No ratings yet
List of Practicals Python 2024 - 25
13 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
No ratings yet
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
12 pages
FDS Notes Unit-4
No ratings yet
FDS Notes Unit-4
30 pages
Cheat Sheet
No ratings yet
Cheat Sheet
10 pages
Final Dev Record
No ratings yet
Final Dev Record
49 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
DevOps Q.
No ratings yet
DevOps Q.
13 pages
Conditional Formating and Sorting
No ratings yet
Conditional Formating and Sorting
14 pages
Spesifikasi CS 7600
No ratings yet
Spesifikasi CS 7600
1 page
Unit
No ratings yet
Unit
7 pages
Currency Converter Program Design
No ratings yet
Currency Converter Program Design
21 pages
Aoa All
No ratings yet
Aoa All
48 pages
Dolat Capital Interview Experience
0% (1)
Dolat Capital Interview Experience
6 pages
ATC Notes Module 5
No ratings yet
ATC Notes Module 5
23 pages
Graph Traversal Techniques
No ratings yet
Graph Traversal Techniques
31 pages
Kodak Printer Paper Jam Support
No ratings yet
Kodak Printer Paper Jam Support
2 pages
Lab 1 - Introduction To Mininet
No ratings yet
Lab 1 - Introduction To Mininet
26 pages
ML All Chapter
No ratings yet
ML All Chapter
118 pages
SAP S4 HANA - Intro - Architecture - Day 1
100% (1)
SAP S4 HANA - Intro - Architecture - Day 1
86 pages
Conceptual Graphs For A Database Interface (Sowa 1976)
No ratings yet
Conceptual Graphs For A Database Interface (Sowa 1976)
22 pages
LI 6500WX: Making Life Easier and Safer
No ratings yet
LI 6500WX: Making Life Easier and Safer
17 pages
Marriott International
100% (1)
Marriott International
4 pages
Fortran 3days
No ratings yet
Fortran 3days
308 pages
OpenStack Install Guide 2024
No ratings yet
OpenStack Install Guide 2024
149 pages
Acfroga7lh 3qkjyenivl01jo7ajbmipe Nvvlmfdrm53id0o2x7hq Evlyzkpsyz0wydsfreraso3q6nvj8jqj7ke0uhlglzplv0j9dvprlkrcaaib0z 1dhbx1ywi
No ratings yet
Acfroga7lh 3qkjyenivl01jo7ajbmipe Nvvlmfdrm53id0o2x7hq Evlyzkpsyz0wydsfreraso3q6nvj8jqj7ke0uhlglzplv0j9dvprlkrcaaib0z 1dhbx1ywi
1 page
Case+study-+IIITB+ +upGrad+Template
No ratings yet
Case+study-+IIITB+ +upGrad+Template
19 pages
How To Install or Uninstall RSAT in Windows 11 - Microsoft Community Hub
No ratings yet
How To Install or Uninstall RSAT in Windows 11 - Microsoft Community Hub
9 pages
Practical 2.2
No ratings yet
Practical 2.2
2 pages
DCE310H40 Users Manual Chicony E8hdce310h40 Ex 1 3
No ratings yet
DCE310H40 Users Manual Chicony E8hdce310h40 Ex 1 3
12 pages
BK Complete Portfolio 2011
No ratings yet
BK Complete Portfolio 2011
191 pages
An Analysis On Measuring Graph Patterns in Social Networks
No ratings yet
An Analysis On Measuring Graph Patterns in Social Networks
6 pages
Kuka - Xrob RCS: KUKA Robot Group KUKA System Technology (KST)
No ratings yet
Kuka - Xrob RCS: KUKA Robot Group KUKA System Technology (KST)
53 pages
VMDR Presentation Slides
No ratings yet
VMDR Presentation Slides
126 pages
Data Cleaning: Missing Values: - For Example in Attribute Income If
No ratings yet
Data Cleaning: Missing Values: - For Example in Attribute Income If
30 pages
Unit 3
No ratings yet
Unit 3
64 pages
AC1L AC3L Linux Manual BrosTrend WiFI Adapter v4
No ratings yet
AC1L AC3L Linux Manual BrosTrend WiFI Adapter v4
2 pages

Module 3

Uploaded by

Module 3

Uploaded by

import pandas as pd

# Create a large DataFrame with random data

# Regular Pandas syntax for a new column (without eval)

df['Result1'] = df['A'] + df['B'] * df['C'] - df['D']

regular_time = time.time() - start_time

print(f"Regular computation time: {regular_time:.4f} seconds")

# Use eval for the same operation

df.eval('Result2 = A + B * C - D', inplace=True)

eval_time = time.time() - start_time

print(f"eval() computation time: {eval_time:.4f} seconds")

# Verify both results are (almost) equal

comparison = np.allclose(df['Result1'], df['Result2'])

print(f"Results are equal: {comparison}")

Regular computation time: 0.1152 seconds

eval() computation time: 0.0487 seconds

Results are equal: True

1. High Memory Usage

• Pandas loads the entire dataset into memory (RAM).

• Large CSV/Excel files (GBs in size) can cause crashes or slowdowns.

• Operations like groupby(), merge(), or sorting can be slow on millions of rows.

3. Data Loading Bottlenecks

• Reading large files (CSV, Excel) can take a long time.

4. Inefficient Data Types

• By default, Pandas may use memory-inefficient data types (float64, object).

• Pandas is mostly single-threaded, limiting speed on multi-core CPUs.

Solutions and Best Practices:

1. Use Efficient Data Types

• Convert to smaller types (float32, int8, category) to reduce memory.

2. Load Data in Chunks

• Use chunksize to read large files in pieces.

chunks = pd.read_csv('large_file.csv', chunksize=100000)

for chunk in chunks:

3. Use dtype Argument While Reading

• Explicitly define data types during import to save memory.

df = pd.read_csv('data.csv', dtype={'id': 'int32', 'flag': 'bool'})

4. Use .query() and .eval() for Speed

• Faster filtering and math expressions using NumExpr backend.

df.query('value > 100')

df.eval('total = price * quantity', inplace=True)

• Reduce memory for integer/float columns using .to_numeric().

df['value'] = pd.to_numeric(df['value'], downcast='float')

6. Use Dask or Vaex for Out-of-Core Processing

7. Filter Early and Often

df = df[df['date'] >= '2023-01-01']

8. Use Indexing for Speed

• Set indexes when filtering or joining data.

import matplotlib.pyplot as plt

# 1. Generate synthetic time-series data

date_rng = pd.date_range(start='2024-01-01', end='2024-03-31', freq='D')

data = np.random.normal(loc=100, scale=10, size=len(date_rng))

print("First 5 rows of time-series data:")

# 2. Plot the raw time-series data

df.plot(title='Daily Sales Over Time', figsize=(10, 4))

# 3. Resample to monthly frequency and compute the mean

print("\nMonthly Average Sales:")

# 4. Calculate rolling average (7-day window)

df['7-day MA'] = df['Sales'].rolling(window=7).mean()

df[['Sales', '7-day MA']].plot(title='7-Day Rolling Average of Sales', figsize=(10, 4))

print("\nSales in February 2024:")

# 7. Add lag feature (shifted sales)

df['Yesterday Sales'] = df['Sales'].shift(1)

print("\nData with lag feature:")

What This Script Demonstrates:

Step Feature Description

1 DatetimeIndex Setting a time-based index

2 Plotting Line plot of time-series

3 Resampling Aggregating daily data monthly

Calculating 7-day moving

5 Filtering Time-based data slicing

6 Shifting Creating lag features

You might also like