0% found this document useful (0 votes)

59 views12 pages

Introduction To Pandas in Data Analytics

Introduction To Pandas In Data Analytics

Uploaded by

Wael Aly

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

59 views12 pages

Introduction To Pandas in Data Analytics

Introduction To Pandas In Data Analytics

Uploaded by

Wael Aly

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 12

Introduction to

Pandas in Data
Analytics
Pandas DataFrame is an essential tool for data analysis in Python, offering
a powerful and flexible tabular data structure.

1 Labeled Axes
Pandas DataFrame provides a two-dimensional, size-mutable, and
potentially heterogeneous tabular data structure with labeled rows
and columns.

2 Data Analysis
Commonly used alongside NumPy and Matplotlib for
comprehensive data manipulation and visualization.

3 Essential for Python

Pandas DataFrame is a core component of the Python data analysis
ecosystem.

python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
Loading Data into a
DataFrame
Methods for loading data from various sources into a DataFrame. Code
Snippets:

From CSV
df_csv = pd.read_csv('file.csv')

From Excel
df_excel = pd.read_excel('file.xlsx', sheet_name='Sheet1')

From MySQL
import sqlalchemy engine =
sqlalchemy.create_engine('mysql://username:password@localhost/dbnam
e')

df_sql = pd.read_sql_table('table_name', engine)

DataFrame and Series Objects
DataFrame: A two-dimensional table with labeled axes. Series: A one-dimensional array with labels. Index objects:
Immutable array implementing an ordered, sliceable set.

Example DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

Example Series
s = pd.Series([1, 2, 3])
Working with Rows and
Columns
Content: Accessing and manipulating rows and columns. Selecting, adding, and deleting rows and columns.

Selecting a column

df['A']

Adding a new column

df['C'] = df['A'] + df['B']

Deleting a column

df.drop('C', axis=1, inplace=True)

Selecting rows

df.loc[0] # First row df.iloc[0] # First row by position

Indexing and Selecting Data

Content: Indexing with .loc, .iloc, and .ix. Vectorized arithmetic operations.

Using .loc

df.loc[0:1, ['A', 'B']]

Using .iloc

df.iloc[0:1, 0:2]

Vectorized operations

df['A'] + df['B']
Filtering and Filtering
Grouping filtered = df[df['A'] > 1]

Content:
Grouping
Filtering functions and grouping by row index.

grouped = df.groupby('A').sum()
Merging DataFrames Title: Merging
DataFrames
Merging DataFrames using pd.merge(). Types of joins: inner, outer, left, right. Code Snippets:

Creating two DataFrames

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

Inner join
inner_merge = pd.merge(df1, df2, on='key', how='inner')

Outer join
outer_merge = pd.merge(df1, df2, on='key', how='outer')

Left join
left_merge = pd.merge(df1, df2, on='key', how='left')

Right join
right_merge = pd.merge(df1, df2, on='key', how='right')

Concatenating DataFrames Title: Concatenating DataFrames

Concatenating DataFrames using pd.concat(). Concatenating along rows and columns. Code Snippets:

Concatenating along rows

concat_rows = pd.concat([df1, df2])

Concatenating along columns

concat_cols = pd.concat([df1, df2], axis=1)
Joining DataFrames Title: Joining
DataFrames
Joining DataFrames using df.join(). Different types of joins: inner, outer, left, right.

Code Snippets:

Creating two DataFrames with different

indexes
df1 = pd.DataFrame({'value1': [1, 2, 3]}, index=['A', 'B', 'C'])

df2 = pd.DataFrame({'value2': [4, 5, 6]}, index=['B', 'C', 'D'])

Joining DataFrames
joined_df = df1.join(df2, how='inner')

Grouping and Aggregating Data Title: Grouping and

Aggregating Data
Grouping data using df.groupby(). Aggregating data using sum, mean, count, etc.

Code Snippets:

Creating a DataFrame
df = pd.DataFrame({ 'Category': ['A', 'B', 'A', 'B'], 'Value': [10, 20, 30, 40] })

Grouping by 'Category' and calculating

sum
grouped_sum = df.groupby('Category').sum()

Grouping by 'Category' and calculating

multiple aggregations
grouped_agg = df.groupby('Category').agg({'Value': ['sum', 'mean', 'count']})
Filtering Data Title: Filtering Data
Filtering data using conditions. Using df.query() for SQL-like queries.

Code Snippets:

Filtering with conditions

filtered_df = df[df['Value'] > 20]

Using query
filtered_query = df.query('Value > 20')

Sorting Data Title: Sorting Data

Sorting data using df.sort_values() and df.sort_index().

Code Snippets:

Sorting by values
sorted_values = df.sort_values(by='Value')

Sorting by index
sorted_index = df.sort_index()

Handling Missing Data Title: Handling Missing Data

Handling missing data with df.isna(), df.dropna(), and df.fillna().

Code Snippets:

Creating a DataFrame with missing values

df_missing = pd.DataFrame({ 'A': [1, np.nan, 3], 'B': [4, 5, np.nan] })

Checking for missing values

missing_values = df_missing.isna()

Dropping missing values

dropped_na = df_missing.dropna()

Filling missing values

filled_na = df_missing.fillna(0)
Saving and Exporting
DataFrames
Content:

Saving DataFrames to various formats. Code Snippets:

To CSV
df.to_csv('output.csv')

To Excel
df.to_excel('output.xlsx', sheet_name='Sheet1')

To Python dictionary
df_dict = df.to_dict()

To string
df_str = df.to_string()

To MySQL
df.to_sql('table_name', engine)

DataFrame Attributes and

Methods
Non-indexing attributes. Utility methods. Code Snippets:

Non-indexing attributes
df.T

df.axes

df.dtypes

df.empty

df.ndim

df.shape

df.size

df.values

Utility methods
df_copy = df.copy()

df_ranked = df.rank()

df_sorted = df.sort_values(by='A')

df = df.astype({'A': 'float64'})
Iterating Over DataFrames Title: Iterating
Over DataFrames
Methods for iterating over DataFrames.

Iterating over columns

for label, content in df.iteritems():

print(label, content)

Iterating over rows

for index, row in df.iterrows():

print(index, row)

Working with Dates and Times Title: Working with

Dates and Time
Timestamps and Periods. Handling time zones, date ranges, and period frequencies. Code Snippets:

Timestamps
ts = pd.Timestamp('2023-01-01')

Periods
period = pd.Period('2023-01')

Date range
date_range = pd.date_range('2023-01-01', periods=10)

Period range
period_range = pd.period_range('2023-01', periods=10, freq='M')

Pivot Tables and Reshaping Data Title: Pivot Tables

and Reshaping Data
Pivoting, melting, and unstacking. Code Snippets:

Pivot table
pivot = df.pivot_table(values='A', index='B', columns='C')

Melting
melted = pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])

Unstacking
unstacked = df.unstack()
Slide 13: Time Series Data Title: Time Series
Data
Handling time series data with DatetimeIndex and PeriodIndex. Upsampling, downsampling, and resampling. Code
Snippets:

DatetimeIndex
dt_index = pd.DatetimeIndex(['2023-01-01', '2023-01-02'])

PeriodIndex
period_index = pd.PeriodIndex(['2023-01', '2023-02'], freq='M')

Resampling
resampled = df.resample('M').mean()

Additional Tips and Tricks Title: Additional Tips and

Tricks
Miscellaneous tips for working with DataFrames. Code Snippets:

Value counts
value_counts = df['A'].value_counts()

Non-standard string to Timestamp

conversion
ts = pd.to_datetime('2023-01-01 12:34:56', format='%Y-%m-%d %H:%M:%S')
Conclusion

Content:

Key Points Summary:

Introduction to Pandas DataFrame: Understanding the basic structure and importance.

Loading Data: Methods to load data from various sources into DataFrames.
DataFrame and Series Objects: Differences and usage.
Working with Rows and Columns: Accessing, selecting, and modifying data.
Indexing and Selecting Data: Using .loc, .iloc, and vectorized operations.
Saving and Exporting: Exporting DataFrames to different formats.
Attributes and Methods: Key attributes and utility methods.
Iterating Over DataFrames: Methods to iterate through rows and columns.
Dates and Times: Handling date and time data.
Pivot Tables and Reshaping: Techniques for reshaping data.
Filtering and Grouping: Data filtering and aggregation.

Time Series Data: Managing and manipulating time series data.

SQL-like Operations: Merging, joining, concatenating, and advanced operations.
Handling Missing Data: Methods to detect and handle missing values.
Pandas is a powerful tool: Pandas provides versatile and efficient methods to handle, manipulate, and analyze
data, making it a cornerstone of data science and analysis in Python.

Python Programming For Data Science
No ratings yet
Python Programming For Data Science
36 pages
Introduction to Pandas Library
No ratings yet
Introduction to Pandas Library
31 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
9 pages
04-Data Manipulation With Pandas
No ratings yet
04-Data Manipulation With Pandas
28 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Learn Pandas
No ratings yet
Learn Pandas
37 pages
Pandas
No ratings yet
Pandas
13 pages
Pandas
No ratings yet
Pandas
2 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Pandas
No ratings yet
Pandas
26 pages
Module 4
No ratings yet
Module 4
38 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Pandas
No ratings yet
Pandas
4 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Python Pandas Tutorial For Beginners
No ratings yet
Python Pandas Tutorial For Beginners
203 pages
Pandas DataFrame Basics Guide
No ratings yet
Pandas DataFrame Basics Guide
4 pages
Introduction To Pandas For Data Analysis
No ratings yet
Introduction To Pandas For Data Analysis
6 pages
Pandas
No ratings yet
Pandas
25 pages
Pandas Notes
No ratings yet
Pandas Notes
20 pages
Python 2.1.2
No ratings yet
Python 2.1.2
7 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
07 Data Wrangling
No ratings yet
07 Data Wrangling
51 pages
Pandas Guide for Data Analysts
No ratings yet
Pandas Guide for Data Analysts
9 pages
Python & Pandas for Beginners
No ratings yet
Python & Pandas for Beginners
7 pages
ML Unit-2 Notes
No ratings yet
ML Unit-2 Notes
17 pages
Pandas
No ratings yet
Pandas
7 pages
Phan1 Pandas Numpy Matplotlib
No ratings yet
Phan1 Pandas Numpy Matplotlib
158 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
Python Unit 3 4
No ratings yet
Python Unit 3 4
92 pages
Python 2.1.3
No ratings yet
Python 2.1.3
6 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
The Pandas Library
No ratings yet
The Pandas Library
39 pages
Lecture 5
No ratings yet
Lecture 5
36 pages
All Document Reader 1715619870900
No ratings yet
All Document Reader 1715619870900
6 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
60 pages
Lab-3 Pandas Library
No ratings yet
Lab-3 Pandas Library
14 pages
Pandas Guide for Data Science
No ratings yet
Pandas Guide for Data Science
42 pages
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
16 pages
Data Wrangling with Pandas
No ratings yet
Data Wrangling with Pandas
16 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Chapter-2 Python Pandas
100% (2)
Chapter-2 Python Pandas
33 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
Dilip PP
No ratings yet
Dilip PP
9 pages
Pandas
No ratings yet
Pandas
13 pages
IP CH 1 12th
No ratings yet
IP CH 1 12th
3 pages
Pandas Notes Design
No ratings yet
Pandas Notes Design
5 pages
Pandas Merged
No ratings yet
Pandas Merged
2 pages
Reference Guide - Pandas Tools For Structuring A Dataset
No ratings yet
Reference Guide - Pandas Tools For Structuring A Dataset
5 pages
Chapter 2 Python Pandas - II
No ratings yet
Chapter 2 Python Pandas - II
19 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
On Data Handling Using Pandas-I
100% (2)
On Data Handling Using Pandas-I
63 pages
DataFrame Ac Win Final
No ratings yet
DataFrame Ac Win Final
30 pages
Pandas Data Structures: Sections
No ratings yet
Pandas Data Structures: Sections
13 pages
The Racers Life
No ratings yet
The Racers Life
74 pages
HTML
No ratings yet
HTML
68 pages
Python Pandas Tutorial
96% (28)
Python Pandas Tutorial
178 pages
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
100% (18)
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
208 pages
The Python Bible
97% (31)
The Python Bible
506 pages
Python 3 Cheat Sheet
94% (51)
Python 3 Cheat Sheet
2 pages
HTML CSS JavaScript Basics
100% (7)
HTML CSS JavaScript Basics
225 pages
Python Cheat Sheet: Mosh Hamedani
100% (8)
Python Cheat Sheet: Mosh Hamedani
14 pages
HTML Note Imp HTML
No ratings yet
HTML Note Imp HTML
165 pages
HTML-Chapter 1 - 4
No ratings yet
HTML-Chapter 1 - 4
111 pages
18 Pandas
No ratings yet
18 Pandas
33 pages
Pandas Methods
No ratings yet
Pandas Methods
6 pages
Pandas Total Notes
100% (2)
Pandas Total Notes
66 pages
Python Programming. A Step-by-Step Guide For Absolute Beginners
91% (45)
Python Programming. A Step-by-Step Guide For Absolute Beginners
181 pages
Data Visualization in Python Preview PDF
100% (9)
Data Visualization in Python Preview PDF
58 pages
Python Basics for Beginners
100% (4)
Python Basics for Beginners
26 pages
Python Tutorial
67% (3)
Python Tutorial
107 pages
CSS in 44 Minutes
100% (5)
CSS in 44 Minutes
44 pages
HTML Tutorial
No ratings yet
HTML Tutorial
63 pages
Python Basics for Beginners
100% (12)
Python Basics for Beginners
2 pages
Core Python Cheat Sheet
100% (4)
Core Python Cheat Sheet
9 pages
HTML Handbook
No ratings yet
HTML Handbook
74 pages
AI Publishing. Python Scikit-Learn For Beginners... For Data Scientist 2021
100% (9)
AI Publishing. Python Scikit-Learn For Beginners... For Data Scientist 2021
339 pages
Python Notes For Professionals
100% (18)
Python Notes For Professionals
814 pages
HTML Notes Class 10th Cbse
No ratings yet
HTML Notes Class 10th Cbse
22 pages
Python Excercises With Solutions
100% (3)
Python Excercises With Solutions
37 pages
Introduction To HTML & CSS
94% (35)
Introduction To HTML & CSS
155 pages
Top 50 Pandas Interview Questions and Answers (2024)
No ratings yet
Top 50 Pandas Interview Questions and Answers (2024)
34 pages
CSS Basics for CS Students
100% (3)
CSS Basics for CS Students
8 pages
Amazon's Growth & Strategy Insights
No ratings yet
Amazon's Growth & Strategy Insights
27 pages
Facebook Inc PDF
100% (1)
Facebook Inc PDF
42 pages
Facebook Inc PDF
100% (1)
Facebook Inc PDF
42 pages
TOEFL
No ratings yet
TOEFL
96 pages
Corporate Social Responsibility - Nestle
No ratings yet
Corporate Social Responsibility - Nestle
2 pages
Ford Comeback
No ratings yet
Ford Comeback
2 pages
Rohit Singh's Tech Skills & Projects
No ratings yet
Rohit Singh's Tech Skills & Projects
1 page
Class 12 IP File 23 24
No ratings yet
Class 12 IP File 23 24
27 pages
Certificate in Data Science Foundation PDF
No ratings yet
Certificate in Data Science Foundation PDF
10 pages
L01 - Introduction-to-ML
No ratings yet
L01 - Introduction-to-ML
10 pages
HCSCI132 Lab Manual
No ratings yet
HCSCI132 Lab Manual
27 pages
Capgemini Interview Questions
No ratings yet
Capgemini Interview Questions
27 pages
Introduction To Numpy
No ratings yet
Introduction To Numpy
41 pages
Chinmay Takkar 089 CSE-B
No ratings yet
Chinmay Takkar 089 CSE-B
44 pages
Pandas Notes 1
No ratings yet
Pandas Notes 1
6 pages
Scikit-Learn Cheat Sheet
No ratings yet
Scikit-Learn Cheat Sheet
1 page
Ai System To Assist Legal Processes Using Natural Language Processing
No ratings yet
Ai System To Assist Legal Processes Using Natural Language Processing
20 pages
How ChatGPT Changed My Life
No ratings yet
How ChatGPT Changed My Life
2 pages
Final Deep Learning Manual
No ratings yet
Final Deep Learning Manual
26 pages
Top 18 Python Libraries for Data Science
100% (1)
Top 18 Python Libraries for Data Science
11 pages
B.Tech Project: ID Card Detection
No ratings yet
B.Tech Project: ID Card Detection
86 pages
Python Programs
No ratings yet
Python Programs
25 pages
Chapter 5
No ratings yet
Chapter 5
44 pages
QB Ip 12-1
No ratings yet
QB Ip 12-1
53 pages
IEEE Paper (DEVELOPMENT OF PROGRAMMING LANGUAGE PYTHON)
No ratings yet
IEEE Paper (DEVELOPMENT OF PROGRAMMING LANGUAGE PYTHON)
16 pages
Chapter - 3 Binary Files: 3.1 Reading and Writing To A Binary File
No ratings yet
Chapter - 3 Binary Files: 3.1 Reading and Writing To A Binary File
8 pages
Crime Prediction with Data Mining
No ratings yet
Crime Prediction with Data Mining
49 pages
Summer Training Report - Ishan Patwal
No ratings yet
Summer Training Report - Ishan Patwal
21 pages
Top 50 Data Analyst Interview Questions (2023)
No ratings yet
Top 50 Data Analyst Interview Questions (2023)
26 pages
Python Out Put
No ratings yet
Python Out Put
6 pages
(22616) PWP Summer-2022 Answer Paper
No ratings yet
(22616) PWP Summer-2022 Answer Paper
23 pages
Titanic Data Analysis
No ratings yet
Titanic Data Analysis
11 pages
Day5 FDP IoT Part1
No ratings yet
Day5 FDP IoT Part1
89 pages
Python Scientific
No ratings yet
Python Scientific
146 pages
Python Loops for Data Science
No ratings yet
Python Loops for Data Science
39 pages
Module - 5 Functions
No ratings yet
Module - 5 Functions
41 pages

Introduction To Pandas in Data Analytics

Uploaded by

Introduction To Pandas in Data Analytics

Uploaded by

Introduction to

3 Essential for Python

df_sql = pd.read_sql_table('table_name', engine)

Adding a new column

df['C'] = df['A'] + df['B']

df.drop('C', axis=1, inplace=True)

df.loc[0] # First row df.iloc[0] # First row by position

Indexing and Selecting Data

df.loc[0:1, ['A', 'B']]

Creating two DataFrames

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

Concatenating DataFrames Title: Concatenating DataFrames

Concatenating along rows

Concatenating along columns

Creating two DataFrames with different

df2 = pd.DataFrame({'value2': [4, 5, 6]}, index=['B', 'C', 'D'])

Grouping and Aggregating Data Title: Grouping and

Grouping by 'Category' and calculating

Grouping by 'Category' and calculating

Filtering with conditions

Sorting Data Title: Sorting Data

Handling Missing Data Title: Handling Missing Data

Creating a DataFrame with missing values

Checking for missing values

Dropping missing values

Filling missing values

Saving DataFrames to various formats. Code Snippets:

DataFrame Attributes and

Iterating over columns

Iterating over rows

Working with Dates and Times Title: Working with

Pivot Tables and Reshaping Data Title: Pivot Tables

Additional Tips and Tricks Title: Additional Tips and

Non-standard string to Timestamp

Key Points Summary:

Time Series Data: Managing and manipulating time series data.

You might also like