Data Visualization

The document provides a guide to essential Python tools for data science, covering three main stages: Data Collection, Data Modelling, and Data Visualization. It highlights specific libraries such as Beautiful Soup for web scraping, imbalanced-learn for dataset balancing, and Matplotlib and Seaborn for data visualization. The document serves as a resource for data scientists to effectively utilize Python in their projects.

Uploaded by

Saraphina Kirika

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views20 pages

Data Visualization

Uploaded by

Saraphina Kirika

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 20

I

Day 3 of 50

Python Tools for a Every Data Scientist.

A step-by-step guide to learn data science by Data Science East Africa team.

PREPARED BY DSEA
II

Python has tools for all stages of the life cycle of a data
science project. Any data science project has the
following 3 stages inherently included in it.

Data Collection
Data Modelling
Data Visualization
And python provides very neat tools for all 3 of these stages.
Data Collection
III

Data Collection
Beautiful Soup
When data collection involves scraping data off of the web, python
provides a library called beautifulsoup. TH
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
Data Collection
III

This library parses a web page and stores its contents neatly. For example, it
will store the title separately. It will also store all the <a> tags separately which
will provide you with very neat list of URLs contained within the page.

Imabalanced-learn is one such tool to balance

datasets. A dataset is imbalanced when one class
or category of data has disproportionately larger
samples than other categories. This can cause
huge problems for classification algorithms
which may end up being biased towards the class
that has more data.
IV

Data Modelling
IMBALANCED LEARNING

http://glemaitre.github.io/imbalanced-learn/install.html
IV SCIPY ECOSYSTEM — NUMPY

The actual data processing or modelling

happens through python’s scipy stack. Python’s
SciPy Stack is a collection of software
specifically designed for scientific computing in
Pytho. nScipy secosystem contains a lot of
useful libraries but Numpy is arguably the most
powerful tool among all.
IV SCIPY ECOSYSTEM — NUMPY

The most fundamental package, around which the

scientific computation stack is built, NumPy stands for
Numerical Python.

It provides an abundance of useful features for

operations on matrices. If someone has used
MATLAB they immediately realize that NumPy is not
only as powerful as MATLAB but is also very similar
in its operation.
IV
READ MORE:

https://pandas.pydata.org/
IV

Data Visualization
MATPLOTLIB

Another package from the SciPy ecosystem that

is tailored for the generation of simple and
powerful visualizations with ease is Matplotlib. It
is a 2D plotting library which produces
publication quality figures in a variety of hard-
copy formats
IV

Data Visualization
MATPLOTLIB

https://matplotlib.org/stable/index.html
IV

Data Visualization
SEABORN

Seaborn is a Python data visualization library

based on matplotlib. It primarily provides a high-
level interface for drawing attractive and
informative statistical graphics.
It is mostly focused on visualizations such as
heat maps.
IV

Data Visualization
SEABORN

Read More:
https://seaborn.pydata.org/
IV

Data Visualization
MOVIEPY

MoviePy is a Python library for video editing —

cutting, concatenations, title insertions, video
compositing, video processing, and creation of
custom effects. It can read and write all common
audio and video formats, including GIF.

Sources and References

Intro to Data Science
Premier League Stats
Wikipedia: Data Science
Do you have
any questions?

ZIMCORE HUBS | NEW HIRE LAUNCHPAD

We're always here for you
datsscienceeastafrica@gmail.com
Twitter: DataScience_EA, TechMadi

Top 18 Python Libraries for Data Science
100% (1)
Top 18 Python Libraries for Data Science
11 pages
Basic Libraries For Data Science
No ratings yet
Basic Libraries For Data Science
4 pages
TY FDS Workbook
No ratings yet
TY FDS Workbook
56 pages
Python For Data Analysis
No ratings yet
Python For Data Analysis
49 pages
Python-Libraries SEMINAR
No ratings yet
Python-Libraries SEMINAR
12 pages
Dsbda Unit4
No ratings yet
Dsbda Unit4
110 pages
Python Weather Forecasting Guide
No ratings yet
Python Weather Forecasting Guide
36 pages
Data Science With Python Unlocking Insights
No ratings yet
Data Science With Python Unlocking Insights
8 pages
10 Essential Python Libraries For Data Professionals - by Sigli Mumuni - Medium
No ratings yet
10 Essential Python Libraries For Data Professionals - by Sigli Mumuni - Medium
6 pages
ML Lab File
No ratings yet
ML Lab File
33 pages
Top 20 Python Libraries For Data Science
No ratings yet
Top 20 Python Libraries For Data Science
15 pages
Python Packages To Learn Data Science E-Book
No ratings yet
Python Packages To Learn Data Science E-Book
76 pages
l9 Scientific Python Proc
No ratings yet
l9 Scientific Python Proc
30 pages
Ass1 DSBDA Writeup
No ratings yet
Ass1 DSBDA Writeup
8 pages
Top 5 Python Libraries for Data Science
100% (1)
Top 5 Python Libraries for Data Science
5 pages
Surbhi
No ratings yet
Surbhi
12 pages
00 Dm2 Python Libraries4data Science 2020
No ratings yet
00 Dm2 Python Libraries4data Science 2020
7 pages
Data Visualization Using Python
100% (1)
Data Visualization Using Python
44 pages
Wa0003.
No ratings yet
Wa0003.
12 pages
Python For Data Science (Anees Ahamad) - 20250408 - 180733 - 0000
No ratings yet
Python For Data Science (Anees Ahamad) - 20250408 - 180733 - 0000
12 pages
40 Most Popular Python Scientific Libraries
No ratings yet
40 Most Popular Python Scientific Libraries
9 pages
Python Workshop March 2018
No ratings yet
Python Workshop March 2018
31 pages
Python Programming For Economics and Finance
No ratings yet
Python Programming For Economics and Finance
267 pages
Data Science 2
No ratings yet
Data Science 2
15 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
37 pages
Chapter-5 DS
No ratings yet
Chapter-5 DS
2 pages
PythonDASE - 2025 Version1
No ratings yet
PythonDASE - 2025 Version1
44 pages
PYTHON
No ratings yet
PYTHON
11 pages
IE Python
No ratings yet
IE Python
26 pages
Python Programming For Economics Finance
No ratings yet
Python Programming For Economics Finance
267 pages
Python Programming For Economics Finance
No ratings yet
Python Programming For Economics Finance
267 pages
Unit-2 Ds
No ratings yet
Unit-2 Ds
26 pages
Lecture 4
No ratings yet
Lecture 4
33 pages
Digital Principal and System Design
No ratings yet
Digital Principal and System Design
17 pages
Data Visualization Using Python
No ratings yet
Data Visualization Using Python
43 pages
Machine Learning Document
No ratings yet
Machine Learning Document
7 pages
Pai 6
No ratings yet
Pai 6
17 pages
Data Preprocessing-AIML Algorithm1
No ratings yet
Data Preprocessing-AIML Algorithm1
47 pages
Cs3361 Data Science Laboratory
No ratings yet
Cs3361 Data Science Laboratory
139 pages
Core Libraries For Machine Learning
No ratings yet
Core Libraries For Machine Learning
5 pages
Python For Data Science
No ratings yet
Python For Data Science
40 pages
Data Science
No ratings yet
Data Science
17 pages
Python Libraries
No ratings yet
Python Libraries
17 pages
Data Visualization
No ratings yet
Data Visualization
25 pages
Python Data Viz for Developers
100% (1)
Python Data Viz for Developers
22 pages
Python Libraries
No ratings yet
Python Libraries
12 pages
DS Unit 1 - NUMPY
No ratings yet
DS Unit 1 - NUMPY
29 pages
Lab - Manual FDS
No ratings yet
Lab - Manual FDS
12 pages
Lecture 2 - Collecting, Analyzing, and Visualizing Data With Python Part I
No ratings yet
Lecture 2 - Collecting, Analyzing, and Visualizing Data With Python Part I
15 pages
15 Python Libraries For Data Science
No ratings yet
15 Python Libraries For Data Science
17 pages
Numpy: Explanation
No ratings yet
Numpy: Explanation
21 pages
Data Ty
No ratings yet
Data Ty
59 pages
Unit 1
No ratings yet
Unit 1
84 pages
Python Libraries for B.Tech Students
No ratings yet
Python Libraries for B.Tech Students
17 pages
Introduction-It Skills
No ratings yet
Introduction-It Skills
20 pages
What Is Python?: Why Python For Data Science?
No ratings yet
What Is Python?: Why Python For Data Science?
3 pages
Python Essentials for Data Science
No ratings yet
Python Essentials for Data Science
8 pages
Exp 1
No ratings yet
Exp 1
22 pages
Intro To Data Science
No ratings yet
Intro To Data Science
31 pages
Python Introduction
No ratings yet
Python Introduction
24 pages
GC7 TB Intern JD and ToR
No ratings yet
GC7 TB Intern JD and ToR
3 pages
Portfoliodets
No ratings yet
Portfoliodets
2 pages
Kde Payment Details
No ratings yet
Kde Payment Details
1 page
Building Installing Geant4 Ubuntu 14.04
No ratings yet
Building Installing Geant4 Ubuntu 14.04
2 pages
Cookies Ads
No ratings yet
Cookies Ads
48 pages
Manual - Lab05 Air
No ratings yet
Manual - Lab05 Air
8 pages
Linux Lab Exercise Summary
No ratings yet
Linux Lab Exercise Summary
35 pages
FOP InstallingFreePBX2.11onCentos6.3 050917 1617 11228 PDF
No ratings yet
FOP InstallingFreePBX2.11onCentos6.3 050917 1617 11228 PDF
7 pages
Dynatrace - Install How To
No ratings yet
Dynatrace - Install How To
2 pages
Prácticas Docker: 1. Contenedores Interactivos
No ratings yet
Prácticas Docker: 1. Contenedores Interactivos
5 pages
Install Goautodial on CentOS 7 Guide
100% (1)
Install Goautodial on CentOS 7 Guide
4 pages
General Settings For User Authentication and Accounting
No ratings yet
General Settings For User Authentication and Accounting
20 pages
Acapela Asterisk
No ratings yet
Acapela Asterisk
10 pages
Snort 3 On Ubuntu 18 and 20
100% (2)
Snort 3 On Ubuntu 18 and 20
26 pages
Getting Started With HISAT, StringTie, and Ballgown
No ratings yet
Getting Started With HISAT, StringTie, and Ballgown
19 pages
Ethical Hacking
No ratings yet
Ethical Hacking
6 pages
Command Prompt Commands
No ratings yet
Command Prompt Commands
23 pages
Linux Basics
No ratings yet
Linux Basics
13 pages
Slipping A PHP Backdoor Using Weavely
No ratings yet
Slipping A PHP Backdoor Using Weavely
6 pages
EPO Web API Scripting Guide En-Us
No ratings yet
EPO Web API Scripting Guide En-Us
40 pages
Proof of Concept Guide
No ratings yet
Proof of Concept Guide
14 pages
Fravia Searching Recon2006
No ratings yet
Fravia Searching Recon2006
18 pages
Linux Commands for Beginners
No ratings yet
Linux Commands for Beginners
1 page
DULG Canyonlands
No ratings yet
DULG Canyonlands
230 pages
Testking Exam Questions & Answers: 312-50 TK'S Certified Ethical Hacker
No ratings yet
Testking Exam Questions & Answers: 312-50 TK'S Certified Ethical Hacker
7 pages
Kloxo Installation Guide
No ratings yet
Kloxo Installation Guide
4 pages
A Step by Step Guide To Configure Informix On Linux PDF
No ratings yet
A Step by Step Guide To Configure Informix On Linux PDF
12 pages
Install Webmin on Ubuntu Dapper
No ratings yet
Install Webmin on Ubuntu Dapper
2 pages
A2 Cookies
No ratings yet
A2 Cookies
38 pages
Cookies 27 1
No ratings yet
Cookies 27 1
69 pages
Faq Troubleshooting Installation Problems
No ratings yet
Faq Troubleshooting Installation Problems
61 pages
Nagios CSP Installation Guide
No ratings yet
Nagios CSP Installation Guide
9 pages
The Cacti Manual
No ratings yet
The Cacti Manual
106 pages