0% found this document useful (0 votes)

12 views7 pages

Data Analyst - Data Engineer

This document outlines a comprehensive course on data analysis and big data analytics, covering tools like Python, Jupyter Notebook, and libraries such as NumPy and Pandas. It includes topics on data cleaning, visualization, SQL, and working with unstructured data, as well as big data processing using Hadoop and integration with tools like Apache Spark and Flink. The course aims to equip learners with the skills to analyze and visualize data effectively for insights and decision-making.

Uploaded by

rizqi ardiansyah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views7 pages

Data Analyst - Data Engineer

Uploaded by

rizqi ardiansyah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Data Analyst

Core Data Analyst

This course will introduce you to modern tools, such as Jupyter Notebook and various Python
libraries, and how to work with data. In the process, you will learn about the many different
types of data and how to clean, blend, visualize, and analyse data to gain useful insights.
Data literacy is the ability to read, work with, analyse, and argue with data. Data analysis is
the process of cleaning and modelling your data to discover useful information.
Python for Data Analysis
Why Python Programming
Data Types and Operators

• Arithmetic Operators
• Variables and Assignment Operators
• Integers and Floats
• Booleans, Comparison Operators, and Logical Operators
• Strings
• Type and Type Conversion
• String Methods
• Lists and Membership Operators
• List Methods
• Tuples
• Sets
• Dictionaries and Identity Operators
• Compound Data Structures
Functions

• Defining Functions
• Variable Scope
• Documentation
• Lambda Expressions
NumPy

• Introduction to NumPy
• Why Use NumPy?
• Creating and Saving NumPy ndarrays
• Using Built-in Functions to Create ndarrays
• Create an ndarray
• Accessing, Deleting, and Inserting Elements Into ndarrays
• Slicing ndarrays
• Boolean Indexing, Set Operations, and Sorting
• Manipulating ndarrays
• Arithmetic operations and Broadcasting
• Creating ndarrays with Broadcasting
Pandas

• Introduction to Pandas
• Why Use Pandas?
• Creating Pandas Series
• Accessing and Deleting Elements in Pandas Series
• Arithmetic Operations on Pandas Series
• Manipulate a Series
• Creating Pandas DataFrames
• Accessing Elements in Pandas DataFrames
• Dealing with NaN
• Manipulate a DataFrame
• Loading Data into a Pandas DataFrame
Data Wrangling with Pandas

• What is data wrangling?

• Cleaning up the data
• Restructuring the data
• Handling duplicate, missing, or invalid data
Aggregating Pandas DataFrames

• Database-style operations on DataFrames

• DataFrame operations
• Aggregations with pandas and numpy
• Time series
Exploratory Data Analysis

• Exploratory Data Analysis Fundamentals

• Visual Aids for EDA
• EDA with Personal Email
• Data Transformation
SQL

• Basic SQL
• SQL Joins
• SQL Aggregations
• SQL Subqueries Temporary Tables
• SQL Data Cleaning
Data Visualization
Visualizing Data with Pandas and Matplotlib

• An introduction to matplotlib
• The basics
• Plot components
• Additional options
• Plotting with pandas
• Evolution over time
• Relationships between variables
• Distributions
• Counts and frequencies
• The pandas.plotting subpackage
• Scatter matrices
• Lag plots
• Autocorrelation plots
• Bootstrap plots
Plotting with Seaborn and Customization Techniques

• Utilizing seaborn for advanced plotting

• Categorical data
• Correlations and heatmaps
• Regression plots
• Distributions
• Faceting
• Formatting
• Titles and labels
• Legends
• Formatting axes
• Customizing visualizations
• Adding reference lines
• Shading regions
• Annotations
• Colors
Working with Unstructured Big Data
Exploring Text Data and Unstructured Data

• Preparing to work with unstructured data

• Tokenization explained
• Counting words and exploring results
• Normalizing text techniques
• Stemming and lemmatization in action
• Excluding words from analysis
Practical Sentiment Analysis

• Why sentiment analysis is important

• Elements of an NLP model
• Sentiment analysis packages
• Sentiment analysis in action
• Manual input
• Social media file input
Data Engineer
Big Data Analytics with Hadoop
Apache Hadoop is the most popular platform for big data processing, and can be combined
with a host of other big data tools to build powerful analytics solutions. Big Data Analytics
with Hadoop 3 shows you how to do just that, by providing insights into the software as well
as its benefits with the help of practical examples.
Once you have taken a tour of Hadoop 3's latest features, you will get an overview of HDFS,
MapReduce, and YARN, and how they enable faster, more efficient big data processing. You
will then move on to learning how to integrate Hadoop with open source tools, such as Python
and R, to analyse and visualize data and perform statistical computing on big data. As you
become acquainted with all of this, you will explore how to use Hadoop 3 with Apache Spark
and Apache Flink for real-time data analytics and stream processing.
Chapter 1: Introduction to Hadoop

• Hadoop Distributed File System

• MapReduce framework
• YARN
• Installing Hadoop 3
Chapter 2: Overview of Big Data Analytics

• Introduction to data analytics

• Introduction to big data
• Distributed computing using Apache Hadoop
• The MapReduce framework
• Hive
• Apache Spark
Chapter 3: Big Data Processing with MapReduce

• The MapReduce framework

• MapReduce job types
• MapReduce patterns
o Aggregation patterns
o Filtering patterns
o Join patterns
Chapter 4: Scientific Computing and Big Data Analysis with Python and Hadoop

• Installation
• Data analysis
Chapter 5: Statistical Big Data Computing with R and Hadoop

• Introduction
• Methods of integrating R and Hadoop
• Data analytics

Chapter 6: Batch Analytics with Apache Spark

• SparkSQL and DataFrames

• DataFrame APIs and the SQL API
• Schema – structure of data
• Loading datasets
• Saving datasets
• Aggregations
• Joins
Chapter 7: Real-Time Analytics with Apache Spark

• Streaming
• Spark Streaming
• fileStream
• Transformations
• Checkpointing
• Driver failure recovery
• Interoperability with streaming platforms (Apache Kafka)
• Handling event time and late date
• Fault-tolerance semantics
Chapter 8: Batch Analytics with Apache Flink

• Introduction to Apache Flink

• Installing Flink
• Using the Flink cluster UI
• Batch analytics
Chapter 9: Stream Processing with Apache Flink

• Introduction to streaming execution model

• Data processing using the DataStream API
Chapter 10: Visualizing Big Data

• Introduction
• Tableau
• Chart types
• Using Python to visualize data
• Using R to visualize data
• Big data visualization tools
Optional:
Chapter 11: Introduction to Cloud Computing

• Concepts and terminology

• Goals and benefits
• Risks and challenges
• Roles and boundaries
• Cloud characteristics
• Cloud delivery models
• Cloud deployment models

Data Analysis Roadmap
No ratings yet
Data Analysis Roadmap
17 pages
Detailed Python Data Analysis Big Data Tools
No ratings yet
Detailed Python Data Analysis Big Data Tools
9 pages
DS Curriculum
No ratings yet
DS Curriculum
4 pages
Big Data Analytics for B.Tech Students
No ratings yet
Big Data Analytics for B.Tech Students
119 pages
Data Analytics TOC
No ratings yet
Data Analytics TOC
6 pages
Data Analytics Broucher
No ratings yet
Data Analytics Broucher
20 pages
Data Analytics Curriculum
No ratings yet
Data Analytics Curriculum
8 pages
Big Data Analysis
No ratings yet
Big Data Analysis
9 pages
Data Analytics and Reporting - Notes Unit 1 and 2
No ratings yet
Data Analytics and Reporting - Notes Unit 1 and 2
11 pages
Python
No ratings yet
Python
170 pages
Big Data Training in Chennai - Big Data Course in Chennai
No ratings yet
Big Data Training in Chennai - Big Data Course in Chennai
1 page
Big Data
No ratings yet
Big Data
2 pages
Data Minds - Data Science Curriculum 2023 V2
No ratings yet
Data Minds - Data Science Curriculum 2023 V2
15 pages
Data Engineering Bootcamp for All
No ratings yet
Data Engineering Bootcamp for All
12 pages
Chapter 2. Data Analysis and Processing - Full
No ratings yet
Chapter 2. Data Analysis and Processing - Full
49 pages
EdYoda Data Scientist Program Curriculum
No ratings yet
EdYoda Data Scientist Program Curriculum
14 pages
RHadoop
No ratings yet
RHadoop
50 pages
Data Analyst Compressed
No ratings yet
Data Analyst Compressed
51 pages
Big Data Analytics For R-2017 by ArunPrasath S., Sriram Kumar K., Krishna Sankar P.
No ratings yet
Big Data Analytics For R-2017 by ArunPrasath S., Sriram Kumar K., Krishna Sankar P.
7 pages
Data Science Learning Guide
No ratings yet
Data Science Learning Guide
1 page
Big Data in Python
No ratings yet
Big Data in Python
10 pages
Comprehensive Data Science Guide
No ratings yet
Comprehensive Data Science Guide
10 pages
Data Science Training in Naresh I Technologies
100% (3)
Data Science Training in Naresh I Technologies
18 pages
Python Data Analytics Course Guide
No ratings yet
Python Data Analytics Course Guide
36 pages
Data Science 2
No ratings yet
Data Science 2
15 pages
Introduction To EDA
No ratings yet
Introduction To EDA
16 pages
Data Science Machine Learning 17054
No ratings yet
Data Science Machine Learning 17054
27 pages
DS Final
No ratings yet
DS Final
46 pages
Getting Started With Python Data Analysis - Sample Chapter
0% (1)
Getting Started With Python Data Analysis - Sample Chapter
17 pages
Jacky Bai - Pandas Hands-On - Data Analysis Crash Course (2020)
No ratings yet
Jacky Bai - Pandas Hands-On - Data Analysis Crash Course (2020)
139 pages
BDA2023 Outline
No ratings yet
BDA2023 Outline
7 pages
Part A
No ratings yet
Part A
24 pages
DE Python
No ratings yet
DE Python
11 pages
Data Science - A First Introduction With Python (Z-Lib - Io)
No ratings yet
Data Science - A First Introduction With Python (Z-Lib - Io)
452 pages
Macse502 Programming-For-data-science Eth 1.0 83 Macse502
No ratings yet
Macse502 Programming-For-data-science Eth 1.0 83 Macse502
4 pages
Data Science with Python & Hadoop
No ratings yet
Data Science with Python & Hadoop
1 page
Big Data Analytics Course Overview
No ratings yet
Big Data Analytics Course Overview
8 pages
Big Data Black Book PDF
15% (20)
Big Data Black Book PDF
2 pages
Data Science With Python Updated Brochure
No ratings yet
Data Science With Python Updated Brochure
13 pages
Ocs353dsf Unit Wise Notes
100% (2)
Ocs353dsf Unit Wise Notes
121 pages
Bda U1
No ratings yet
Bda U1
80 pages
PCAC2009
No ratings yet
PCAC2009
3 pages
Data Analysis - Python Based
No ratings yet
Data Analysis - Python Based
3 pages
Python Data Science Group Bootcamp NYC (Affordable Machine Learning)
No ratings yet
Python Data Science Group Bootcamp NYC (Affordable Machine Learning)
16 pages
Big Data Analytics for B.Tech Students
No ratings yet
Big Data Analytics for B.Tech Students
134 pages
Data Analytics Duration
No ratings yet
Data Analytics Duration
18 pages
Introduction To Data Science
100% (6)
Introduction To Data Science
227 pages
Klein B. Data Analysis With Python. Numpy, Matplotlib and Pandas 2021
No ratings yet
Klein B. Data Analysis With Python. Numpy, Matplotlib and Pandas 2021
515 pages
Data Analytics Syllabus
No ratings yet
Data Analytics Syllabus
15 pages
L8 Big Data Management en
No ratings yet
L8 Big Data Management en
58 pages
Machine Learning Engineer Course Curriculum PDF
No ratings yet
Machine Learning Engineer Course Curriculum PDF
40 pages
Pandas Training Plan
No ratings yet
Pandas Training Plan
5 pages
CS352 - Lab Syllabus
No ratings yet
CS352 - Lab Syllabus
2 pages
Manual - DV
No ratings yet
Manual - DV
51 pages
It (r20) 4-1 Big Data Analytics Digital Notes
No ratings yet
It (r20) 4-1 Big Data Analytics Digital Notes
84 pages
Chapter Two Data Science: by Abdulaziz Oumer
No ratings yet
Chapter Two Data Science: by Abdulaziz Oumer
29 pages
Python for High School Data Exploration
No ratings yet
Python for High School Data Exploration
28 pages
05_Understanding Generative AI
No ratings yet
05_Understanding Generative AI
150 pages
Java SE 21 Developer Professional (1Z0-830)
No ratings yet
Java SE 21 Developer Professional (1Z0-830)
4 pages
08_AI Job Positions
No ratings yet
08_AI Job Positions
54 pages
MySQL 8.0 Database Developer (1Z0-909)
No ratings yet
MySQL 8.0 Database Developer (1Z0-909)
3 pages
The C# Workshop
No ratings yet
The C# Workshop
2 pages
Oracle Certified Professional, MySQL 8.0 Database Administrator (1Z0-908)
No ratings yet
Oracle Certified Professional, MySQL 8.0 Database Administrator (1Z0-908)
3 pages
Chapter 13 - Advanced Table Calculation
No ratings yet
Chapter 13 - Advanced Table Calculation
8 pages
Java SE 17 Developer (1Z0-829)
No ratings yet
Java SE 17 Developer (1Z0-829)
4 pages
Java SE 11 Developer (1Z0-819)
No ratings yet
Java SE 11 Developer (1Z0-819)
3 pages
Chapter 20 - Viewing Distribution
No ratings yet
Chapter 20 - Viewing Distribution
36 pages
Chapter 10 - Data Extracts
No ratings yet
Chapter 10 - Data Extracts
16 pages
GCP Fundamentals
No ratings yet
GCP Fundamentals
5 pages
Chapter 18 - Comparing Measures Against A Goal
No ratings yet
Chapter 18 - Comparing Measures Against A Goal
14 pages
Chapter 19 - Defining Subsets of Your Data
No ratings yet
Chapter 19 - Defining Subsets of Your Data
12 pages
Chapter 16 - Mapping Data Geographically
No ratings yet
Chapter 16 - Mapping Data Geographically
9 pages
Chapter 7 - Showing The Relationship Between Numerical Values
No ratings yet
Chapter 7 - Showing The Relationship Between Numerical Values
7 pages
Chapter 12 - Analyzing Data With Quick Table Calculations
No ratings yet
Chapter 12 - Analyzing Data With Quick Table Calculations
11 pages
Chapter 17 - Showing Breakdowns of The Whole
No ratings yet
Chapter 17 - Showing Breakdowns of The Whole
13 pages
Chapter 14 - Highlight Data With Reference Lines
No ratings yet
Chapter 14 - Highlight Data With Reference Lines
11 pages
Chapter 4 Organizing Your Data
No ratings yet
Chapter 4 Organizing Your Data
31 pages
Securing Java Web Application
No ratings yet
Securing Java Web Application
3 pages
Build Modern API & Micro Services
No ratings yet
Build Modern API & Micro Services
2 pages
Go Language
No ratings yet
Go Language
3 pages
Data Science With R v.1
No ratings yet
Data Science With R v.1
4 pages
Programming With Java Standard Edition
No ratings yet
Programming With Java Standard Edition
2 pages
Secure Programming Course Outline Java Net PHP
No ratings yet
Secure Programming Course Outline Java Net PHP
11 pages
Building Data Streaming Applications With Apache Kafka
No ratings yet
Building Data Streaming Applications With Apache Kafka
4 pages
Using AI To Answer Internal FAQs & Build Knowledge Bots
No ratings yet
Using AI To Answer Internal FAQs & Build Knowledge Bots
3 pages
12 - Your Application and HA
No ratings yet
12 - Your Application and HA
10 pages
09 - Storing and Reading Data On Disk
No ratings yet
09 - Storing and Reading Data On Disk
19 pages
Xbox One X Manual en FR Es - Us Ca
No ratings yet
Xbox One X Manual en FR Es - Us Ca
28 pages
PNU
100% (2)
PNU
49 pages
Document Information Extraction: Public 2024-05-13
No ratings yet
Document Information Extraction: Public 2024-05-13
302 pages
Faculty Profile-CSE Updated
No ratings yet
Faculty Profile-CSE Updated
3 pages
New Souq Oil and Gas Sco
No ratings yet
New Souq Oil and Gas Sco
6 pages
Liu Et Al 2024 A Matter of Time Publication Dates in Scopus
No ratings yet
Liu Et Al 2024 A Matter of Time Publication Dates in Scopus
10 pages
Coach Care Report Railway
No ratings yet
Coach Care Report Railway
65 pages
Hackdata'25
No ratings yet
Hackdata'25
14 pages
Differential Calculus: y + y F (X + X) y F (X + X) - y or y F (X + X) - F (X)
No ratings yet
Differential Calculus: y + y F (X + X) y F (X + X) - y or y F (X + X) - F (X)
13 pages
Abcdegdg
No ratings yet
Abcdegdg
1 page
For Review Meeting SE-IC-WGL On JCR17.12.2023
No ratings yet
For Review Meeting SE-IC-WGL On JCR17.12.2023
21 pages
Maaggear Cpu
No ratings yet
Maaggear Cpu
8 pages
Resume Harshada Chame
No ratings yet
Resume Harshada Chame
2 pages
Ajit Kumar 8899739001 C-64sanjay Gram Gurgaon: Objective
No ratings yet
Ajit Kumar 8899739001 C-64sanjay Gram Gurgaon: Objective
5 pages
Python String Concatenation Guide
No ratings yet
Python String Concatenation Guide
11 pages
Icdsmsd W0800074829
No ratings yet
Icdsmsd W0800074829
2 pages
Real-time Face Recognition with Python
No ratings yet
Real-time Face Recognition with Python
6 pages
Power Quality Techniques for Engineers
No ratings yet
Power Quality Techniques for Engineers
1 page
7.62x54 MM MG - Arsenal JSCo. - Bulgarian Manufacturer of Weapons and Ammunition Since 1878
No ratings yet
7.62x54 MM MG - Arsenal JSCo. - Bulgarian Manufacturer of Weapons and Ammunition Since 1878
4 pages
Find BTEs in SAP Transactions
No ratings yet
Find BTEs in SAP Transactions
33 pages
Introduction To Unified Modeling Language (UML)
No ratings yet
Introduction To Unified Modeling Language (UML)
27 pages
H8-PSM Tech Spec
No ratings yet
H8-PSM Tech Spec
3 pages
Synopsis Final
No ratings yet
Synopsis Final
15 pages
Sun Cluster
100% (1)
Sun Cluster
87 pages
Acceptance Criteria - Sample
No ratings yet
Acceptance Criteria - Sample
10 pages
Taglist 2025
No ratings yet
Taglist 2025
1 page
A. General C. List of Drawings:: (Proposed G+1+Lr Villa)
No ratings yet
A. General C. List of Drawings:: (Proposed G+1+Lr Villa)
2 pages
HAZOP Training
No ratings yet
HAZOP Training
21 pages
DFX8 Web
No ratings yet
DFX8 Web
2 pages
498 FA2019 Lecture01
No ratings yet
498 FA2019 Lecture01
61 pages

Data Analyst - Data Engineer

Uploaded by

Data Analyst - Data Engineer

Uploaded by

Data Analyst

Core Data Analyst

• What is data wrangling?

• Database-style operations on DataFrames

• Exploratory Data Analysis Fundamentals

• Utilizing seaborn for advanced plotting

• Preparing to work with unstructured data

• Why sentiment analysis is important

• Hadoop Distributed File System

• Introduction to data analytics

• The MapReduce framework

Chapter 6: Batch Analytics with Apache Spark

• SparkSQL and DataFrames

• Introduction to Apache Flink

• Introduction to streaming execution model

• Concepts and terminology

You might also like