Developer Training For Apache Spark and Hadoop

Uploaded by

ks712139

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

58 views3 pages

Developer Training For Apache Spark and Hadoop

Uploaded by

ks712139

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Developer Training for Apache Spark and Hadoop

Course Outcomes:
• Distribute, store, and process data in a Hadoop cluster
• Write, configure, and deploy Spark applications on a cluster
• Use the Spark shell for interactive data analysis
• Process and query structured data using Spark SQL and Hive Query Language
• Understand a wide variety of learning algorithms and build an end-to-end Machine
Learning Model with MLlib in pySpark.
• Use Spark Streaming to process a live data stream

What to Expect
This course is designed for developers and engineers who have programming experience, but
prior knowledge of Hadoop and/or Spark is not required.
• Apache Spark examples and hands-on exercises are presented in Scala and Python. The
ability to program in one of those languages is required.
• Basic familiarity with the Linux command line is assumed
• Basic knowledge of SQL is helpful

Course Duration: 64 Hours

Module 1 Module 3
Introduction to Apache Hadoop Distributed Processing on an Apache Hadoop
and the Hadoop Ecosystem Cluster
• Apache Hadoop Overview • YARN Architecture
• Data Ingestion and Storage • Working With YARN
• Data Processing
• Data Analysis and Exploration Module 4
• Other Ecosystem Tools Apache Spark Basics
• Introduction to the Hands-On Exercises • What is Apache Spark?
• Starting the Spark Shell
Module 2 • Using the Spark Shell
Apache Hadoop File Storage • Getting Started with Datasets and DataFrames
• Apache Hadoop Cluster Components • DataFrame Operations
• HDFS Architecture
• Using HDFS

1
Module 5 Module 11
Working with DataFrames and Schemas Transforming Data with RDDs
• Introduction to DataFrames • Writing and Passing Transformation
• Exercise: Introducing DataFrames Functions
• Exercise: Reading and Writing DataFrames • Transformation Execution
• Exercise: Working with Columns • Converting Between RDDs and DataFrames
• Exercise: Working with Complex Types
• Exercise: Combining and Splitting DataFrames Module 12
• Exercise: Summarizing and Grouping DF Aggregating Data with Pair RDDs
• Exercise: Working with UDFs • Key-Value Pair RDDs
• Exercise: Working with Windows • Map-Reduce
• Eager and Lazy Execution • Other Pair RDD Operations

Module 6 Module 13
Analyzing Data with DataFrame Queries Querying Tables and Views with Apache
• Querying DataFrames Using Column Exp. Spark SQL
• Grouping and Aggregation Queries • Querying Tables in Spark Using SQL
• Joining DataFrames • Querying Files and Views
• The Catalog API
Module 7 • Comparing Spark SQL, Apache Impala,
Introduction to Apache Hive and Apache Hive-on-Spark
• About Hive
• Transforming data with Hive QL Module 14
Working with Datasets in Scala
Module 8 • Datasets and DataFrames
Working with Apache Hive • Creating Datasets
• Exercise: Working with Partitions • Loading and Saving Datasets
• Exercise: Working with Buckets • Dataset Operations
• Exercise: Working with Skew
• Exercise: Using Serdes to Ingest Text Data Module 15
• Exercise: Using Complex Types to Denormalize Writing, Configuring, and Running Apache
Data Spark Applications
• Writing a Spark Application
Module 9 • Building and running an application
Hive and Spark Integration • Application Deployment Mode
• Hive and Spark Integration • The Spark Application Web UI
• Exercise: Spark Integration with Hive • Configuring Application Properties

Module 10
RDD Overview
• RDD Overview
• RDD Data Sources
• Creating and Saving RDDs
• RDD Operations

2
Module 16 • ML model with Spark ML
Distributed Processing • Exercise: Implement Linear regression
• Review: Apache Spark on a Cluster • Exercise: Implement logistic regression
• RDD Partitions • Exercise: Implement Random Forest
• Example: Partitioning in Queries • Exercise: Implement k-means
• Stages and Tasks
• Job Execution Planning Module 20
• Example: Catalyst Execution Plan Apache Spark Streaming: Introduction to
• Example: RDD Execution Plan DStreams
• Apache Spark Streaming Overview
Module 17 • Example: Streaming Request Count
Distributed Processing Challenges • DStreams
• Shuffle • Developing Streaming Applications
• Skew
• Order Module 21
Apache Spark Streaming: Processing Multiple
Module 18 Batches
Distributed Data Persistence • Multi-Batch Operations
• DataFrame and Dataset Persistence • Time Slicing
• Persistence Storage Levels • State Operations
• Viewing Persisted RDDs • Sliding Window Operations
• Preview: Structured Streaming
Module 19
Machine Learning with Spark ML Module 22
• Common Apache Spark Use Cases Apache Spark Streaming: Data Sources
• Iterative Algorithms in Apache Spark: Machine • Streaming Data Source Overview
Learning, Graph Processing • Apache Flume and Apache Kafka Data Sources
• Introduction to MLlib- Various ML algorithms • Example: Using a Kafka Direct Data Source
supported by Mlib

DE Python
No ratings yet
DE Python
11 pages
B2. Introduction To Big Data With Spark and Hadoop - Coursera
No ratings yet
B2. Introduction To Big Data With Spark and Hadoop - Coursera
12 pages
Big Data Hadoop & Spark Curriculum
No ratings yet
Big Data Hadoop & Spark Curriculum
10 pages
Apache Spark Tutorial
100% (4)
Apache Spark Tutorial
36 pages
Hadoop Architect Brochure
No ratings yet
Hadoop Architect Brochure
13 pages
IIT Kharagpur Data Science PDF
No ratings yet
IIT Kharagpur Data Science PDF
22 pages
Big Data Hadoop Certification Training: About Intellipaat
No ratings yet
Big Data Hadoop Certification Training: About Intellipaat
13 pages
Skyess Spark Syllabus
No ratings yet
Skyess Spark Syllabus
12 pages
Apache Spark & Scala Course Guide
No ratings yet
Apache Spark & Scala Course Guide
3 pages
PySpark Training
No ratings yet
PySpark Training
3 pages
Bigdata Hadoop Spark - Python
No ratings yet
Bigdata Hadoop Spark - Python
8 pages
Apache Spark for Developers
No ratings yet
Apache Spark for Developers
8 pages
Big Data - Road Map
No ratings yet
Big Data - Road Map
22 pages
Learn Well Technocraft: Hadoop/Big Data Syllabus
100% (1)
Learn Well Technocraft: Hadoop/Big Data Syllabus
12 pages
Big Data Hadoop & Spark Course
No ratings yet
Big Data Hadoop & Spark Course
30 pages
1 PDFsam Apache Spark Tutorial
No ratings yet
1 PDFsam Apache Spark Tutorial
7 pages
Hadoop Course Circulum
No ratings yet
Hadoop Course Circulum
2 pages
Int 421
No ratings yet
Int 421
2 pages
Course Pack BDA
No ratings yet
Course Pack BDA
6 pages
Data Bots Training Courses
100% (1)
Data Bots Training Courses
36 pages
Big Data Certification for IT Pros
No ratings yet
Big Data Certification for IT Pros
22 pages
Bigdata
No ratings yet
Bigdata
3 pages
Course Outline Hadoop and Spark For Big Data and Data Science PDF
No ratings yet
Course Outline Hadoop and Spark For Big Data and Data Science PDF
4 pages
Big Data Mastery with Hadoop & Spark
100% (1)
Big Data Mastery with Hadoop & Spark
4 pages
20IT503 - Big Data Analytics - Unit4
No ratings yet
20IT503 - Big Data Analytics - Unit4
73 pages
Big Data - Hadoop & Spark Training Syllabus: Tamilboomi
No ratings yet
Big Data - Hadoop & Spark Training Syllabus: Tamilboomi
4 pages
Big Data Analytics 0th Lecture
No ratings yet
Big Data Analytics 0th Lecture
19 pages
Venu Data Engineering Training in Hyderabad 1
No ratings yet
Venu Data Engineering Training in Hyderabad 1
8 pages
Big Data Training in Chennai - Big Data Course in Chennai
No ratings yet
Big Data Training in Chennai - Big Data Course in Chennai
1 page
Big Data With Hadoop and Spark - 2023-25
No ratings yet
Big Data With Hadoop and Spark - 2023-25
4 pages
Apache Spark 2
No ratings yet
Apache Spark 2
4 pages
Unit 6-1
No ratings yet
Unit 6-1
128 pages
Spark Syllabus 1
No ratings yet
Spark Syllabus 1
3 pages
Big Data Analytics
No ratings yet
Big Data Analytics
2 pages
Big Data and Hadoop For Developers - Syllabus
No ratings yet
Big Data and Hadoop For Developers - Syllabus
6 pages
Annexure - I - Syllabus PG-DBDA Aug 16
No ratings yet
Annexure - I - Syllabus PG-DBDA Aug 16
4 pages
Bigdata Syllabus
No ratings yet
Bigdata Syllabus
3 pages
Unit - 4
No ratings yet
Unit - 4
18 pages
Introduction to Data Analysis with Spark
No ratings yet
Introduction to Data Analysis with Spark
51 pages
Apache Spark: In-Memory Data Processing
No ratings yet
Apache Spark: In-Memory Data Processing
187 pages
Spark Training - Java
No ratings yet
Spark Training - Java
8 pages
Big Data and Spark Developers
No ratings yet
Big Data and Spark Developers
5 pages
Big Data Hadoop & Spark Course Guide
No ratings yet
Big Data Hadoop & Spark Course Guide
29 pages
Data Analytics TOC
No ratings yet
Data Analytics TOC
6 pages
Apache Spark Tutorial
100% (1)
Apache Spark Tutorial
6 pages
Big Data Processing for Students
No ratings yet
Big Data Processing for Students
2 pages
Big Data Hadoop Architect
No ratings yet
Big Data Hadoop Architect
19 pages
Thesis Apache Spark
100% (2)
Thesis Apache Spark
4 pages
Big Data Hadoop - Course Curriculum - V1
No ratings yet
Big Data Hadoop - Course Curriculum - V1
7 pages
Pyspark Scala-Spark Syllabus
No ratings yet
Pyspark Scala-Spark Syllabus
23 pages
Apache Spark Engine
100% (1)
Apache Spark Engine
82 pages
Cse3002 Big Data m3 Detailed
No ratings yet
Cse3002 Big Data m3 Detailed
39 pages
Edureka Training - Data Engineer Masters Program
No ratings yet
Edureka Training - Data Engineer Masters Program
49 pages
Hadoop Development Download Syllabus PDF
No ratings yet
Hadoop Development Download Syllabus PDF
5 pages
Big Data Hadoop
No ratings yet
Big Data Hadoop
13 pages
BigData Spark Sparklyr
No ratings yet
BigData Spark Sparklyr
80 pages
Road Map 1741960074
No ratings yet
Road Map 1741960074
24 pages
Las Normas Del Insti
No ratings yet
Las Normas Del Insti
9 pages
Final Exam EE220 2023 A
No ratings yet
Final Exam EE220 2023 A
4 pages
NeurIPS 2024 Agentpoison Red Teaming LLM Agents Via Poisoning Memory or Knowledge Bases Paper Conference
No ratings yet
NeurIPS 2024 Agentpoison Red Teaming LLM Agents Via Poisoning Memory or Knowledge Bases Paper Conference
29 pages
Bedok View Secondary School: Common Test II 2013
No ratings yet
Bedok View Secondary School: Common Test II 2013
4 pages
Rizal's Journey and Noli's Impact
No ratings yet
Rizal's Journey and Noli's Impact
8 pages
Frequency Dividers: Device Modelling Mini-Project
No ratings yet
Frequency Dividers: Device Modelling Mini-Project
24 pages
Legal Implications of All-Caps Names
No ratings yet
Legal Implications of All-Caps Names
23 pages
HPE AI-ML Accelerated With HPE Proliant
No ratings yet
HPE AI-ML Accelerated With HPE Proliant
33 pages
SAA Citation Style Guide (2021)
No ratings yet
SAA Citation Style Guide (2021)
16 pages
Divine Liturgy: Living the Eucharistic Life
No ratings yet
Divine Liturgy: Living the Eucharistic Life
32 pages
CIT 1101 Introduction To Programming Odinary Exam Print
No ratings yet
CIT 1101 Introduction To Programming Odinary Exam Print
4 pages
G1 Customs of The Tagalogs Bsa I C
100% (1)
G1 Customs of The Tagalogs Bsa I C
16 pages
General Architecture of Text Mining Systems
No ratings yet
General Architecture of Text Mining Systems
6 pages
The Principle of Mashiach and The Messianic Age
100% (4)
The Principle of Mashiach and The Messianic Age
110 pages
Are Comprehension Questions Good Reading Exercises
100% (1)
Are Comprehension Questions Good Reading Exercises
16 pages
Bad Debt Write-Off Guide
No ratings yet
Bad Debt Write-Off Guide
8 pages
Irregular Verbs
No ratings yet
Irregular Verbs
6 pages
Plato Reading
No ratings yet
Plato Reading
10 pages
Keihlasan Dan Arti Pentingnya Dalam Mengelola Pendidikan
No ratings yet
Keihlasan Dan Arti Pentingnya Dalam Mengelola Pendidikan
18 pages
8255 and Input Output Interfacing - 6
No ratings yet
8255 and Input Output Interfacing - 6
27 pages
Kindergarten Shape Attributes
No ratings yet
Kindergarten Shape Attributes
3 pages
English Test (26 August) (Narration)
No ratings yet
English Test (26 August) (Narration)
16 pages
Tarea Semana 11 PDF
No ratings yet
Tarea Semana 11 PDF
3 pages
DLL-Math 6
No ratings yet
DLL-Math 6
5 pages
Data Exfiltration
No ratings yet
Data Exfiltration
40 pages
Plan Lectie A 4a
No ratings yet
Plan Lectie A 4a
3 pages
MT Solution 28feb25
No ratings yet
MT Solution 28feb25
7 pages
Lesson Plan in Grade 11 Cookery TVL
100% (10)
Lesson Plan in Grade 11 Cookery TVL
2 pages
Math G6 Learning Outcomes
No ratings yet
Math G6 Learning Outcomes
10 pages
English
No ratings yet
English
21 pages

Developer Training For Apache Spark and Hadoop

Uploaded by

Developer Training For Apache Spark and Hadoop

Uploaded by

Developer Training for Apache Spark and Hadoop

Course Duration: 64 Hours

You might also like