0% found this document useful (0 votes)

373 views9 pages

SQL To Pyspark Conversion

The document provides SQL and equivalent PySpark code snippets for common data analysis concepts and operations. It includes SQL and PySpark equivalents for selecting, filtering, aggregating, joining, grouping data as well as working with data types and creating tables.

Uploaded by

yikogoy117

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

373 views9 pages

SQL To Pyspark Conversion

Uploaded by

yikogoy117

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

SQL & PYSPARK EQUIVALENT

Concept SQL PySpark

SELECT column(s) FROM table df.select("column(s)")

SELECT
SELECT * FROM table df.select("*")

DISTINCT SELECT DISTINCT column(s) FROM table df.select("column(s)").distinct()

SELECT column(s) FROM table WHERE df.filter(condition)\

WHERE
condition .select("column(s)")

SELECT column(s) FROM table ORDER BY df.sort("column(s)")\

ORDER BY
column(s) .select("column(s)")

LIMIT SELECT column(s) FROM table LIMIT n df.limit(n).select("column(s)")

SELECT COUNT(*) FROM table

COUNT df.count()
Concept SQL PySpark

from pyspark.sql.functions import sum;

SUM SELECT SUM(column) FROM table
df.agg(sum("column"))

from pyspark.sql.functions import avg;

AVG SELECT AVG(column) FROM table
df.agg(avg("column"))

SELECT MAX(column) FROM

table from pyspark.sql.functions import max;
MAX / MIN df.agg(max("column"))

String from pyspark.sql.functions import length;

SELECT LEN(string) FROM table
Length df.select(length(col("string")))

Convert to SELECT UPPER(string) from pyspark.sql.functions import upper;

Uppercase FROM table df.select(upper(col("string")))

Convert to SELECT LOWER(string) from pyspark.sql.functions import lower;

Lowercase FROM table df.select(lower(col("string")))

https://www.linkedin.com/in/girish-gowda-8a58601b9/
Concept SQL PySpark

Concatenate SELECT CONCAT(string1, from pyspark.sql.functions import concat;

Strings string2) FROM table df.select(concat(col("string1"),
col("string2")))

SELECT TRIM(string) from pyspark.sql.functions import trim;

Trim String
FROM table df.select(trim(col("string")))

SELECT SUBSTRING(string, from pyspark.sql.functions import substring;

Substring
start, length) FROM table df.select(substring(col("string"),start, length))

CURDATE,
from pyspark.sql.functions import current_date;
NOW, SELECT CURDATE() FROM table
df.select(current_date())
CURTIME

CAST, SELECT CAST(column AS

df.select(col("column").cast("datatype"))
CONVERT datatype) FROM table

from pyspark.sql.functions import when,

SELECT IF(condition, value1, otherwise;
IF
value2) FROM table df.select(when(condition,value1)\
.otherwise(value2))
Concept SQL PySpark

SELECT COALESCE(column1, from pyspark.sql.functions import coalesce;

COALESCE column2, column3) FROM df.select(coalesce("column1","column2",
table "column3"))

JOIN table1 ON table1.column

JOIN df1.join(df2, "column")
= table2.column

GROUP BY GROUP BY column(s) df.groupBy("column(s)")

PIVOT (agg_function(column) df.groupBy("pivot_column")\

PIVOT
FOR pivot_column IN (values)) .pivot("column").agg(agg_function)

SELECT column FROM table

Logical df.filter((col("column1") == value)
WHERE column1 = value
Operators & (col("column2") > value))
AND column2 > value

IS NULL, IS SELECT column FROM table df.filter(col("column").isNull())\

NOT NULL WHERE column IS NULL .select("column")
Concept SQL PySpark

SELECT column FROM table

LIKE df.filter(col("column").like("value%"))
WHERE column LIKE 'value%'

SELECT column FROM table df.filter((col("column") >= value1)

BETWEEN WHERE column & (col("column") <= value2))\
BETWEEN value1 AND value2 .select("column")

SELECT column FROM table1

UNION, df1.union(df2).select("column") or
UNION SELECT column FROM
UNION ALL df1.unionAll(df2).select("column")
table2

from pyspark.sql import Window; from

RANK, SELECT column, RANK() OVER pyspark.sql.functions import rank;
DENSERANK, (ORDER BY column) as df.select("column",
ROWNUMBER rank FROM table rank().over(Window.orderBy("column"))\
.alias("rank"))

WITH cte1 AS (SELECT * FROM df.createOrReplaceTempView("cte1");

table1), df_cte1 = spark.sql("SELECT * FROM cte1
CTE SELECT * FROM cte1 WHERE WHERE condition"); df_cte1.show() or
condition df.filter(condition1).filter(condition2)

https://www.linkedin.com/in/girish-gowda-8a58601b9/
DDL operations

Concept SQL PySpark

INT: for integer values In PySpark, the data types are similar, but are
BIGINT: for large integer values represented differently.
FLOAT: for floating point values
DOUBLE: for double precision floating
point values IntegerType: for integer values
CHAR: for fixed-length character LongType: for long integer values
strings FloatType: for floating point values
Datatypes VARCHAR: for variable-length DoubleType: for double precision floating
character strings DATE: point values
for date values StringType: for character strings
TIMESTAMP: for timestamp values TimestampType: for timestamp values
DateType: for date values

CREATE TABLE table_name

Create df.write.format("parquet")\
(column_name data_type
Table .saveAsTable("table_name")
constraint);

https://www.linkedin.com/in/girish-gowda-8a58601b9/
Concept SQL PySpark

from pyspark.sql.types import StructType,

StructField, IntegerType, StringType, DecimalType
CREATE TABLE table_name(
Create schema = StructType([
column_name data_type
StructField("id", IntegerType(), True),
Table with [constraints],
StructField("name", StringType(), False),
Columns column_name data_type StructField("age", IntegerType(), True),
definition [constraints], StructField("salary", DecimalType(10,2), True)])
...);
df = spark.createDataFrame([], schema)

CREATE TABLE table_name(

column_name data_type In PySpark or HiveQL, primary key constraints are not
PRIMARY KEY, enforced directly. However, you can use the
Create ...); dropDuplicates() method to remove duplicate rows
Table with based on one or more columns.
Primary Key If table already exists:
ALTER TABLE table_name
ADD PRIMARY KEY df = df.dropDuplicates(["id"])
(column_name);
not natively supported by the DataFrame API, but
there are several ways to achieve the same
Create CREATE TABLE table_name( id functionality.
Table with INT AUTO_INCREMENT, name
Auto VARCHAR(255), from pyspark.sql.functions import
Increment PRIMARY KEY (id)); monotonically_increasing_id df =
constraint df.withColumn("id",
monotonically_increasing_id()+start_value)

https://www.linkedin.com/in/girish-gowda-8a58601b9

Concept SQL PySpark

Adding a from pyspark.sql.functions import lit

ALTER TABLE table_name
column df=df.withColumn("column_name",
ADD column_name datatype;
lit(None).cast("datatype"))

Modifying a
ALTER TABLE table_name df=df.withColumn("column_name",
column
MODIFY column_name datatype; df["column_name"].cast("datatype"))

Dropping a
ALTER TABLE table_name
column df = df.drop("column_name")
DROP COLUMN column_name;
ALTER TABLE table_name RENAME
COLUMN old_column_name TO
new_column_name;
Rename a
column In mysql,
ALTER TABLE employees CHANGE
COLUMN first_name
first_name_new VARCHAR(255);
df =df.withColumnRenamed("existing_column",
"new_column")

https://www.linkedin.com/in/girish-gowda-8a58601b9/

Girish Gowda | LinkedIn

PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark DataFrame Merging Guide
No ratings yet
PySpark DataFrame Merging Guide
42 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Pyspark Questions & Scenario Based
No ratings yet
Pyspark Questions & Scenario Based
25 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Azure Databricks Interview Question
No ratings yet
Azure Databricks Interview Question
12 pages
Pyspark Interview Questions: Click Here
0% (1)
Pyspark Interview Questions: Click Here
35 pages
Pyspark Interview Code
100% (3)
Pyspark Interview Code
197 pages
Spark SQL
No ratings yet
Spark SQL
24 pages
20 PySpark Problems
No ratings yet
20 PySpark Problems
22 pages
Spark Interview Q&A
No ratings yet
Spark Interview Q&A
31 pages
Delta Table and Pyspark Interview Questions
100% (1)
Delta Table and Pyspark Interview Questions
14 pages
Pyspark Hands On
No ratings yet
Pyspark Hands On
189 pages
Spark SQL & DataFrames Guide 2.2.0
No ratings yet
Spark SQL & DataFrames Guide 2.2.0
35 pages
Final Print Py Spark
No ratings yet
Final Print Py Spark
133 pages
PySpark Tutorial For Beginners - Python Examples - Spark by (Examples)
No ratings yet
PySpark Tutorial For Beginners - Python Examples - Spark by (Examples)
19 pages
PySpark Data Cleaning Guide
0% (1)
PySpark Data Cleaning Guide
20 pages
Azure Data Factory Interview Questions
0% (1)
Azure Data Factory Interview Questions
14 pages
Spark Interview Questions 1713805760
No ratings yet
Spark Interview Questions 1713805760
40 pages
PySpark Transformations Tutorial
100% (1)
PySpark Transformations Tutorial
58 pages
My Pyspark Practice Notes
100% (1)
My Pyspark Practice Notes
63 pages
Databricks Dbutils
100% (1)
Databricks Dbutils
34 pages
SCD Type-1,2 Implementation in Pyspark
No ratings yet
SCD Type-1,2 Implementation in Pyspark
6 pages
Spark Optimization PDF
100% (1)
Spark Optimization PDF
14 pages
Performance Tuning Spark UI
No ratings yet
Performance Tuning Spark UI
37 pages
PySpark Reference Guide
No ratings yet
PySpark Reference Guide
2 pages
Azure Data Factory: Key Features & Differences
No ratings yet
Azure Data Factory: Key Features & Differences
12 pages
Databricks Sparkconfig 1669383836
No ratings yet
Databricks Sparkconfig 1669383836
1 page
Pyspark - SQL Module
No ratings yet
Pyspark - SQL Module
132 pages
Databricks Performance Tuning
No ratings yet
Databricks Performance Tuning
54 pages
Data Cleaning With PySpark
No ratings yet
Data Cleaning With PySpark
21 pages
De Mod 4 Build Data Pipelines With Delta Live Tables
No ratings yet
De Mod 4 Build Data Pipelines With Delta Live Tables
52 pages
Data Engineering With Databricks (Verma, Sumit) (Z-Library)
No ratings yet
Data Engineering With Databricks (Verma, Sumit) (Z-Library)
219 pages
Databricks Course Curriculum
No ratings yet
Databricks Course Curriculum
2 pages
PySpark ELT Cheat Sheet Guide
No ratings yet
PySpark ELT Cheat Sheet Guide
8 pages
Window Function in Pyspark
100% (1)
Window Function in Pyspark
8 pages
Data Engineer Interview Prep
100% (1)
Data Engineer Interview Prep
16 pages
ADF Copy Data
No ratings yet
ADF Copy Data
85 pages
Azure Data Engineering for Pharma
100% (1)
Azure Data Engineering for Pharma
5 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
Azure Data Engineer Interview Questions
No ratings yet
Azure Data Engineer Interview Questions
35 pages
Azure Comapny Wise Question
No ratings yet
Azure Comapny Wise Question
68 pages
Spark SQL Optimization
No ratings yet
Spark SQL Optimization
29 pages
PySpark Interview Questions Guide
100% (3)
PySpark Interview Questions Guide
126 pages
PySpark Big Data Analytics Guide
No ratings yet
PySpark Big Data Analytics Guide
7 pages
Snowflake External Tables Guide
No ratings yet
Snowflake External Tables Guide
105 pages
Azure Data Engineer Content
No ratings yet
Azure Data Engineer Content
6 pages
Pyspark Vs Spark SQL
No ratings yet
Pyspark Vs Spark SQL
6 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
Databricks Spark Knowledge Base
100% (1)
Databricks Spark Knowledge Base
22 pages
Spark Interview QUestions
No ratings yet
Spark Interview QUestions
200 pages
07 Spark Dataframes
100% (1)
07 Spark Dataframes
45 pages
150+ Python Interview Questions
No ratings yet
150+ Python Interview Questions
76 pages
Cleaning Data With PySpark Chapter4
No ratings yet
Cleaning Data With PySpark Chapter4
23 pages
Pyspark PDF
100% (1)
Pyspark PDF
406 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
SQL Vs Pyspark-1
No ratings yet
SQL Vs Pyspark-1
9 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
SQL & Pyspark
No ratings yet
SQL & Pyspark
9 pages
Argument Premise PPT 2021
No ratings yet
Argument Premise PPT 2021
16 pages
Math in Modern World Course Guide
No ratings yet
Math in Modern World Course Guide
190 pages
Compiler Parsing Exercises
No ratings yet
Compiler Parsing Exercises
22 pages
Logic Rules for CS Students
No ratings yet
Logic Rules for CS Students
16 pages
ch5ـcontextـfreeـgrammars
No ratings yet
ch5ـcontextـfreeـgrammars
49 pages
1 LectureNotes PDF
No ratings yet
1 LectureNotes PDF
185 pages
Formal Languages and Automata Theory: Designed by K.Geeta Asst - Professor Dept. of CSE RGUKT Basar
No ratings yet
Formal Languages and Automata Theory: Designed by K.Geeta Asst - Professor Dept. of CSE RGUKT Basar
33 pages
Teks Untuk Tugas
No ratings yet
Teks Untuk Tugas
3 pages
Unit-3 Cs6660-Compiler Design
No ratings yet
Unit-3 Cs6660-Compiler Design
66 pages
Ai - 2
No ratings yet
Ai - 2
48 pages
CS304 Compiler Design
No ratings yet
CS304 Compiler Design
2 pages
Compiler-Group Assignment
No ratings yet
Compiler-Group Assignment
15 pages
Discrete Mathematics MCQ'S: Implication and Double Implications and Types of Statements
No ratings yet
Discrete Mathematics MCQ'S: Implication and Double Implications and Types of Statements
41 pages
Marcus, 1962 - Modalities and Intensional Languages PDF
No ratings yet
Marcus, 1962 - Modalities and Intensional Languages PDF
20 pages
Chapter 3 of LPL Textbook PDF
No ratings yet
Chapter 3 of LPL Textbook PDF
26 pages
Database Management System 14: Relational Calculus
No ratings yet
Database Management System 14: Relational Calculus
13 pages
MCQ On TAFLas Per AKTU Syllabus (Unit 1 and 2)
No ratings yet
MCQ On TAFLas Per AKTU Syllabus (Unit 1 and 2)
123 pages
13-Pumping Lemma For Regular Languages-02!02!2023
No ratings yet
13-Pumping Lemma For Regular Languages-02!02!2023
107 pages
University of Mumbai Dec 2018 TCS Paper Solved
No ratings yet
University of Mumbai Dec 2018 TCS Paper Solved
18 pages
Complier Design Gate Question
No ratings yet
Complier Design Gate Question
22 pages
Compiler Design Questions
No ratings yet
Compiler Design Questions
3 pages
Cod Lab Assignment
No ratings yet
Cod Lab Assignment
3 pages
Resolution Nptel
No ratings yet
Resolution Nptel
19 pages
Session 3 - Mathematics in The Modern World-Nature of Logic
No ratings yet
Session 3 - Mathematics in The Modern World-Nature of Logic
50 pages
Appendix F. CYK Algorithm
No ratings yet
Appendix F. CYK Algorithm
7 pages
Unit-Iv: Pushdown Automata (PDA)
No ratings yet
Unit-Iv: Pushdown Automata (PDA)
9 pages
Programming Assignment Guide
No ratings yet
Programming Assignment Guide
4 pages
AI Knowledge Representation Guide
No ratings yet
AI Knowledge Representation Guide
42 pages
Categorial Proposition LP
No ratings yet
Categorial Proposition LP
9 pages
TC Notes
No ratings yet
TC Notes
108 pages

SQL To Pyspark Conversion

Uploaded by

SQL To Pyspark Conversion

Uploaded by

SQL & PYSPARK EQUIVALENT

Concept SQL PySpark

SELECT column(s) FROM table df.select("column(s)")

DISTINCT SELECT DISTINCT column(s) FROM table df.select("column(s)").distinct()

SELECT column(s) FROM table WHERE df.filter(condition)\

SELECT column(s) FROM table ORDER BY df.sort("column(s)")\

LIMIT SELECT column(s) FROM table LIMIT n df.limit(n).select("column(s)")

SELECT COUNT(*) FROM table

from pyspark.sql.functions import sum;

from pyspark.sql.functions import avg;

SELECT MAX(column) FROM

String from pyspark.sql.functions import length;

Convert to SELECT UPPER(string) from pyspark.sql.functions import upper;

Convert to SELECT LOWER(string) from pyspark.sql.functions import lower;

Concatenate SELECT CONCAT(string1, from pyspark.sql.functions import concat;

SELECT TRIM(string) from pyspark.sql.functions import trim;

SELECT SUBSTRING(string, from pyspark.sql.functions import substring;

CAST, SELECT CAST(column AS

from pyspark.sql.functions import when,

SELECT COALESCE(column1, from pyspark.sql.functions import coalesce;

JOIN table1 ON table1.column

GROUP BY GROUP BY column(s) df.groupBy("column(s)")

PIVOT (agg_function(column) df.groupBy("pivot_column")\

SELECT column FROM table

IS NULL, IS SELECT column FROM table df.filter(col("column").isNull())\

SELECT column FROM table

SELECT column FROM table df.filter((col("column") >= value1)

SELECT column FROM table1

from pyspark.sql import Window; from

WITH cte1 AS (SELECT * FROM df.createOrReplaceTempView("cte1");

Concept SQL PySpark

CREATE TABLE table_name

from pyspark.sql.types import StructType,

CREATE TABLE table_name(

Concept SQL PySpark

Adding a from pyspark.sql.functions import lit

Girish Gowda | LinkedIn

You might also like