0% found this document useful (0 votes)

63 views80 pages

SQL and PySpark

Uploaded by

Woody Woodpecker

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

63 views80 pages

SQL and PySpark

Uploaded by

Woody Woodpecker

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 80

SQL and PySpark

Select Columns

SQL PySpark

SELECT column1, column2 FROM table; df.select("column1", "column2")

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Filter Rows

SQL PySpark

SELECT * FROM table WHERE condition; df.filter("condition")

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Aggregate Functions

SQL PySpark

SELECT AVG(column) FROM table; df.select(F.avg("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By

SQL PySpark

SELECT column, COUNT(*) FROM table df.groupBy("column").count()

GROUP BY column;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Order By

SQL PySpark

SELECT * FROM table ORDER BY column df.orderBy("column", ascending=True)

ASC;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Join

SQL PySpark

SELECT * FROM table1 JOIN table2 ON df1.join(df2, df1.id == df2.id)

table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Union

SQL PySpark

SELECT * FROM table1 UNION SELECT * df1.union(df2)

FROM table2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Limit

SQL PySpark

SELECT * FROM table LIMIT 100; df.limit(100)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Distinct Values

SQL PySpark

SELECT DISTINCT column FROM table; df.select("column").distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Adding a New Column

SQL PySpark

SELECT *, (column1 + column2) AS df.withColumn("new_column", F.col("column1") +

new_column FROM table; F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Column Alias

SQL PySpark

SELECT column AS alias_name FROM table; df.select(F.col("column").alias("alias_name"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Filtering on Multiple Conditions

SQL PySpark

SELECT * FROM table WHERE condition1 df.filter((F.col("condition1")) &

AND condition2; (F.col("condition2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Subquery

SQL PySpark

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("subquery")

WHERE condition) AS subquery;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Between

SQL PySpark

SELECT * FROM table WHERE column df.filter(F.col("column").between("val1", "val2"))

BETWEEN val1 AND val2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Like

SQL PySpark

SELECT * FROM table WHERE column LIKE df.filter(F.col("column").like("pattern"))

pattern;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Case When

SQL PySpark

SELECT CASE WHEN condition THEN result1 df.select(F.when(F.col("condition"),

ELSE result2 END FROM table; "result1").otherwise("result2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Cast Data Type

SQL PySpark

SELECT CAST(column AS datatype) FROM df.select(F.col("column").cast("datatype"))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Count Distinct

SQL PySpark

SELECT COUNT(DISTINCT column) FROM df.select(F.countDistinct("column"))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Substring

SQL PySpark

SELECT SUBSTRING(column, start, length) df.select(F.substring("column", start, length))

FROM table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Concatenate Columns

SQL PySpark

SELECT CONCAT(column1, column2) AS df.withColumn("new_column",

new_column FROM table; F.concat(F.col("column1"), F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Average Over Partition

SQL PySpark

SELECT AVG(column) OVER (PARTITION BY df.withColumn("avg",

column2) FROM table; F.avg("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Sum Over Partition

SQL PySpark

SELECT SUM(column) OVER (PARTITION BY df.withColumn("sum",

column2) FROM table; F.sum("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Lead Function

SQL PySpark

SELECT LEAD(column, 1) OVER (ORDER BY df.withColumn("lead", F.lead("column",

column2) FROM table; 1).over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Lag Function

SQL PySpark

SELECT LAG(column, 1) OVER (ORDER BY df.withColumn("lag", F.lag("column",

column2) FROM table; 1).over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Row Count

SQL PySpark

SELECT COUNT(*) FROM table; df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Drop Column

SQL PySpark

ALTER TABLE table DROP COLUMN column; df.drop("column")

(Not directly in SELECT)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Rename Column

SQL PySpark

ALTER TABLE table RENAME COLUMN df.withColumnRenamed("column1", "column2")

column1 TO column2; (Not directly in
SELECT)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Change Column Type

SQL PySpark

ALTER TABLE table ALTER COLUMN column df.withColumn("column",

TYPE new_type; (Not directly in SELECT) df["column"].cast("new_type"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Creating a Table from Select

SQL PySpark

CREATE TABLE new_table AS SELECT * (df.write.format("parquet").saveAsTable("new_ta

FROM table; ble"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Inserting Selected Data into Table

SQL PySpark

INSERT INTO table2 SELECT * FROM table1; (df1.write.insertInto("table2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Creating a Table with Specific Columns

SQL PySpark

CREATE TABLE new_table AS SELECT (df.select("column1",

column1, column2 FROM table; "column2").write.format("parquet").saveAsTable(
"new_table"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Aggregate with Alias

SQL PySpark

SELECT column, COUNT() AS count FROM df.groupBy("column").agg(F.count("").alias("coun

table GROUP BY column; t"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Nested Subquery

SQL PySpark

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("sub").filter("sub.condit

WHERE condition) sub WHERE ion2")
sub.condition2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Multiple Joins

SQL PySpark

SELECT * FROM table1 JOIN table2 ON df1.join(df2, "id").join(df3, "id")

table1.id = table2.id JOIN table3 ON
table1.id = table3.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Cross Join

SQL PySpark

SELECT * FROM table1 CROSS JOIN table2; df1.crossJoin(df2)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By Having Count Greater Than

SQL PySpark

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

GROUP BY column HAVING COUNT(*) > 1; > 1)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Alias for Table in Join

SQL PySpark

SELECT t1.* FROM table1 t1 JOIN table2 t2 df1.alias("t1").join(df2.alias("t2"), F.col("t1.id") ==

ON t1.id = t2.id; F.col("t2.id"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Selecting from Multiple Tables

SQL PySpark

SELECT t1.column, t2.column FROM table1 df1.join(df2, df1.id == df2.id).select(df1.column,

t1, table2 t2 WHERE t1.id = t2.id; df2.column)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Case When with Multiple Conditions

SQL PySpark

SELECT CASE WHEN condition THEN df.select(F.when(F.col("condition"),

'value1' WHEN condition2 THEN 'value2' "value1").when(F.col("condition2"),
ELSE 'value3' END FROM table; "value2").otherwise("value3"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extracting Date Parts

SQL PySpark

SELECT EXTRACT(YEAR FROM date_column) df.select(F.year(F.col("date_column")))

FROM table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Inequality Filtering

SQL PySpark

SELECT * FROM table WHERE column != df.filter(df.column != 'value')

'value';

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
In List

SQL PySpark

SELECT * FROM table WHERE column IN df.filter(df.column.isin('value1', 'value2'))

('value1', 'value2');

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Not In List

SQL PySpark

SELECT * FROM table WHERE column NOT df.filter(~df.column.isin('value1', 'value2'))

IN ('value1', 'value2');

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Null Values

SQL PySpark

SELECT * FROM table WHERE column IS df.filter(df.column.isNull())

NULL;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Not Null Values

SQL PySpark

SELECT * FROM table WHERE column IS df.filter(df.column.isNotNull())

NOT NULL;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Upper Case

SQL PySpark

SELECT UPPER(column) FROM table; df.select(F.upper(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Lower Case

SQL PySpark

SELECT LOWER(column) FROM table; df.select(F.lower(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Length

SQL PySpark

SELECT LENGTH(column) FROM table; df.select(F.length(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Trim String

SQL PySpark

SELECT TRIM(column) FROM table; df.select(F.trim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Left Trim String

SQL PySpark

SELECT LTRIM(column) FROM table; df.select(F.ltrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Right Trim String

SQL PySpark

SELECT RTRIM(column) FROM table; df.select(F.rtrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Replace

SQL PySpark

SELECT REPLACE(column, 'find', 'replace') df.select(F.regexp_replace(df.column, 'find',

FROM table; 'replace'))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Substring Index

SQL PySpark

SELECT SUBSTRING_INDEX(column, 'delim', df.select(F.expr("split(column, 'delim')[count-1]"))

count) FROM table; (Assuming 1-based index)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Date Difference

SQL PySpark

SELECT DATEDIFF('date1', 'date2') FROM df.select(F.datediff(F.col('date1'), F.col('date2')))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Add Months to Date

SQL PySpark

SELECT ADD_MONTHS(date_column, df.select(F.add_months(df.date_column,

num_months) FROM table; num_months))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
First Value in Group

SQL PySpark

SELECT FIRST_VALUE(column) OVER df.withColumn("first_val",

(PARTITION BY column2) FROM table; F.first("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Last Value in Group

SQL PySpark

SELECT LAST_VALUE(column) OVER df.withColumn("last_val",

(PARTITION BY column2) FROM table; F.last("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Row Number Over Partition

SQL PySpark

SELECT ROW_NUMBER() OVER (PARTITION df.withColumn("row_num",

BY column ORDER BY column) FROM table; F.row_number().over(Window.partitionBy("colum
n").orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Rank Over Partition

SQL PySpark

SELECT RANK() OVER (PARTITION BY df.withColumn("rank",

column ORDER BY column) FROM table; F.rank().over(Window.partitionBy("column").order
By("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Dense Rank Over Partition

SQL PySpark

SELECT DENSE_RANK() OVER (PARTITION df.withColumn("dense_rank",

BY column ORDER BY column) FROM table; F.dense_rank().over(Window.partitionBy("column"
).orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Count Rows

SQL PySpark

SELECT COUNT(*) FROM table; df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Mathematical Operations

SQL PySpark

SELECT column1 + column2 FROM table; df.select(F.col("column1") + F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Concatenation

SQL PySpark

SELECT column1 | column2 AS new_column df.withColumn("new_column", F.concat_ws("|",

FROM table; F.col("column1"), F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Find Minimum Value

SQL PySpark

SELECT MIN(column) FROM table; df.select(F.min("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Find Maximum Value

SQL PySpark

SELECT MAX(column) FROM table; df.select(F.max("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Removing Duplicates

SQL PySpark

SELECT DISTINCT * FROM table; df.distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Left Join

SQL PySpark

SELECT * FROM table1 LEFT JOIN table2 ON df1.join(df2, df1.id == df2.id, "left")
table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Right Join

SQL PySpark

SELECT * FROM table1 RIGHT JOIN table2 df1.join(df2, df1.id == df2.id, "right")
ON table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Full Outer Join

SQL PySpark

SELECT * FROM table1 FULL OUTER JOIN df1.join(df2, df1.id == df2.id, "outer")
table2 ON table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By with Having

SQL PySpark

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

GROUP BY column HAVING COUNT(*) > 10; > 10)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Round Decimal Values

SQL PySpark

SELECT ROUND(column, 2) FROM table; df.select(F.round("column", 2))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Get Current Date

SQL PySpark

SELECT CURRENT_DATE(); df.select(F.current_date())

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Date Addition

SQL PySpark

SELECT DATE_ADD(date_column, 10) FROM df.select(F.date_add(F.col("date_column"), 10))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Date Subtraction

SQL PySpark

SELECT DATE_SUB(date_column, 10) FROM df.select(F.date_sub(F.col("date_column"), 10))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extract Year from Date

SQL PySpark

SELECT YEAR(date_column) FROM table; df.select(F.year(F.col("date_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extract Month from Date

SQL PySpark

SELECT MONTH(date_column) FROM table; df.select(F.month(F.col("date_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extract Day from Date

SQL PySpark

SELECT DAY(date_column) FROM table; df.select(F.dayofmonth(F.col("date_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Sorting Descending

SQL PySpark

SELECT * FROM table ORDER BY column df.orderBy(F.col("column").desc())

DESC;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By Multiple Columns

SQL PySpark

SELECT col1, col2, COUNT(*) FROM table df.groupBy("col1", "col2").count()

GROUP BY col1, col2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Conditional Column Update

SQL PySpark

UPDATE table SET column1 = CASE WHEN df.withColumn("column1",

condition THEN 'value1' ELSE 'value2' END; F.when(F.col("condition"),
"value1").otherwise("value2"))

Shwetank Singh
GritSetGrow - GSGLearn.com

SQL Subquery
100% (1)
SQL Subquery
57 pages
Detailed SQL Interview Questions
No ratings yet
Detailed SQL Interview Questions
4 pages
Data Engineer Interview Prep
No ratings yet
Data Engineer Interview Prep
27 pages
Dimensional Modeling
No ratings yet
Dimensional Modeling
52 pages
Spark SQL Built in Functions List 1666128345
No ratings yet
Spark SQL Built in Functions List 1666128345
143 pages
Day 10 1729086189
No ratings yet
Day 10 1729086189
14 pages
Ade 1737191501
No ratings yet
Ade 1737191501
29 pages
SQL Cheatsheet - Shwetank Singh
No ratings yet
SQL Cheatsheet - Shwetank Singh
44 pages
Tech Mahindra Data Analyst Interview Questions
No ratings yet
Tech Mahindra Data Analyst Interview Questions
11 pages
Best2 Toppers SQL-interview-Question
100% (1)
Best2 Toppers SQL-interview-Question
47 pages
SQL Basics for Beginners
No ratings yet
SQL Basics for Beginners
4 pages
Interview Questions
No ratings yet
Interview Questions
2 pages
All Snowflake Details Document
No ratings yet
All Snowflake Details Document
105 pages
Day 89
No ratings yet
Day 89
9 pages
Questions (SQL) : Saved To The Database. DCL
No ratings yet
Questions (SQL) : Saved To The Database. DCL
15 pages
Manish SQL Notes
100% (1)
Manish SQL Notes
82 pages
SQL Interview Prep Guide
No ratings yet
SQL Interview Prep Guide
19 pages
Date Function
No ratings yet
Date Function
8 pages
Lecture 7 - Using Subqueries To Solve Queries
No ratings yet
Lecture 7 - Using Subqueries To Solve Queries
19 pages
Spark A To Z
No ratings yet
Spark A To Z
63 pages
Data Engineering 101 - Databricks Q&As
No ratings yet
Data Engineering 101 - Databricks Q&As
39 pages
Unix Commands Cheat Sheet
No ratings yet
Unix Commands Cheat Sheet
12 pages
Azure Analytics Interview Answers Complete
No ratings yet
Azure Analytics Interview Answers Complete
5 pages
Dax 1
No ratings yet
Dax 1
27 pages
Leetcode SQL Interview Questions & Solutions
100% (1)
Leetcode SQL Interview Questions & Solutions
34 pages
Oracle Analytic Functions Guide
100% (1)
Oracle Analytic Functions Guide
3 pages
SQL Basics for Beginners
No ratings yet
SQL Basics for Beginners
49 pages
SQL Case When Statement
100% (1)
SQL Case When Statement
10 pages
SQL Interview Questions
100% (1)
SQL Interview Questions
10 pages
Power BI
No ratings yet
Power BI
47 pages
SQL Questions
No ratings yet
SQL Questions
13 pages
180+ SQL Interview Questions 2023
No ratings yet
180+ SQL Interview Questions 2023
76 pages
SQL Interview Prep Guide
No ratings yet
SQL Interview Prep Guide
67 pages
Power-Bi Interview Questions and Answers
No ratings yet
Power-Bi Interview Questions and Answers
11 pages
SQL Basics for Beginners
No ratings yet
SQL Basics for Beginners
141 pages
Python Basics Shwetank Singh PDF
No ratings yet
Python Basics Shwetank Singh PDF
32 pages
Deloitte Pyspark Interview Questions For Data Engineer 2024 - by Ronit Malhotra - Jun, 2024 - Medium
No ratings yet
Deloitte Pyspark Interview Questions For Data Engineer 2024 - by Ronit Malhotra - Jun, 2024 - Medium
9 pages
Master Pyspark Zero To Hero 1738689679
No ratings yet
Master Pyspark Zero To Hero 1738689679
102 pages
Data Modelling Essentials
No ratings yet
Data Modelling Essentials
40 pages
Caching in Spark
No ratings yet
Caching in Spark
51 pages
SQL Cheatsheet
50% (2)
SQL Cheatsheet
1 page
List of SQL Commands: Background
No ratings yet
List of SQL Commands: Background
6 pages
Pyspark 4
No ratings yet
Pyspark 4
5 pages
Parallel Processing
No ratings yet
Parallel Processing
38 pages
SQL Fundamentals
No ratings yet
SQL Fundamentals
61 pages
PySpark Cheat 23
No ratings yet
PySpark Cheat 23
9 pages
Top Advanced SQL Interview Questions - ThinkETL
No ratings yet
Top Advanced SQL Interview Questions - ThinkETL
28 pages
Leetcode SQL QnA 1693149052
No ratings yet
Leetcode SQL QnA 1693149052
60 pages
Python Cheat Sheet For Beginners
No ratings yet
Python Cheat Sheet For Beginners
26 pages
ADB Lab Manual
No ratings yet
ADB Lab Manual
33 pages
Ebook Python Interview Guide
No ratings yet
Ebook Python Interview Guide
15 pages
SQL Queries Interview Questions - Oracle Analytical Functions Part 1
No ratings yet
SQL Queries Interview Questions - Oracle Analytical Functions Part 1
10 pages
Pyspark Cashing & Persisting - Complete Guide
No ratings yet
Pyspark Cashing & Persisting - Complete Guide
3 pages
Subqueries
No ratings yet
Subqueries
22 pages
30 Pyspark Coding Questions
No ratings yet
30 Pyspark Coding Questions
9 pages
Complex Queries in SQL
No ratings yet
Complex Queries in SQL
42 pages
110 SQL Query Interview Questions and Practice Exercises For Experienced and Fre
No ratings yet
110 SQL Query Interview Questions and Practice Exercises For Experienced and Fre
40 pages
SQL Commands and Functions Guide
100% (1)
SQL Commands and Functions Guide
3 pages
Data Engineering 101 - Day 24 - SQL Vs PySpark
No ratings yet
Data Engineering 101 - Day 24 - SQL Vs PySpark
82 pages
SQL & PySpark for Data Engineers
No ratings yet
SQL & PySpark for Data Engineers
58 pages
Power BI Interview Questions Part-1
No ratings yet
Power BI Interview Questions Part-1
53 pages
Data Structure and Algorithms
No ratings yet
Data Structure and Algorithms
110 pages
The Complete SQL HandBook
No ratings yet
The Complete SQL HandBook
89 pages
Celebrate 50 Years of Microsoft
No ratings yet
Celebrate 50 Years of Microsoft
28 pages
Crime Analysis in India (2001-2013)
No ratings yet
Crime Analysis in India (2001-2013)
23 pages
Excel Mastery With These Guided Projects
100% (2)
Excel Mastery With These Guided Projects
66 pages
Trade Tariffs in 3 Levels of Difficulty
No ratings yet
Trade Tariffs in 3 Levels of Difficulty
10 pages
ETL Best Practices
No ratings yet
ETL Best Practices
21 pages
Inventory Abbreviations
No ratings yet
Inventory Abbreviations
13 pages
Limpieza de Datos Con Pandas
100% (1)
Limpieza de Datos Con Pandas
19 pages
The Big Six - SQL
No ratings yet
The Big Six - SQL
23 pages
Data KPIs Cheat Sheet
100% (1)
Data KPIs Cheat Sheet
12 pages
8 Machine Learning Algorithms
No ratings yet
8 Machine Learning Algorithms
13 pages
Crack Your Databricks
100% (2)
Crack Your Databricks
103 pages
100 SQL Commands Notes
No ratings yet
100 SQL Commands Notes
8 pages
R Cookbook: Geospatial Data Processing
No ratings yet
R Cookbook: Geospatial Data Processing
79 pages
Online Shopping UML Examples
No ratings yet
Online Shopping UML Examples
11 pages
Presentation 2
No ratings yet
Presentation 2
18 pages
High Availability & Five Nines Guide
No ratings yet
High Availability & Five Nines Guide
32 pages
PCLinetester Tool
No ratings yet
PCLinetester Tool
12 pages
Amisys Certified IT Recruiter
No ratings yet
Amisys Certified IT Recruiter
10 pages
Outlook Features
No ratings yet
Outlook Features
1 page
Unit-Iii Software Design:: Elements of A System Architecture: Modules: Components: Interfaces: Data
No ratings yet
Unit-Iii Software Design:: Elements of A System Architecture: Modules: Components: Interfaces: Data
21 pages
Atkore Toolbar Installation Instructions
No ratings yet
Atkore Toolbar Installation Instructions
3 pages
PowerPoint Tips for Beginners
No ratings yet
PowerPoint Tips for Beginners
1 page
Merged OSEI 041P
No ratings yet
Merged OSEI 041P
13 pages
AFPX-COM5 Ethernet Communication Guide
No ratings yet
AFPX-COM5 Ethernet Communication Guide
34 pages
Hasee Pricelist On Januray
No ratings yet
Hasee Pricelist On Januray
3 pages
Troubleshooting Multimedia Hardware
No ratings yet
Troubleshooting Multimedia Hardware
26 pages
FREEBIESENTENCEBUILDERSHalloweenK2SPEDELL 1
No ratings yet
FREEBIESENTENCEBUILDERSHalloweenK2SPEDELL 1
14 pages
Manual e Comandos Rastreador CJ720 YunTrack
50% (2)
Manual e Comandos Rastreador CJ720 YunTrack
8 pages
Aau Cs Model Exit 2025
No ratings yet
Aau Cs Model Exit 2025
18 pages
Unit 1 - Microprocessor 8085
No ratings yet
Unit 1 - Microprocessor 8085
18 pages
Securityscorecard Aravo Transforming Insights Into Cyber Resilience
No ratings yet
Securityscorecard Aravo Transforming Insights Into Cyber Resilience
12 pages
PyCharm Reference Card
100% (1)
PyCharm Reference Card
2 pages
Computer Science Notes Operating Systems
No ratings yet
Computer Science Notes Operating Systems
55 pages
Free Digital Planner 2024 Editado-Compactado 2
No ratings yet
Free Digital Planner 2024 Editado-Compactado 2
224 pages
Omnitech: Elevate Your Restaurant
No ratings yet
Omnitech: Elevate Your Restaurant
2 pages
Abaqus 6.13-1 Installation Guide
No ratings yet
Abaqus 6.13-1 Installation Guide
4 pages
NVR4432-16P-4KS2 I Datasheet 20211026
No ratings yet
NVR4432-16P-4KS2 I Datasheet 20211026
3 pages
MAGNUM-HW-B User Manual 1v0 - v3
No ratings yet
MAGNUM-HW-B User Manual 1v0 - v3
26 pages
SOP Work Instruction Template
No ratings yet
SOP Work Instruction Template
4 pages
The 12 Elements of An Information Security Policy - Reader View
No ratings yet
The 12 Elements of An Information Security Policy - Reader View
7 pages
Merise - MCP, MLC, MLD - Engl
100% (1)
Merise - MCP, MLC, MLD - Engl
7 pages
Nikhilbharani Resume
No ratings yet
Nikhilbharani Resume
2 pages
NorDig-Unified Test Specification Ver 2.0
No ratings yet
NorDig-Unified Test Specification Ver 2.0
231 pages

SQL and PySpark

Uploaded by

SQL and PySpark

Uploaded by

SQL and PySpark

SELECT column1, column2 FROM table; df.select("column1", "column2")

SELECT * FROM table WHERE condition; df.filter("condition")

SELECT AVG(column) FROM table; df.select(F.avg("column"))

SELECT column, COUNT(*) FROM table df.groupBy("column").count()

SELECT * FROM table ORDER BY column df.orderBy("column", ascending=True)

SELECT * FROM table1 JOIN table2 ON df1.join(df2, df1.id == df2.id)

SELECT * FROM table1 UNION SELECT * df1.union(df2)

SELECT * FROM table LIMIT 100; df.limit(100)

SELECT DISTINCT column FROM table; df.select("column").distinct()

SELECT *, (column1 + column2) AS df.withColumn("new_column", F.col("column1") +

SELECT column AS alias_name FROM table; df.select(F.col("column").alias("alias_name"))

SELECT * FROM table WHERE condition1 df.filter((F.col("condition1")) &

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("subquery")

SELECT * FROM table WHERE column df.filter(F.col("column").between("val1", "val2"))

SELECT * FROM table WHERE column LIKE df.filter(F.col("column").like("pattern"))

SELECT CASE WHEN condition THEN result1 df.select(F.when(F.col("condition"),

SELECT CAST(column AS datatype) FROM df.select(F.col("column").cast("datatype"))

SELECT COUNT(DISTINCT column) FROM df.select(F.countDistinct("column"))

SELECT SUBSTRING(column, start, length) df.select(F.substring("column", start, length))

SELECT CONCAT(column1, column2) AS df.withColumn("new_column",

SELECT AVG(column) OVER (PARTITION BY df.withColumn("avg",

SELECT SUM(column) OVER (PARTITION BY df.withColumn("sum",

SELECT LEAD(column, 1) OVER (ORDER BY df.withColumn("lead", F.lead("column",

SELECT LAG(column, 1) OVER (ORDER BY df.withColumn("lag", F.lag("column",

SELECT COUNT(*) FROM table; df.count()

ALTER TABLE table DROP COLUMN column; df.drop("column")

ALTER TABLE table RENAME COLUMN df.withColumnRenamed("column1", "column2")

ALTER TABLE table ALTER COLUMN column df.withColumn("column",

CREATE TABLE new_table AS SELECT * (df.write.format("parquet").saveAsTable("new_ta

INSERT INTO table2 SELECT * FROM table1; (df1.write.insertInto("table2"))

CREATE TABLE new_table AS SELECT (df.select("column1",

SELECT column, COUNT(*) AS count FROM df.groupBy("column").agg(F.count("*").alias("coun

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("sub").filter("sub.condit

SELECT * FROM table1 JOIN table2 ON df1.join(df2, "id").join(df3, "id")

SELECT * FROM table1 CROSS JOIN table2; df1.crossJoin(df2)

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

SELECT t1.* FROM table1 t1 JOIN table2 t2 df1.alias("t1").join(df2.alias("t2"), F.col("t1.id") ==

SELECT t1.column, t2.column FROM table1 df1.join(df2, df1.id == df2.id).select(df1.column,

SELECT CASE WHEN condition THEN df.select(F.when(F.col("condition"),

SELECT EXTRACT(YEAR FROM date_column) df.select(F.year(F.col("date_column")))

SELECT * FROM table WHERE column != df.filter(df.column != 'value')

SELECT * FROM table WHERE column IN df.filter(df.column.isin('value1', 'value2'))

SELECT * FROM table WHERE column NOT df.filter(~df.column.isin('value1', 'value2'))

SELECT * FROM table WHERE column IS df.filter(df.column.isNull())

SELECT * FROM table WHERE column IS df.filter(df.column.isNotNull())

SELECT UPPER(column) FROM table; df.select(F.upper(df.column))

SELECT LOWER(column) FROM table; df.select(F.lower(df.column))

SELECT LENGTH(column) FROM table; df.select(F.length(df.column))

SELECT TRIM(column) FROM table; df.select(F.trim(df.column))

SELECT LTRIM(column) FROM table; df.select(F.ltrim(df.column))

SELECT RTRIM(column) FROM table; df.select(F.rtrim(df.column))

SELECT REPLACE(column, 'find', 'replace') df.select(F.regexp_replace(df.column, 'find',

SELECT SUBSTRING_INDEX(column, 'delim', df.select(F.expr("split(column, 'delim')[count-1]"))

SELECT DATEDIFF('date1', 'date2') FROM df.select(F.datediff(F.col('date1'), F.col('date2')))

SELECT ADD_MONTHS(date_column, df.select(F.add_months(df.date_column,

SELECT FIRST_VALUE(column) OVER df.withColumn("first_val",

SELECT LAST_VALUE(column) OVER df.withColumn("last_val",

SELECT ROW_NUMBER() OVER (PARTITION df.withColumn("row_num",

SELECT RANK() OVER (PARTITION BY df.withColumn("rank",

SELECT DENSE_RANK() OVER (PARTITION df.withColumn("dense_rank",

SELECT COUNT(*) FROM table; df.count()

SELECT column1 + column2 FROM table; df.select(F.col("column1") + F.col("column2"))

SELECT column1 | column2 AS new_column df.withColumn("new_column", F.concat_ws("|",

SELECT MIN(column) FROM table; df.select(F.min("column"))

SELECT MAX(column) FROM table; df.select(F.max("column"))

SELECT DISTINCT * FROM table; df.distinct()

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

SELECT ROUND(column, 2) FROM table; df.select(F.round("column", 2))

SELECT CURRENT_DATE(); df.select(F.current_date())

SELECT DATE_ADD(date_column, 10) FROM df.select(F.date_add(F.col("date_column"), 10))

SELECT DATE_SUB(date_column, 10) FROM df.select(F.date_sub(F.col("date_column"), 10))

SELECT YEAR(date_column) FROM table; df.select(F.year(F.col("date_column")))

SELECT MONTH(date_column) FROM table; df.select(F.month(F.col("date_column")))

SELECT DAY(date_column) FROM table; df.select(F.dayofmonth(F.col("date_column")))

SELECT * FROM table ORDER BY column df.orderBy(F.col("column").desc())

SELECT column, COUNT() AS count FROM df.groupBy("column").agg(F.count("").alias("coun