Error Log

The query resulted in an OutOfMemorySparkException because the size of the broadcasted table far exceeded the driver memory limit of 4GB. The document recommends disabling broadcasts for this query using spark.sql.autoBroadcastJoinThreshold=-1 to avoid this issue.

Uploaded by

Sumanta Dutta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

174 views2 pages

Error Log

Uploaded by

Sumanta Dutta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

org.apache.spark.sql.execution.

OutOfMemorySparkException: Size of broadcasted table

far exceeds estimates and exceeds limit of spark.driver.maxResultSize=4294967296.
You can disable broadcasts for this query using set
spark.sql.autoBroadcastJoinThreshold=-1
---------------------------------------------------------------------------
Py4JJavaError Traceback (most recent call last)
127 if submission:
128 submission.submit_status('In Progress', stage=stage)
--> 129 method()
130 submission.submit_status('Completed', stage=stage)
131 else:

/local_disk0/spark-d72471c9-08db-4f0d-b38c-8cb06cc4fc63/userFiles-87519a89-ae11-
4133-92d0-28f1df2ea516/scripts.zip/integrated_dim_product_unharmonised.py in
process()
37
38 output_df = transform(source_df, current_df, epos_product_lookup_df)
---> 39 load(output_df)
40
41 log_info(__name__, "process", "finish::success")

/local_disk0/spark-d72471c9-08db-4f0d-b38c-8cb06cc4fc63/userFiles-87519a89-ae11-
4133-92d0-28f1df2ea516/scripts.zip/integrated_dim_product_unharmonised.py in
load(df)
85
86 # don't write output unless df has values in
---> 87 if df.head(1):
88 df.write.mode('overwrite').parquet(output_path)
89

/databricks/spark/python/pyspark/sql/dataframe.py in head(self, n)
1744 rs = self.head(1)
1745 return rs[0] if rs else None
-> 1746 return self.take(n)
1747
1748 def first(self):

/databricks/spark/python/pyspark/sql/dataframe.py in take(self, num)

767 [Row(age=2, name='Alice'), Row(age=5, name='Bob')]
768 """
--> 769 return self.limit(num).collect()
770
771 def tail(self, num):

/databricks/spark/python/pyspark/sql/dataframe.py in collect(self)
713 # Default path used in OSS Spark / for non-DF-ACL clusters:
714 with SCCallSiteSync(self._sc) as css:
--> 715 sock_info = self._jdf.collectToPython()
716 return list(_load_from_socket(sock_info,
BatchedSerializer(PickleSerializer())))
717

/databricks/spark/python/lib/py4j-0.10.9.1-src.zip/py4j/java_gateway.py in
__call__(self, *args)
1302
1303 answer = self.gateway_client.send_command(command)
-> 1304 return_value = get_return_value(
1305 answer, self.gateway_client, self.target_id, self.name)
1306
/databricks/spark/python/pyspark/sql/utils.py in deco(*a, **kw)
115 def deco(*a, **kw):
116 try:
--> 117 return f(*a, **kw)
118 except py4j.protocol.Py4JJavaError as e:
119 converted = convert_exception(e.java_exception)

/databricks/spark/python/lib/py4j-0.10.9.1-src.zip/py4j/protocol.py in
get_return_value(answer, gateway_client, target_id, name)
324 value = OUTPUT_CONVERTER[type](answer[2:], gateway_client)
325 if answer[1] == REFERENCE_TYPE:
--> 326 raise Py4JJavaError(
327 "An error occurred while calling {0}{1}{2}.\n".
328 format(target_id, ".", name), value)

Py4JJavaError: An error occurred while calling o690.collectToPython.

: org.apache.spark.sql.execution.OutOfMemorySparkException: Size of broadcasted
table far exceeds estimates and exceeds limit of
spark.driver.maxResultSize=4294967296. You can disable broadcasts for this query
using set spark.sql.autoBroadcastJoinThreshold=-1
at org.apache.spark.sql.execution.exchange.BroadcastExchangeExec.
$anonfun$relationFuture$1(BroadcastExchangeExec.scala:202)
at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:968)
at org.apache.spark.sql.execution.SQLExecution$.
$anonfun$withThreadLocalCaptured$4(SQLExecution.scala:448)
at scala.util.DynamicVariable.withValue(DynamicVariable.scala:62)
at org.apache.spark.sql.execution.SQLExecution$.
$anonfun$withThreadLocalCaptured$3(SQLExecution.scala:448)
at scala.util.DynamicVariable.withValue(DynamicVariable.scala:62)
at org.apache.spark.sql.execution.SQLExecution$.
$anonfun$withThreadLocalCaptured$2(SQLExecution.scala:447)
at
org.apache.spark.sql.execution.SQLExecution$.withOptimisticTransaction(SQLExecution
.scala:465)
at org.apache.spark.sql.execution.SQLExecution$.
$anonfun$withThreadLocalCaptured$1(SQLExecution.scala:446)
at
java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1604)
at org.apache.spark.util.threads.SparkThreadLocalCapturingRunnable.
$anonfun$run$1(SparkThreadLocalForwardingThreadPoolExecutor.scala:104)
at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
at
org.apache.spark.util.threads.SparkThreadLocalCapturingHelper.runWithCaptured(Spark
ThreadLocalForwardingThreadPoolExecutor.scala:68)
at
org.apache.spark.util.threads.SparkThreadLocalCapturingHelper.runWithCaptured$
(SparkThreadLocalForwardingThreadPoolExecutor.scala:54)
at
org.apache.spark.util.threads.SparkThreadLocalCapturingRunnable.runWithCaptured(Spa
rkThreadLocalForwardingThreadPoolExecutor.scala:101)
at
org.apache.spark.util.threads.SparkThreadLocalCapturingRunnable.run(SparkThreadLoca
lForwardingThreadPoolExecutor.scala:104)
at
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:750)

Code
No ratings yet
Code
13 pages
Pyspark Gold Level Practice Resource - pdf-1
No ratings yet
Pyspark Gold Level Practice Resource - pdf-1
3 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Py Spark 3 Quick Reference Guide
No ratings yet
Py Spark 3 Quick Reference Guide
2 pages
Optimizing 1 TB Data in Pyspark
No ratings yet
Optimizing 1 TB Data in Pyspark
4 pages
SP 3
No ratings yet
SP 3
18 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Optimizing 1TB Data Handling Using PySpark 3p
No ratings yet
Optimizing 1TB Data Handling Using PySpark 3p
3 pages
Stdout
No ratings yet
Stdout
13 pages
Senior Data Engineer Qs
No ratings yet
Senior Data Engineer Qs
7 pages
PySpark Optimization Scenarios - Wipro
No ratings yet
PySpark Optimization Scenarios - Wipro
8 pages
PySpark Interview Questions
No ratings yet
PySpark Interview Questions
3 pages
PySpark Big Data Analytics Guide
No ratings yet
PySpark Big Data Analytics Guide
7 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Indrani Cheat Sheet
No ratings yet
Indrani Cheat Sheet
2 pages
Spark Optimization 1741826797
No ratings yet
Spark Optimization 1741826797
7 pages
Python Pyspark Q's
No ratings yet
Python Pyspark Q's
16 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
PySpark All Query
No ratings yet
PySpark All Query
22 pages
PySpark 1713691456
No ratings yet
PySpark 1713691456
24 pages
Analytics Quefile Without Answer
No ratings yet
Analytics Quefile Without Answer
3 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Spark Interview Questions
No ratings yet
Spark Interview Questions
4 pages
Pyspark - SQL Module
No ratings yet
Pyspark - SQL Module
132 pages
Complete Data Engineer Interview Guide
No ratings yet
Complete Data Engineer Interview Guide
3 pages
Spark Optimisation
No ratings yet
Spark Optimisation
7 pages
Databricks Spark Exam Notes
No ratings yet
Databricks Spark Exam Notes
27 pages
Databricks Exam
No ratings yet
Databricks Exam
14 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
SQL - & - Pyspak
No ratings yet
SQL - & - Pyspak
6 pages
Introducing Letters
No ratings yet
Introducing Letters
33 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
DataGrokr Technical Assignment - Data Engineering
No ratings yet
DataGrokr Technical Assignment - Data Engineering
4 pages
Word Count
No ratings yet
Word Count
3 pages
Pyspark Coding Questions From StrataScratch Platform
No ratings yet
Pyspark Coding Questions From StrataScratch Platform
23 pages
PDS2MC02 Locf
No ratings yet
PDS2MC02 Locf
2 pages
Interview Questions
No ratings yet
Interview Questions
2 pages
Journal
No ratings yet
Journal
47 pages
A926534728 - 28953 - 8 - 2025 - Spark Mllib
No ratings yet
A926534728 - 28953 - 8 - 2025 - Spark Mllib
8 pages
Databricks Certified Professional Data Engineer
No ratings yet
Databricks Certified Professional Data Engineer
15 pages
PySpark Reference Guide
No ratings yet
PySpark Reference Guide
2 pages
T09 Sparksql
No ratings yet
T09 Sparksql
30 pages
Databricks Certified Data Engineer Associate 9
100% (1)
Databricks Certified Data Engineer Associate 9
12 pages
Deloitte & EY Data Engineer Interview Questions
No ratings yet
Deloitte & EY Data Engineer Interview Questions
26 pages
23CP309T BDA MSE Question Paper
No ratings yet
23CP309T BDA MSE Question Paper
2 pages
Data Engineering Part - 2
No ratings yet
Data Engineering Part - 2
21 pages
PySpark ELT Cheat Sheet Guide
No ratings yet
PySpark ELT Cheat Sheet Guide
8 pages
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
10 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
PySpark Real Time Q&A
No ratings yet
PySpark Real Time Q&A
5 pages
Pyspark Theory Questions
No ratings yet
Pyspark Theory Questions
5 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Spark Commands
No ratings yet
Spark Commands
3 pages
Pyspark
No ratings yet
Pyspark
6 pages
Midterm Exam Practice: Distributed Systems & Apache Spark
No ratings yet
Midterm Exam Practice: Distributed Systems & Apache Spark
24 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Associate Developer Apache Spark 3.5
No ratings yet
Associate Developer Apache Spark 3.5
6 pages
YugabyteDB Overview
No ratings yet
YugabyteDB Overview
28 pages
SQL Database Management Guide
No ratings yet
SQL Database Management Guide
34 pages
TSM Cli - TDP For SQL - Restoring An SQL Database To An Alternate Database or Machine Using DP For SQL
No ratings yet
TSM Cli - TDP For SQL - Restoring An SQL Database To An Alternate Database or Machine Using DP For SQL
1 page
SQL Queries for HR Analysis
No ratings yet
SQL Queries for HR Analysis
4 pages
Pyspark Code
No ratings yet
Pyspark Code
3 pages
Oracle PL/SQL Procedures Guide
No ratings yet
Oracle PL/SQL Procedures Guide
7 pages
UNIT III - Many-To-One and Many-To-Many Relationships, Network Data Models, Cypher Query Language
No ratings yet
UNIT III - Many-To-One and Many-To-Many Relationships, Network Data Models, Cypher Query Language
29 pages
Csl33 Database Management Lab-Exercises (SQL)
100% (1)
Csl33 Database Management Lab-Exercises (SQL)
20 pages
2
No ratings yet
2
6 pages
Quiz After Midterm Exam Attempt Review
No ratings yet
Quiz After Midterm Exam Attempt Review
19 pages
1Z0-908 03
No ratings yet
1Z0-908 03
2 pages
CSE-3421 Test #1: "Design"
No ratings yet
CSE-3421 Test #1: "Design"
10 pages
Install Oracle Database - A Step by Step Guide To Install Oracle Database
No ratings yet
Install Oracle Database - A Step by Step Guide To Install Oracle Database
19 pages
DBMS2
No ratings yet
DBMS2
5 pages
Core Java Bank Management Project
No ratings yet
Core Java Bank Management Project
15 pages
DBMS Er
No ratings yet
DBMS Er
2 pages
DS Lab # 05
No ratings yet
DS Lab # 05
4 pages
cp4152 Database Practices Lab
No ratings yet
cp4152 Database Practices Lab
51 pages
Class 12 CS Practical Guide
No ratings yet
Class 12 CS Practical Guide
70 pages
21CS53 Assignment2
No ratings yet
21CS53 Assignment2
3 pages
Database Management Lab Guide
No ratings yet
Database Management Lab Guide
11 pages
File System Vs DBMS
100% (2)
File System Vs DBMS
13 pages
Block-2 Dbms Ignou
100% (1)
Block-2 Dbms Ignou
90 pages
Mastering Spark SQL PDF
100% (1)
Mastering Spark SQL PDF
1,776 pages
SQLQuery Bank - DB Table
No ratings yet
SQLQuery Bank - DB Table
3 pages
Informatica Interview Questions On Transformations
No ratings yet
Informatica Interview Questions On Transformations
112 pages
DBS PYQs
No ratings yet
DBS PYQs
22 pages
MSBTE Practical Questions
No ratings yet
MSBTE Practical Questions
10 pages
Distributed Database Exam Paper
No ratings yet
Distributed Database Exam Paper
2 pages
Pandas DataFrame Basics
No ratings yet
Pandas DataFrame Basics
5 pages

Error Log

Uploaded by

Error Log

Uploaded by

org.apache.spark.sql.execution.

OutOfMemorySparkException: Size of broadcasted table

/databricks/spark/python/pyspark/sql/dataframe.py in take(self, num)

Py4JJavaError: An error occurred while calling o690.collectToPython.

You might also like