Data Exploration On Databricks (Setup) - Databricks

The document provides setup instructions for data exploration on Databricks, specifically focusing on parsing weblogs using regular expressions. It includes code snippets for importing data into S3 and accessing Apache access web logs. Additionally, it mentions sample web response codes available for analysis.

Uploaded by

Tuan Minh Pham

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views1 page

Data Exploration On Databricks (Setup) - Databricks

Uploaded by

Tuan Minh Pham

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

5/5/2020 Data Exploration on Databricks (Setup) - Databricks

Data Exploration on Databricks (Setup)

(http://databricks.com)  Import Notebook

Parsing weblogs with regular expressions to create a table

Original Format: %s %s %s [%s] \"%s %s HTTP/1.1\" %s %s
Example Web Log Row
10.0.0.213 - 2185662 [14/Aug/2015:00:05:15 -0800] "GET /Hurricane+Ridge/rss.xml HTTP/1.1" 200 288

Setup Instructions
Please refer to the Data Exploration on Databricks How-To Guide for the location of the source files to import for this
notebook.
Please refer to the Databricks Data Import How-To Guide on how to import data into S3 for use with Databricks
notebooks.

> import urllib

ACCESS_KEY = "[REPLACE_WITH_ACCESS_KEY]"
SECRET_KEY = "[REPLACE_WITH_SECRET_KEY]"
ENCODED_SECRET_KEY = urllib.quote(SECRET_KEY, "")
AWS_BUCKET_NAME = "my-data-for-databricks"
MOUNT_NAME = "my-data"

Sample Apache Access Web Logs

> display(dbutils.fs.ls("/mnt/my-data/apache"))

path name
dbfs:/mnt/my-data/apache/ex20150814.log ex20150814
dbfs:/mnt/my-data/apache/ex20150815.log ex20150815

> myApacheLogs = sc.textFile("/mnt/my-data/apache")

myApacheLogs.take(10)

Out[11]:
[u'10.0.0.127 - 2696232 [14/Aug/2015:00:00:26 -0800] "GET /index.html HTTP/1.1" 304 428',
u'10.0.0.104 - 2404465 [14/Aug/2015:00:01:14 -0800] "GET /Cascades/rss.xml HTTP/1.1" 304 514',
u'10.0.0.108 - 2404465 [14/Aug/2015:00:04:21 -0800] "GET /Olympics/rss.xml HTTP/1.1" 200 499',
u'10.0.0.213 - 2185662 [14/Aug/2015:00:05:15 -0800] "GET /Hurricane+Ridge/rss.xml HTTP/1.1" 200 288',
u'10.0.0.203 - 2185662 [14/Aug/2015:00:05:17 -0800] "GET /index.html HTTP/1.1" 200 212',
u'10.0.0.104 - 2696232 [14/Aug/2015:00:06:09 -0800] "GET /Cascades/rss.xml HTTP/1.1" 304 420',
u'10.0.0.206 - 2576242 [14/Aug/2015:00:08:40 -0800] "GET /index.html HTTP/1.1" 304 343',
u'10.0.0.213 - 2185662 [14/Aug/2015:00:09:07 -0800] "GET /Olympics/rss.xml HTTP/1.1" 304 323',
u'10.0.0.212 - 2404465 [14/Aug/2015:00:10:29 -0800] "GET /index.html HTTP/1.1" 304 530',
u'10.0.0.114 - 2575718 [14/Aug/2015:00:11:22 -0800] "GET /index.html HTTP/1.1" 304 341']

Sample Web Response Codes

> display(dbutils.fs.ls("/mnt/my-data/response"))

path nam
dbfs:/mnt/my-data/response/responsecodes.txt respo

https://cdn2.hubspot.net/hubfs/438089/notebooks/Samples/Data_Exploration/Data_Exploration_on_Databricks_Setup.html 1/1

Data Exploration On Databricks - Databricks
No ratings yet
Data Exploration On Databricks - Databricks
1 page
De Mod 2 Transform Data With Spark
No ratings yet
De Mod 2 Transform Data With Spark
32 pages
4 BNI Python Training
100% (1)
4 BNI Python Training
126 pages
Python and Pyspark With Databricks, With Azure Project
No ratings yet
Python and Pyspark With Databricks, With Azure Project
9 pages
Hands - On Exercise: Using The Spark Shell..................................
100% (2)
Hands - On Exercise: Using The Spark Shell..................................
13 pages
4220 5 (Python)
No ratings yet
4220 5 (Python)
12 pages
Getting Data
No ratings yet
Getting Data
54 pages
Databricks Cloud How To Log Analysis Example
No ratings yet
Databricks Cloud How To Log Analysis Example
9 pages
Getting Started With Databricks
No ratings yet
Getting Started With Databricks
39 pages
Databricks Data Import - Databricks
No ratings yet
Databricks Data Import - Databricks
1 page
Python, Machine Learning Course Content
No ratings yet
Python, Machine Learning Course Content
13 pages
DBT Utilities
No ratings yet
DBT Utilities
21 pages
Cloud-Data - Crunchbase - 2011 Worthy Appin Tweetprocesor Stanford Group PDF
No ratings yet
Cloud-Data - Crunchbase - 2011 Worthy Appin Tweetprocesor Stanford Group PDF
153 pages
Data Engineering With Databricks Da
100% (3)
Data Engineering With Databricks Da
232 pages
Databricks Etl Pipeline 1699423882
No ratings yet
Databricks Etl Pipeline 1699423882
6 pages
Getting Data
No ratings yet
Getting Data
63 pages
Python Tools for Data Scientists
100% (1)
Python Tools for Data Scientists
23 pages
Lab 5 Correlate Structured W Unstructured Data
No ratings yet
Lab 5 Correlate Structured W Unstructured Data
5 pages
Databricks Lakehouse Guide
No ratings yet
Databricks Lakehouse Guide
149 pages
123123
No ratings yet
123123
10 pages
Topic 1 T
No ratings yet
Topic 1 T
20 pages
pREP dOC-Azure
No ratings yet
pREP dOC-Azure
35 pages
Data Engineering With Databricks
No ratings yet
Data Engineering With Databricks
11 pages
Automation Cheat Sheet 2.0
100% (1)
Automation Cheat Sheet 2.0
6 pages
Data Engineering Databricks
No ratings yet
Data Engineering Databricks
139 pages
Databricks Lab 1
100% (3)
Databricks Lab 1
7 pages
Databricks Spark Reference Applications
No ratings yet
Databricks Spark Reference Applications
37 pages
HW 0
No ratings yet
HW 0
4 pages
Automation Cheat Sheet 2.0
100% (1)
Automation Cheat Sheet 2.0
6 pages
Tools For Data Science Notes
No ratings yet
Tools For Data Science Notes
16 pages
Spark Labs for Data Engineers
No ratings yet
Spark Labs for Data Engineers
133 pages
Azure DataBricks
No ratings yet
Azure DataBricks
37 pages
Data Cleaning Course Notes
No ratings yet
Data Cleaning Course Notes
27 pages
Manual 5
No ratings yet
Manual 5
51 pages
Data Science (Oct 2024)
No ratings yet
Data Science (Oct 2024)
13 pages
EDA - Python Basics
No ratings yet
EDA - Python Basics
10 pages
Magic Commands For Data Engineers Databricks
No ratings yet
Magic Commands For Data Engineers Databricks
13 pages
Sarkar, DR Tirthajyoti - Roychowdhury, Shubhadeep - Data Wrangling With Python - Creating Actionable Data From Raw Sources-Packt Publishing (2019)
No ratings yet
Sarkar, DR Tirthajyoti - Roychowdhury, Shubhadeep - Data Wrangling With Python - Creating Actionable Data From Raw Sources-Packt Publishing (2019)
538 pages
Python Advanced Exercises - Google Search
No ratings yet
Python Advanced Exercises - Google Search
2 pages
Week 10 HW
No ratings yet
Week 10 HW
4 pages
Week 10 HW
No ratings yet
Week 10 HW
4 pages
Development Web Scrapping
No ratings yet
Development Web Scrapping
14 pages
Apaches Park
No ratings yet
Apaches Park
147 pages
Data Science: Machine Learning
No ratings yet
Data Science: Machine Learning
37 pages
Databricks Setup Guide
No ratings yet
Databricks Setup Guide
7 pages
Midterm1 - Databricks
No ratings yet
Midterm1 - Databricks
22 pages
Spark 4.0
100% (1)
Spark 4.0
123 pages
Apache Spark Programming With Databricks
No ratings yet
Apache Spark Programming With Databricks
112 pages
Databricks Setup for Beginners
No ratings yet
Databricks Setup for Beginners
13 pages
Python Machine Learning
No ratings yet
Python Machine Learning
12 pages
Getting Started With Python Cheat Sheet
No ratings yet
Getting Started With Python Cheat Sheet
1 page
Esc Enter M Y A B D + D Z F Shift + Up/Down Space Shift + Space
No ratings yet
Esc Enter M Y A B D + D Z F Shift + Up/Down Space Shift + Space
12 pages
(Exam) Data Engineering Certification Prep Guide - Partners
No ratings yet
(Exam) Data Engineering Certification Prep Guide - Partners
15 pages
Artificial Intelligence
No ratings yet
Artificial Intelligence
20 pages
Querying Files
No ratings yet
Querying Files
11 pages
Data Science Papers
No ratings yet
Data Science Papers
109 pages
Python You Should Learn
No ratings yet
Python You Should Learn
12 pages
Mlflow Workshop Part 3
No ratings yet
Mlflow Workshop Part 3
25 pages
04 CaseStudy DataPlatformPeopleStrategy Rao Tom
No ratings yet
04 CaseStudy DataPlatformPeopleStrategy Rao Tom
30 pages
Mlflow Workshop Part 2
No ratings yet
Mlflow Workshop Part 2
29 pages
Dataset - Databricks
No ratings yet
Dataset - Databricks
5 pages
AdTech Sample Notebook (Part 1) - Databricks
No ratings yet
AdTech Sample Notebook (Part 1) - Databricks
1 page
The Sum of Squares Technique
No ratings yet
The Sum of Squares Technique
4 pages
Inmo 2012
No ratings yet
Inmo 2012
6 pages
Vocational Training ICT Syllabus
No ratings yet
Vocational Training ICT Syllabus
3 pages
Brown Modern Minimalist Graphic Designer Resume
No ratings yet
Brown Modern Minimalist Graphic Designer Resume
1 page
Top 50 AutoCAD Interview Questions and Answers PDF
No ratings yet
Top 50 AutoCAD Interview Questions and Answers PDF
6 pages
Unit - 4 Pushdown Automata
No ratings yet
Unit - 4 Pushdown Automata
64 pages
CE4525 4.0v1 Getting Started With Sophos Central XDR Live Discover
No ratings yet
CE4525 4.0v1 Getting Started With Sophos Central XDR Live Discover
22 pages
WAVE 5.15 WTC DeploymentGuide
No ratings yet
WAVE 5.15 WTC DeploymentGuide
56 pages
Oracle SPARC Servers Assessment Guide
100% (1)
Oracle SPARC Servers Assessment Guide
7 pages
Cloud Management for IT Admins
No ratings yet
Cloud Management for IT Admins
34 pages
German A1 Notes PDF
100% (2)
German A1 Notes PDF
118 pages
Shortcut With Function Key
No ratings yet
Shortcut With Function Key
2 pages
University: Faculty of Mechanical Engineering, University of Belgrade Department: MIT-mechanical Engineering and Informational Technologies (2 Exams Before Graduation)
No ratings yet
University: Faculty of Mechanical Engineering, University of Belgrade Department: MIT-mechanical Engineering and Informational Technologies (2 Exams Before Graduation)
4 pages
Documentation of Courier Management System
71% (56)
Documentation of Courier Management System
54 pages
SapanKumarSahu (6 - 0 - Java Developer - Hyderabad
No ratings yet
SapanKumarSahu (6 - 0 - Java Developer - Hyderabad
1 page
Seo PPT 2022
No ratings yet
Seo PPT 2022
43 pages
Install Talos Linux
No ratings yet
Install Talos Linux
5 pages
IMK - Slide PPT Minggu 3
No ratings yet
IMK - Slide PPT Minggu 3
61 pages
Ms Word MCQ
No ratings yet
Ms Word MCQ
25 pages
Red Hat PB PDF
No ratings yet
Red Hat PB PDF
54 pages
Task Skill Review 2
No ratings yet
Task Skill Review 2
2 pages
AHV Admin Guide v6 - 1
No ratings yet
AHV Admin Guide v6 - 1
193 pages
An SAP Consultant - HR ABAP - How To Find Personnel Numbers Skipped by The Database Driver Due To Authorization
No ratings yet
An SAP Consultant - HR ABAP - How To Find Personnel Numbers Skipped by The Database Driver Due To Authorization
2 pages
Conguration of MDG, Consolidation and Mass Processing (1) 1
No ratings yet
Conguration of MDG, Consolidation and Mass Processing (1) 1
126 pages
Configuring NTP Server On A Cisco WLC Via CLI
No ratings yet
Configuring NTP Server On A Cisco WLC Via CLI
3 pages
Module 8 - AE 1 Stand Alone Operating Systems
No ratings yet
Module 8 - AE 1 Stand Alone Operating Systems
10 pages
Prestigio MultiBoard Interactive Display
No ratings yet
Prestigio MultiBoard Interactive Display
15 pages
End-User License Agreement ("EULA") For AIMP Last Revised 15.09.2019
No ratings yet
End-User License Agreement ("EULA") For AIMP Last Revised 15.09.2019
5 pages
SDR Level 5: Data Collection Software
No ratings yet
SDR Level 5: Data Collection Software
2 pages
Adobe CC File Directory Guide
No ratings yet
Adobe CC File Directory Guide
6 pages
Abst Vs Intf
No ratings yet
Abst Vs Intf
4 pages
Mobile-App Srs
No ratings yet
Mobile-App Srs
27 pages

Data Exploration On Databricks (Setup) - Databricks

Uploaded by

Data Exploration On Databricks (Setup) - Databricks

Uploaded by

5/5/2020 Data Exploration on Databricks (Setup) - Databricks

Data Exploration on Databricks (Setup)

Data Exploration on Databricks (Setup)

Parsing weblogs with regular expressions to create a table

> import urllib

Sample Apache Access Web Logs

> myApacheLogs = sc.textFile("/mnt/my-data/apache")

Sample Web Response Codes

You might also like