0% found this document useful (0 votes)

91 views88 pages

Cloud Computing

This document discusses cloud computing and related topics. It begins with an introduction to cloud computing, including common uses of the cloud by users. It then discusses what constitutes "the cloud" from a technical perspective, including the hardware, software, and network topology of single-site and geographically distributed cloud systems. The document also covers the massive scale of today's clouds, new cloud programming paradigms, and key characteristics of cloud computing such as on-demand access, rapid elasticity, and resource pooling.

Uploaded by

Javier Hurtado

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

91 views88 pages

Cloud Computing

Uploaded by

Javier Hurtado

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 88

Cloud Computing

Javier Alexander Hurtado

javhur@unicauca.edu.co
Los temas de actualidad

Data
Analytics

Big
Data

Cloud
computing
¿Do you use the cloud?
Common user of the cloud
• User connects to the cloud through the
Internet
– Make Jobs of computation or
– Execute applications or
– Storage data
To the cloud you need…
• An Internet connection
• An account - username and password
• Accept terms and conditions
What is the cloud?

Compute and software resources on demand, as a service.

(2013, January) A Walk in the Clouds. Cloud Computing, CDW-G Reference Guide., 3-5.
What is a cloud?
• It’s a cluster?
• It’s a supercomputer?
• It’s a datastore?
• Any more?
• Then, what is it?
• None of the above
• All of the above
A cloud is…
• A single-site cloud (‘Datacenter’) consists of
– Compute nodes (grouped into racks)
– Switches connecting the racks
– A network topology (e.g. hierarchical)
– Storage (backend) nodes connected to the network
– Front-end for submitting Jobs and receiving client requests
– Software services
• A geographically distributed cloud consists of
– Mulitple such sites
– Each site perhaps with a different strucuture and services
A simple cloud topology

Rack Core switch

Top of rack
switch

Servers
New features in Today’s clouds

Massive scale (millions users +)

On-demand Access (No contracts, Anyone access it)

Data-intensive nature (TB, PB, EB, ZB, YB, BB/HB, GEB +)

New Cloud programming paradigms (MapReduce/Hadoop,

NoSQL, etc.)
Un minuto en Internet

Fuente: www.ornitorrincodigital.com
When did you come all this?

1998+ 1995 >

BigTable -> 2006+ Dynamo -> 2007
“Bigtable is a distributed storage system for
managing structured data that is designed to “Reliability at massive scale is one of the biggest
scale” challenges we face at Amazon.com”

Cassandra -> 2010

“Cassandra is a distributed storage system for managing
2004+ very large amounts of structured data”

http://static.googleusercontent.com/media/research.google.com/es//archive/bigtable-osdi06.pdf
http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf
Tendencia en datos

Fuente: www.oracle.com
¿Qué hacer con ellos?

Fuente: www.dapreview.net
Análisis de datos

Fuente: www.bigdatatraining.in
Fuente: www.logicmatter.com
Las cuatro V de Big Data

Fuente: www.ibm.com
Las cuatro V de Big Data

Fuente: www.ibm.com
Visualización de datos

Analytics → Graph Analytics

Fuente: www.kdnuggets.com
¿Qué esta sucediendo hoy?

Asia Pacific manufacturers

37% Production Quality Mng

Big Data / Analytics

Asia Pacific manufacturers

Inventory Mng 29%

Fuente: www.ibm.com
YottaByte (YB)?
10^24 bytes

In 2010, estimated: store a YB on TB-size disk drives

would require one million city block size data-centers

As big as the states of Delaware and Rhode

Island combined.

If 200 GB microSDXC cards (most compact data storage

medium available to the public 2015) were used

The total volume would be approximately 800.000 m^3

(32% of the Great Pyramid of Giza)
1M of Data Centers
And a BB/HB, GEB, etc.?
• There are many others… (not official)
– BrontoByte/HellaByte – KinsaByte 10^60
– GeopByte 10^30 – RutherByte
– SaganByte – DubniByte
– PijaByte – SeaborgByte
– AlphaByte – BohrByte
– KryatByte – HassiuByte
– AmosByte – MeitnerByte
– PectrolByte – DarmstadByte
– BolgerByte – RoentByte
– CoperByte
– SamboByte
– KoentekByte 10^90
– QuesaByte – More…
Some samples
Facebook (GigaOm, 2012): Servers 30K → 2009, 60K → 2010,
180K → 2012
Microsoft (NYTimes, 2008): 150K machines (10K/month), 80K
running Bing

Yahoo! (2009): 100K, Split into clusters of 4000

AWS EC2 (Randy Bias, 2009): 40K machines, 8 cores/machine

eBay (2012): 50K machines

HP (2012): 380K in 180 DCs

Google (2012): More than 1 Million servers

Cost: outsource or own?
• Exercise
– Medium-sized organization: wished to run a
service for M months
• Service requires 128 servers (1024 cores) and 524TB
– Option 1: outsourcing (e.g., via AWS) monthly cost
• S3 storage: $0.095 x GB/month
• EC2 cost: $0.10 x CPU/hour
Storage: $0.095 x 524 x 1024 = $ 50.974,72
CPU: $0.10 x 1024 x 24 x 30 = $ 73.728
Total $ 124.702,72 by month
Cost: outsource or own?
• Exercise
– Option 2: own, monthly cost
• S3 storage: ~$349K / month
• Total cost: $ 1.555K /month + $ 7.5K (1 sysadmin/100 nodes)
Comparing:
Outsourcing = $ 124.702,72
Own = $ 1.904K
Outsource ~ 15,27 * Own
– Include: hardware, power, cooling and management

Renewal cicle
Power efficiency

CI-
PUE WUE CUE = Total
= Total = Annual
Carbon
PUD CO2 per MB
Facility water usage
Energy / IT / IT Emissions / of Data
Equipment Equipment IT Equipment delivered
Energy Energy Energy

Bad ~ 2.0 L/Kwh kgCO2eq/Kwh TonsCO2/MB

Good ~ 1.0 Clean energy Clean energy Clean energy
WUE ~ 0 CUE ~ 0 CI ~ 0

Power Usage Effectiviness – Water Usage Effectiveness – Carbon Usage Effectiviness

Carbon Intensity Per Unit of Data
Power efficiency

Energy
PAR4 LEED ASHRAE
Materials, Star
idle power,
location, Certification
peak power,
water usage, based on
total 90.1 building
indoor PUE.
utilization efficiency
environment
power, Label for Top standard
al quality,
transactions 25%
energy
-per-watt
efficiency

American Society of
Building standard
Heating, Refrigerating
and Air-Conditioning
Engineers
What is cloud computing?

NIST: Cloud Computing is a model to allow the suitable,

convenient and on-demand access through the network
to a set of configurable, shared computing resources
(e.g. networks, servers, storage, applications and
services) that it can be provided rapidly and made
available with minimal management effort or
interaction with the service provider.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

¿Cloud Computing?

• Set of configurable shared computing resources

• On-demand access to the network
• Offered by the service provider
Adopted from: Effectively and Securely Using the Cloud Computing Paradigm by peter Mell, Tim
Grance
Cloud Computing features
Common features:

Massive Scale Resilient Computing

Homogeneity Geographic Distribution

Virtualization Service Orientation

Low Cost Software Advanced Security

Essential features:

On Demand Self-Service
Broad Network Access Rapid Elasticity
Resource Pooling Measured Service

Adopted from: Effectively and Securely Using the Cloud Computing Paradigm by peter Mell, Tim
Grance
Top 10 largest databases in the world
Top ten largest databases (2014)
Ref: http://csnipuntech.blogspot.com/2014/05/top-10-largest-databases-in-world.html
7000

6000

5000

4000

3000
Terabytes

2000

1000

Library of Congress
National Energy Research Scientific computing Center
Explosion in amount of data
1946 2012
Eniac LHC
X 6000000 = 1 (40 TB/S)
Air Bus A380
- 1 billion lines of code 640TB by flight
- Each motor generates 10 TB every
30 min.

Twitter generate approximately 12 TB of data by day

New York Stock Exchange 1TB of data by day

Storage capacity has doubled every three years since the 1980s.
Our data run the world
• Science
– Data bases from astronomy, genomics, environmental data, transportation
data, …

• Humanities and Social Sciences

– Scanned books, historical documents, social interactions data, new technology
like GPS …

• Business & Commerce

– Corporate sales, stock market transactions, census, airline traffic, …

• Entertainment
– Internet images, Hollywood movies, MP3 files, …

• Medicine
– MRI & CT scans, patient records, …
Our data run the world

- An Ocean of Data

What we do with that amount of data?

Incredible!!!
We ignore them!
Zeta-Byte horizon
• En 2009, se estimaba que toda la World Wide Web
contenía cerca de 500 exabytes (10^18). Esta es la
mitad de un zettabyte (10^21).
• La cantidad total de datos globales se calculó en
2.7 zettabytes para el 2012. Es decir, 48% más
que en 2011.
x50
2012 2020

Growing!
Software y aplicaciones

MAS QUE ALMACENAMIENTO

Otros servicios Software
• Software edición de fotos
• Aplicaciones financieras en línea
• Redes sociales
• Comunicación
Biblioteca de Servicios específicos
• WorldCat
• Gliffy
• Ebsco
• Discover It
• Mindomo
Algo más

OTROS SERVICIOS EN LA NUBE

Modelos de cloud computing

Cloud computing se posee 2 modelos:

1. Modelos Implementación

2. Modelos de servicio

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Modelos de implementación
Según el proveedor:

1. Privada
2. Comunitaria
3. Publica
4. Hibrida

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Modelos de implementación

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Modelos de servicio

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Common
• Software as a Service (SaaS): modelo de
distribución de software en el que las aplicaciones
son hospedadas por un vendedor o proveedor de
servicio y se hace disponible a los clientes sobre
una red como Internet.
• http://searchcloudcomputing.techtarget.com/definition/Software-as-a-Service
Tipos de servicio
• Platform as a Service (PaaS): forma de
alquilar hardware, OS, almacenamiento y
capacidad de red sobre Internet. El modelo
de servicio le permita al cliente alquilar
servidores virtualizados y servicios
asociados para ejecutar aplicaciones
existentes o desarrollar y probar nuevas.
http://searchcloudcomputing.techtarget.com/definition/Platform-as-a-Service-PaaS
Tipos de servicio
• Infrastructure as a Service (IaaS): modelo de
suministro para tercerizar el uso de equipos para
soportar operaciones, incluyendo
almacenamiento, hardware, servidores y
componentes de red. El proveedor es responsable
por tener, poner en funcionamiento y mantener el
HW. El cliente paga por su uso.
http://searchcloudcomputing.techtarget.com/definition/Infrastructure-as-a-Service-IaaS
Modelos de servicio en la nube
Software as a Platform as a Infrastructure as a
Service (SaaS) Service (PaaS) Service (IaaS)

SalesForce CRM

LotusLive

Google App
Engine
Tipos de servicio
• Software as a Service (SaaS)
Nivel 1: Ad-Hoc/Custom –
Una instancia por cliente

Nivel 2: Configurable por el

cliente

Nivel 3: configurable &

Multi-Inquilino-Eficiente

Nivel 4: Escalable,
Configurable & Multi-
Inquilino-Eficiente

Source: Frederick Chong and Gianpaolo Carraro, “Architectures Strategies for Catching the Long Tail”
Capas de Cloud Computing
MS Live/ExchangeLabs, IBM,
Application Service
Google Apps; Salesforce.com
(SaaS) Quicken Online, Zoho, Cisco

Google App Engine, Mosso,

Application Platform Force.com, Engine Yard,
Facebook, Heroku, AWS

Server Platform 3Tera, EC2, SliceHost,

GoGrid, RightScale, Linode

Storage Platform Amazon S3, Dell, Apple, ...

Capas del servicio Cloud Computing
Services Description
Servicios – servicios completos como PayPal,
Servicios OpenID, OAuth, Google Maps, Alexa

Enfocado en Aplicación – Software basado en la nube que

Aplicación elimina la necesidad de instalaciones locales
la Aplicación como: Google Apps, Microsoft Online
Desarrollo – Plataformas de desarrollo de
Desarrollo softwareusadas para crear aplicaciones basadas
en la nube (PAAS & SAAS) como SalesForce
Plataforma – basada en la nube, típicamente
Plataforma usando virtualización, como: Amazon EC2,
Sun Grid
Enfocado en la Storage Storage – Data storage o NAS basado en la
nube como CTERA, iDisk, MyCloudNAS
Infrastructura
Hosting – centros de datos físicos como los
Hosting de IBM, HP, NaviSite, etc.
CONCEPTOS IMPORTANTES
Virtualización
• Espacio de trabajo virtual:
– Abstración de un ambiente de ejecución que puede estar disponible
dinámicamente a clientes autorizados, usando protocolos bien
definidos,
– Cuota de recursos (p.e. CPU, memoria),
– Configuración del Software (p.e. O/S, servicios suministrados).
• Implementa una Virtual Machines (VMs):
– Abstración de una máquina servidor física,
– Hypervisor intercepta y emula instrucciones de VMs, y permite
administrar VMs,
App App App
– VMWare, Xen, VirtualHost, etc.
OS OS OS
• Suministra una API de infraestructura:
Hypervisor
– Plug-ins para hardware/estructuras de soporte Hardware
Virtualized Stack
Máquinas virtuales
• VM: tecnología que permite múltiples
máquinas virtuales funcionar en una máquina
física.
App App App App App
Xen
Guest OS Guest OS Guest OS
(Linux) (NetBSD) (Windows) VMWare
VM VM VM
UML VM
Virtual Machine Monitor (VMM) / Hypervisor
Denali
Hardware
etc.
Performance: Para-virtualización (p.e. Xen) muy carca al performance físico real!
Hipervisores
También llamado monitor de máquina virtual
(VMM), es la parte principal de las tecnologías
de virtualización de hardware más populares y
eficaces, los hipervisores son aplicaciones que
presentan a los sistemas operativos virtualizados
(sistemas invitados) una plataforma operativa
virtual (hardware virtual), a la vez que ocultan a
dicho sistema operativo virtualizado las
características físicas reales del equipo sobre el
que operan.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Tipos de hipervisores
Tipo 1: también llamados nativos, un hosted o bare-metal. Estos
hipervisores se ejecutan directamente sobre el hardware físico,
así que todos los accesos directos al hardware son controlados
por él, en este tipo de hipervisores son instalados como un
sistema operativo donde se crean máquinas virtuales con
características como S.O., RAM, CPU y DD.

Tipo 2: conocidos también como tipo hosted, estos hipervisores

se ejecutan sobre un sistema operativo el cual es cargado en el
sistema antes que el hipervisor, de esta manera las máquinas
virtuales se ejecutan en un tercer nivel, este tipo de hipervisor es
muy utilizado para manejar varios sistemas operativos sobre otro
sistema operativo.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Tipos de hipervisores

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Virtualización en General
• Vantajas de las VM:
– Ejecuta OS donde no hay disponibilidad de hardware,
– Más fácil para crear nuevas máquinas, backup de máquinas, etc.,
– Pruebas de Software usan instalaciones “limpias” de OS y software,
– Emular más máquinas de las que están físicamente disponibles,
– Sistemas cargados livianos en tiempo compartido en un host,
– Problemas de depuración (suspender y reanudar los problemas de
máquina),
– Fácil migración de VM (reiniciar: necesario o no).
– Ejecutar sistemas legados!
¿Cuál es el propósito y beneficios?
• Cloud computing permite a empresas y aplicaciones,
que dependen de infraestructura, a no serlo.
• Usando la infraestructura en la nube “pay as used
and on demand”, ahorra inversiones en capital y en
operación!
• Clientes pueden:
– Poner sus datos en la plataforma en lugar de sus propios
equipos y/o en sus propios servidores.
– Pponer sus aplicaciones en la nube y usar los servidores
dentro de la nube para procesamiento y manipulación de
datos,etc.
Escalabilidad

La escalabilidad permite un equilibrio entre

componentes separados pero ligados entre sí
como lo son el software y el hardware, pues a
medida que el software requiere más apoyo
para su correcto funcionamiento, el hardware
crecerá conforme se vea necesario mediante
un buen diseño que permite escalar hasta las
condiciones requeridas por el software.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Escalabilidad
• Escalabilidad vertical (escalar hacia arriba): es
cuando se reemplazan a nivel físico uno o más
recursos de un solo nodo por otro más potente
también puede considerarse como una
actualización de los recursos a nivel físico.

• Escalabilidad horizontal: es agregar más recursos

a nivel físico para el sistema es decir, adicionar
nuevos nodos. Un claro ejemplo es el añadir otro
servidor o equipo a fin de distribuir la carga. Una
ventaja de este es el poder distribuir la carga
mediante el nuevo nodo.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Escalabilidad automática
Cuando recursos del sistema se encuentran a
disposición del usuario pero aquellos que no
estén siendo usados serán apagados para evitar
sistemas ociosos pero cuando se necesite, el
sistema hará uso de estos recursos de forma
inmediata.
Aunque todas las nubes poseen como ventaja la
escalabilidad, muy pocas poseen escalabilidad
automática.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Escalabilidad automática

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Nubes comerciales
Nubes Open Source
Taxonomía de la nube
Windows Azure

• Nivel empresarial, bajo demanda.

• Procesamiento y storage disponible a petición
por un costo.
• Se debe usar Azure API para trabajar con la
infraestructura ofrecida por Microsoft.
• Características significativas: rol web, rol
worker, blob storage, table y drive-storage
Windows Azure
Google App Engine
• Una interfaz web para un entorno de desarrollo que ofrece
una manera simple para diseñar, desarrollar y publicar
aplicaciones Java, Go y Python.
• Google ofrece la misma confiabilidad, disponibilidad y
escalabilidad a la par con sus propias aplicacionces.
• Interfaz basada en programación software
• Plataforma de programación completa independeinte del
tamaño (pequeño o grande)
• Características especiales: plantilas, AppSpot service,
excelente consola de monitoreo y gestión.
Otros detalles
• Amazon AWS: EC2 & S3 (entre los muchos servicios de
infraestructura)
– Máquinas Linux
– Máquinas Windows
– Aplicaciones empresariales de 3 capas
• Google App Engine (GAE)
– Eclipse plug-in para GAE
– Desarrollo y publicación de una aplicación
• Windows Azure
– Storage: blob store/container
– Ambiente de desarrollo y producción MS Visual Studio
Azure
Cloud Storage
• Empresas de internet explotan la capacidad de
alamacenar datos para que se pueden alquilar a
otros.
– Permitir que los datos almacenados estén temporalmente
en computadores de escritorio, dispositivos móviles, etc.

• Amazon’s Elastic Compute Cloud (EC2) y Simple

Storage Solution (S3) ejemplos bien conocidos
– Mechanical Turk
Amazon Simple Storage Service (S3)
• Ilimitado.
• Pagar por lo que usa:
Amazon Simple Storage Service (S3)
• Pagar por lo que usa:

74
Utility Computing – EC2
• Amazon Elastic Compute Cloud (EC2):
– Elástica, solicitar de 1 a 100+ PCs a través de WS,
– Especificación de las máquinas…,
– Muy económico!
• Powered by Xen – una Virtual Machine:
– Diferente de VMware and VirtualPC como “para-virtualization” donde
el OS hospedado es modificado para usar hyper-calls especiales.
– Contribuciones Hardware de Intel (VT-x/Vanderpool) y AMD.
– Soporta “Live Migration” de una VM entre servidores.
• Linux, Windows, OpenSolaris
• Consola de administración/AP
EC2 – lo básico

• Cargar su imagen en S3 y registrarla.

• Arranque su imagen desde Web Service.
• Abrir los puertos necesarios para su imagen.
• Conectarse a su imagen a través de SSH.
• Ejecute su aplicación…
Tecnologías

MODELOS DE PROGRAMACIÓN EN
LA NUBE
El Contexto: Big-Data
• Minería de datos. Enormes cantidades de datos recogidos en una amplia gama
de dominios: astronomía, atención sanitaria, clima, etc.
• Esencial para la planificación y el rendimiento.
• Estamos en una economía del conocimiento.
– Los datos son un activo importante para cualquier organización.
– Descubrimiento del conocimiento, habilitar el descubrimiento, anotación de
los datos
– Modelos computacionales complejos.
– Un ambiente simple no es suficientemente bueno: necesita capacidades de
elasticidad y bajo demanda.
• Estamos buscando nuevos…
– Modelos de Programación, y
– Soporte de algoritmos y estructuras de datos.

Wipro Chennai 2011

Google File System
• Internet presenta un nuevo reto en la forma de
datos web, gran escala → “peta-bytes”
• Este tipo de datos tiene una característica diferente
a su forma transaccional, los datos a “la orden del
cliente”: “write once read many (WORM)”
• Información privada y protegida de salud;
• Datos financieros históricos;
• Otros datos históricos
• Google explotó esta característica en su Google File
System (GFS)
¿Qué es Hadoop?
• Una operación Google MapReduce se ejecuta en
un sistema de archivos especial (Google File System
– GFS) altamente optimizado para este propósito.
• GFS no es open source.
• Doug Cutting y otros en Yahoo! Realizaron un
proceso de ingeniería inversa al GFS, lo llamaron
Sistema de Archivos Distribuido Hadoop (HDFS).
• El software que soporta HDFS, MapReduce y otras
entidades relacionadas hacen parte del Proyecto
Hadoop.
• Open source y distribuido por Apache.
Tolerancia a Fallas
• Failure is the norm rather than exception
• Una instancia HDFS puede consistir de miles de
máquinas servidores, cada una almacenando una
parte de los datos del sistema de archivos.
• Se tiene un gran número de componentes con
probabilidad de falla, lo que significa que siempre hay
n componente que no es funcional.
• La detección de fallas y la recuperación automática y
rápida de ellas es una meta de la arquitectura de
HDFS.
HDFS Architecture
Metadata(Name, replicas..)
Metadata ops Namenode (/home/foo/data,6. ..

Client
Block ops
Read Datanodes Datanodes

replication
B
Blocks

Rack1 Write Rack2

Job Tracker
Client Task Tracker Task Tracker

Task Tracker
Wipro Chennai 2011
Hadoop Distributed File System
HDFS Server Master node

HDFS Client
Application

Local file
system
Block size: 2K
Name Nodes
Block size: 128M
Replicated

Wipro Chennai 2011

¿Qué es MapReduce?
• MapReduce modelo de programación que Google ha usado
exitosamente para procesar sus “big-data” (~20000 peta bytes por
día)
– Una función de mapa/mapeo extrae algo inteligente de datos en
bruto.
– Una función de reducción adiciona, de acuerdo a algunas guías, los
datos de salida del mapa.
– Los Usuarios especifican el cálculo en términos de una función de
mapa y reducción,
– Un sistema de ejecución divide (paraleliza) los cálculos a través de
cluster de máquinas de gran escala, y
– El sistema también se ocupa de los fallos de las máquina, las
comunicaciones eficaces y los problemas de rendimiento.
Reference: Dean, J. and Ghemawat, S. 2008. MapReduce: simplified data processing
on large clusters. Communication of ACM 51, 1 (Jan. 2008), 107-113.

Wipro Chennai 2011

Clases de problemas “MapReducable”

• Benchmark para comparaciones: Jim Gray’s challenge

Computación de datos intensivos. Ej: “Sort”
• Google lo usa para conteo de palabras, adwords, ranqueo de
páginas, indexación de datos.
• Algoritmo simple tal como grep, text-indexing, reverse indexing
• Clasificación Bayesiana: dominio del data mining
• Facebook lo usa para varias operaciones demográficas
• Servicios financieros lo usan para análisis
• Astronomía: Análisis Gausiano para localiazación de objetos
extra-terrestres.
• Se espera que tenga un rol crítico en la web semantica y en la
web 3.0

Wipro Chennai 2011

Large scale data splits Map <key, 1>
<key, value>pair Reducers (say, Count)

Parse-hash

Count
P-0000
, count1

Parse-hash

Count
P-0001
, count2
Parse-hash

Count
P-0002
Parse-hash ,count3

Wipro Chennai 2011

Motor MapReduce
• MapReduce requiere un Sistema de archivos distribuido y
un motorque pueda distribuir, coordinar, monitorear y
obtener los resultados.
• Hadoop brinda ese motos a través de su HDFS y el
sistema JobTracker + TaskTracker.
• JobTracker es un simple scheduler.
• TaskTracker es el trabajador, se le asigna una operación
de Mapeo o Reducción (u otras operaciones)
• Mapeo o Reducción corren en un nodo al igual que el
TaskTracker; cada tarea corre en su propia JVM en un
nodo.

Wipro Chennai 2011

¿Preguntas?

¡Gracias por su atención!

javhur@unicauca.edu.co

Lecture 2-3: Introduction To Cloud Computing: Indranil Gupta (Indy)
No ratings yet
Lecture 2-3: Introduction To Cloud Computing: Indranil Gupta (Indy)
35 pages
Lecture 2-3: Introduction To Cloud Computing: Indranil Gupta (Indy)
No ratings yet
Lecture 2-3: Introduction To Cloud Computing: Indranil Gupta (Indy)
35 pages
Lecture 02
No ratings yet
Lecture 02
32 pages
Lecture 02
No ratings yet
Lecture 02
32 pages
How Cloud Computing Changed The World
No ratings yet
How Cloud Computing Changed The World
35 pages
Cloud 1
No ratings yet
Cloud 1
38 pages
Cloud Lect02
No ratings yet
Cloud Lect02
70 pages
CC Intoduction
No ratings yet
CC Intoduction
34 pages
Cloud Computing
No ratings yet
Cloud Computing
20 pages
Advanced Operating Systems: Virtualization and Cloud Computing
No ratings yet
Advanced Operating Systems: Virtualization and Cloud Computing
83 pages
Introduction To Cloud Computing
No ratings yet
Introduction To Cloud Computing
34 pages
CloudComputingTechnology1 Unit1
No ratings yet
CloudComputingTechnology1 Unit1
36 pages
Lecture 06
No ratings yet
Lecture 06
68 pages
Lecture1 Big Data
No ratings yet
Lecture1 Big Data
47 pages
ssc18 Cloud
No ratings yet
ssc18 Cloud
32 pages
Week 1 - Lecture Notes
No ratings yet
Week 1 - Lecture Notes
91 pages
Cloud MR
No ratings yet
Cloud MR
51 pages
Chapter 1 - Introduction
No ratings yet
Chapter 1 - Introduction
42 pages
IJRPR2483
No ratings yet
IJRPR2483
4 pages
Mba CB PPT 1
No ratings yet
Mba CB PPT 1
46 pages
Module 1.0
No ratings yet
Module 1.0
48 pages
CST-440 - Web Framework in Cloud (AngularJS) - UNIT1
No ratings yet
CST-440 - Web Framework in Cloud (AngularJS) - UNIT1
15 pages
Cloud Computing Unit 1
No ratings yet
Cloud Computing Unit 1
21 pages
What Is Cloud Computing?: Simple Introduction To Cloud Com Puting
No ratings yet
What Is Cloud Computing?: Simple Introduction To Cloud Com Puting
32 pages
Lecture 2 A
No ratings yet
Lecture 2 A
35 pages
Introduction To Cloud Computing
No ratings yet
Introduction To Cloud Computing
26 pages
MLecture 1
No ratings yet
MLecture 1
41 pages
Final Awr Presentation
No ratings yet
Final Awr Presentation
21 pages
Cloud
No ratings yet
Cloud
47 pages
Cloud Computing
100% (3)
Cloud Computing
32 pages
Cloud Lect01
No ratings yet
Cloud Lect01
36 pages
Deep
No ratings yet
Deep
33 pages
Cloud Rajkumar
No ratings yet
Cloud Rajkumar
115 pages
Introduction To Cloud Computing
No ratings yet
Introduction To Cloud Computing
36 pages
Unit 1
No ratings yet
Unit 1
10 pages
Pag 05
No ratings yet
Pag 05
3 pages
Research Paper On Cloud Computing: June 2021
No ratings yet
Research Paper On Cloud Computing: June 2021
7 pages
Outsourcing and Cloud Computing
No ratings yet
Outsourcing and Cloud Computing
37 pages
Week-1 - Lecture Notes of NPTEL
No ratings yet
Week-1 - Lecture Notes of NPTEL
126 pages
Module Six Cloud Computing-1
No ratings yet
Module Six Cloud Computing-1
27 pages
CloudComputing Chapter1 Lecture1
No ratings yet
CloudComputing Chapter1 Lecture1
34 pages
CBD2234 Lecture1 Ch1
No ratings yet
CBD2234 Lecture1 Ch1
28 pages
Big Data New
No ratings yet
Big Data New
35 pages
Cloud Computing
100% (1)
Cloud Computing
31 pages
Unit 5 - Cloud Computing
No ratings yet
Unit 5 - Cloud Computing
62 pages
Week 5 Slides
No ratings yet
Week 5 Slides
23 pages
MIS - Session 7 - Cloud Comptuing
No ratings yet
MIS - Session 7 - Cloud Comptuing
60 pages
Module 1 Cloud Computing
No ratings yet
Module 1 Cloud Computing
88 pages
Welcome To The New Era of Cloud Computing: The Web Is Replacing The Desktop
No ratings yet
Welcome To The New Era of Cloud Computing: The Web Is Replacing The Desktop
36 pages
Cloud Computing Unit-1
No ratings yet
Cloud Computing Unit-1
60 pages
What Is The Cloud?: NETS 212: Scalable & Cloud Computing Fall 2014 Z. Yan For Z. Ives
No ratings yet
What Is The Cloud?: NETS 212: Scalable & Cloud Computing Fall 2014 Z. Yan For Z. Ives
63 pages
Cloud Computing for IT Students
100% (1)
Cloud Computing for IT Students
57 pages
Cloud - Lect01 - Introduction To Cloud Computing
No ratings yet
Cloud - Lect01 - Introduction To Cloud Computing
36 pages
Cloud Computing Challenges & Solutions
No ratings yet
Cloud Computing Challenges & Solutions
15 pages
Cloud Computing
No ratings yet
Cloud Computing
36 pages
Difference Between A Latch and A Flip Flop
No ratings yet
Difference Between A Latch and A Flip Flop
2 pages
Illustrator Scripting Guide
100% (1)
Illustrator Scripting Guide
494 pages
Digital Futures Strategies For The Information Age 1st Edition Marilyn Deegan Instant Access 2025
100% (6)
Digital Futures Strategies For The Information Age 1st Edition Marilyn Deegan Instant Access 2025
163 pages
DataBase Recovery Techniques
100% (1)
DataBase Recovery Techniques
37 pages
Advanced Database Systems Guide
No ratings yet
Advanced Database Systems Guide
7 pages
Amazon Planning
No ratings yet
Amazon Planning
18 pages
Infosys Training
No ratings yet
Infosys Training
5 pages
Debug
No ratings yet
Debug
1,855 pages
Important Abbreviations PDF
No ratings yet
Important Abbreviations PDF
4 pages
A Top-Level View of Computer Function and Interconnection
No ratings yet
A Top-Level View of Computer Function and Interconnection
56 pages
On Vlogs
No ratings yet
On Vlogs
18 pages
Vivek Negi PDF
No ratings yet
Vivek Negi PDF
9 pages
Digital Marketing for Urban Males
No ratings yet
Digital Marketing for Urban Males
25 pages
Ansible Runner: Automation Guide
No ratings yet
Ansible Runner: Automation Guide
16 pages
SoftX3000 Internal Message Tracing Guide V2 (1) .0-20061031-A
No ratings yet
SoftX3000 Internal Message Tracing Guide V2 (1) .0-20061031-A
95 pages
Reflective Memory
No ratings yet
Reflective Memory
149 pages
Huawei F30 Brochure-EN
No ratings yet
Huawei F30 Brochure-EN
13 pages
Dealer Proves Value of Icom P25 Products: Demo Repeater Allows Customers To Test Radios
No ratings yet
Dealer Proves Value of Icom P25 Products: Demo Repeater Allows Customers To Test Radios
3 pages
Installing and Maintaining An H CP System
100% (1)
Installing and Maintaining An H CP System
304 pages
CAO Assignment
40% (5)
CAO Assignment
44 pages
Crossbox Server PDF
No ratings yet
Crossbox Server PDF
22 pages
Hafalan MIKROTIK Ujikom 2013
No ratings yet
Hafalan MIKROTIK Ujikom 2013
2 pages
Design and Implemation of An Enhanced Dds Based Digital Modulator For Multiple Modulation Schemes Manoj Kollam, S.A.S Krishna Chaithanya and Nagaraju Kommu IJSSAN 2011
No ratings yet
Design and Implemation of An Enhanced Dds Based Digital Modulator For Multiple Modulation Schemes Manoj Kollam, S.A.S Krishna Chaithanya and Nagaraju Kommu IJSSAN 2011
6 pages
RFP 5885 - Managed Information Security Services
No ratings yet
RFP 5885 - Managed Information Security Services
14 pages
Flip-Flop Electronics) - Wikipedia, The Free Encycloped
No ratings yet
Flip-Flop Electronics) - Wikipedia, The Free Encycloped
16 pages
List of TCP and UDP Port Numbers
No ratings yet
List of TCP and UDP Port Numbers
48 pages
Siemen - VideoSurveillance en Web
No ratings yet
Siemen - VideoSurveillance en Web
20 pages
Tr-3737 - SMVI 2.0 Best Practices
No ratings yet
Tr-3737 - SMVI 2.0 Best Practices
37 pages
Search - Scribd
No ratings yet
Search - Scribd
7 pages
Grade 1-2 Computer Exam
No ratings yet
Grade 1-2 Computer Exam
8 pages

Cloud Computing

Uploaded by

Cloud Computing

Uploaded by

Cloud Computing

Javier Alexander Hurtado

Compute and software resources on demand, as a service.

Rack Core switch

Massive scale (millions users +)

On-demand Access (No contracts, Anyone access it)

Data-intensive nature (TB, PB, EB, ZB, YB, BB/HB, GEB +)

New Cloud programming paradigms (MapReduce/Hadoop,

1998+ 1995 >

Cassandra -> 2010

Analytics → Graph Analytics

Asia Pacific manufacturers

Big Data / Analytics

Asia Pacific manufacturers

In 2010, estimated: store a YB on TB-size disk drives

As big as the states of Delaware and Rhode

If 200 GB microSDXC cards (most compact data storage

The total volume would be approximately 800.000 m^3

Yahoo! (2009): 100K, Split into clusters of 4000

AWS EC2 (Randy Bias, 2009): 40K machines, 8 cores/machine

eBay (2012): 50K machines

HP (2012): 380K in 180 DCs

Google (2012): More than 1 Million servers

Bad ~ 2.0 L/Kwh kgCO2eq/Kwh TonsCO2/MB

Power Usage Effectiviness – Water Usage Effectiveness – Carbon Usage Effectiviness

NIST: Cloud Computing is a model to allow the suitable,

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

• Set of configurable shared computing resources

Massive Scale Resilient Computing

Homogeneity Geographic Distribution

Virtualization Service Orientation

Low Cost Software Advanced Security

Twitter generate approximately 12 TB of data by day

New York Stock Exchange 1TB of data by day

• Humanities and Social Sciences

• Business & Commerce

What we do with that amount of data?

MAS QUE ALMACENAMIENTO

OTROS SERVICIOS EN LA NUBE

Cloud computing se posee 2 modelos:

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Nivel 2: Configurable por el

Nivel 3: configurable &

Google App Engine, Mosso,

Server Platform 3Tera, EC2, SliceHost,

Storage Platform Amazon S3, Dell, Apple, ...

Enfocado en Aplicación – Software basado en la nube que

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Tipo 2: conocidos también como tipo hosted, estos hipervisores

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

La escalabilidad permite un equilibrio entre

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

• Escalabilidad horizontal: es agregar más recursos

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

Fuente: Tesis, Nicolás Martínez y Carlos Puerta

• Nivel empresarial, bajo demanda.

• Amazon’s Elastic Compute Cloud (EC2) y Simple

• Cargar su imagen en S3 y registrarla.

Wipro Chennai 2011

Rack1 Write Rack2

Wipro Chennai 2011

Wipro Chennai 2011

• Benchmark para comparaciones: Jim Gray’s challenge

Wipro Chennai 2011

Wipro Chennai 2011

Wipro Chennai 2011

¡Gracias por su atención!

You might also like