KEMBAR78
Cloud Computing | PDF | Apache Hadoop | Cloud Computing
0% found this document useful (0 votes)
91 views88 pages

Cloud Computing

This document discusses cloud computing and related topics. It begins with an introduction to cloud computing, including common uses of the cloud by users. It then discusses what constitutes "the cloud" from a technical perspective, including the hardware, software, and network topology of single-site and geographically distributed cloud systems. The document also covers the massive scale of today's clouds, new cloud programming paradigms, and key characteristics of cloud computing such as on-demand access, rapid elasticity, and resource pooling.

Uploaded by

Javier Hurtado
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
91 views88 pages

Cloud Computing

This document discusses cloud computing and related topics. It begins with an introduction to cloud computing, including common uses of the cloud by users. It then discusses what constitutes "the cloud" from a technical perspective, including the hardware, software, and network topology of single-site and geographically distributed cloud systems. The document also covers the massive scale of today's clouds, new cloud programming paradigms, and key characteristics of cloud computing such as on-demand access, rapid elasticity, and resource pooling.

Uploaded by

Javier Hurtado
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 88

Cloud Computing

Javier Alexander Hurtado


javhur@unicauca.edu.co
Los temas de actualidad

Data
Analytics

Big
Data

Cloud
computing
¿Do you use the cloud?
Common user of the cloud
• User connects to the cloud through the
Internet
– Make Jobs of computation or
– Execute applications or
– Storage data
To the cloud you need…
• An Internet connection
• An account - username and password
• Accept terms and conditions
What is the cloud?

Compute and software resources on demand, as a service.


(2013, January) A Walk in the Clouds. Cloud Computing, CDW-G Reference Guide., 3-5.
What is a cloud?
• It’s a cluster?
• It’s a supercomputer?
• It’s a datastore?
• Any more?
• Then, what is it?
• None of the above
• All of the above
A cloud is…
• A single-site cloud (‘Datacenter’) consists of
– Compute nodes (grouped into racks)
– Switches connecting the racks
– A network topology (e.g. hierarchical)
– Storage (backend) nodes connected to the network
– Front-end for submitting Jobs and receiving client requests
– Software services
• A geographically distributed cloud consists of
– Mulitple such sites
– Each site perhaps with a different strucuture and services
A simple cloud topology

Rack Core switch

Top of rack
switch

Servers
New features in Today’s clouds

Massive scale (millions users +)

On-demand Access (No contracts, Anyone access it)

Data-intensive nature (TB, PB, EB, ZB, YB, BB/HB, GEB +)

New Cloud programming paradigms (MapReduce/Hadoop,


NoSQL, etc.)
Un minuto en Internet

Fuente: www.ornitorrincodigital.com
When did you come all this?

1998+ 1995 >


BigTable -> 2006+ Dynamo -> 2007
“Bigtable is a distributed storage system for
managing structured data that is designed to “Reliability at massive scale is one of the biggest
scale” challenges we face at Amazon.com”

Cassandra -> 2010


“Cassandra is a distributed storage system for managing
2004+ very large amounts of structured data”

http://static.googleusercontent.com/media/research.google.com/es//archive/bigtable-osdi06.pdf
http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf
Tendencia en datos

Fuente: www.oracle.com
¿Qué hacer con ellos?

Fuente: www.dapreview.net
Análisis de datos

Fuente: www.bigdatatraining.in
Fuente: www.logicmatter.com
Las cuatro V de Big Data

Fuente: www.ibm.com
Las cuatro V de Big Data

Fuente: www.ibm.com
Las cuatro V de Big Data

Fuente: www.ibm.com
Las cuatro V de Big Data

Fuente: www.ibm.com
Visualización de datos

Analytics → Graph Analytics

Fuente: www.kdnuggets.com
¿Qué esta sucediendo hoy?

Asia Pacific manufacturers


37% Production Quality Mng

Big Data / Analytics

Asia Pacific manufacturers


Inventory Mng 29%

Fuente: www.ibm.com
YottaByte (YB)?
10^24 bytes

In 2010, estimated: store a YB on TB-size disk drives


would require one million city block size data-centers

As big as the states of Delaware and Rhode


Island combined.

If 200 GB microSDXC cards (most compact data storage


medium available to the public 2015) were used

The total volume would be approximately 800.000 m^3


(32% of the Great Pyramid of Giza)
1M of Data Centers
And a BB/HB, GEB, etc.?
• There are many others… (not official)
– BrontoByte/HellaByte – KinsaByte 10^60
– GeopByte 10^30 – RutherByte
– SaganByte – DubniByte
– PijaByte – SeaborgByte
– AlphaByte – BohrByte
– KryatByte – HassiuByte
– AmosByte – MeitnerByte
– PectrolByte – DarmstadByte
– BolgerByte – RoentByte
– CoperByte
– SamboByte
– KoentekByte 10^90
– QuesaByte – More…
Some samples
Facebook (GigaOm, 2012): Servers 30K → 2009, 60K → 2010,
180K → 2012
Microsoft (NYTimes, 2008): 150K machines (10K/month), 80K
running Bing

Yahoo! (2009): 100K, Split into clusters of 4000

AWS EC2 (Randy Bias, 2009): 40K machines, 8 cores/machine

eBay (2012): 50K machines

HP (2012): 380K in 180 DCs

Google (2012): More than 1 Million servers


Cost: outsource or own?
• Exercise
– Medium-sized organization: wished to run a
service for M months
• Service requires 128 servers (1024 cores) and 524TB
– Option 1: outsourcing (e.g., via AWS) monthly cost
• S3 storage: $0.095 x GB/month
• EC2 cost: $0.10 x CPU/hour
Storage: $0.095 x 524 x 1024 = $ 50.974,72
CPU: $0.10 x 1024 x 24 x 30 = $ 73.728
Total $ 124.702,72 by month
Cost: outsource or own?
• Exercise
– Option 2: own, monthly cost
• S3 storage: ~$349K / month
• Total cost: $ 1.555K /month + $ 7.5K (1 sysadmin/100 nodes)
Comparing:
Outsourcing = $ 124.702,72
Own = $ 1.904K
Outsource ~ 15,27 * Own
– Include: hardware, power, cooling and management

Renewal cicle
Power efficiency

CI-
PUE WUE CUE = Total
= Total = Annual
Carbon
PUD CO2 per MB
Facility water usage
Energy / IT / IT Emissions / of Data
Equipment Equipment IT Equipment delivered
Energy Energy Energy

Bad ~ 2.0 L/Kwh kgCO2eq/Kwh TonsCO2/MB


Good ~ 1.0 Clean energy Clean energy Clean energy
WUE ~ 0 CUE ~ 0 CI ~ 0

Power Usage Effectiviness – Water Usage Effectiveness – Carbon Usage Effectiviness


Carbon Intensity Per Unit of Data
Power efficiency

Energy
PAR4 LEED ASHRAE
Materials, Star
idle power,
location, Certification
peak power,
water usage, based on
total 90.1 building
indoor PUE.
utilization efficiency
environment
power, Label for Top standard
al quality,
transactions 25%
energy
-per-watt
efficiency

American Society of
Building standard
Heating, Refrigerating
and Air-Conditioning
Engineers
What is cloud computing?

NIST: Cloud Computing is a model to allow the suitable,


convenient and on-demand access through the network
to a set of configurable, shared computing resources
(e.g. networks, servers, storage, applications and
services) that it can be provided rapidly and made
available with minimal management effort or
interaction with the service provider.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


¿Cloud Computing?

• Set of configurable shared computing resources


• On-demand access to the network
• Offered by the service provider
Adopted from: Effectively and Securely Using the Cloud Computing Paradigm by peter Mell, Tim
Grance
Cloud Computing features
Common features:

Massive Scale Resilient Computing

Homogeneity Geographic Distribution

Virtualization Service Orientation

Low Cost Software Advanced Security

Essential features:

On Demand Self-Service
Broad Network Access Rapid Elasticity
Resource Pooling Measured Service

Adopted from: Effectively and Securely Using the Cloud Computing Paradigm by peter Mell, Tim
Grance
Top 10 largest databases in the world
Top ten largest databases (2014)
Ref: http://csnipuntech.blogspot.com/2014/05/top-10-largest-databases-in-world.html
7000

6000

5000

4000

3000
Terabytes

2000

1000

Library of Congress
National Energy Research Scientific computing Center
Explosion in amount of data
1946 2012
Eniac LHC
X 6000000 = 1 (40 TB/S)
Air Bus A380
- 1 billion lines of code 640TB by flight
- Each motor generates 10 TB every
30 min.

Twitter generate approximately 12 TB of data by day

New York Stock Exchange 1TB of data by day


Storage capacity has doubled every three years since the 1980s.
Our data run the world
• Science
– Data bases from astronomy, genomics, environmental data, transportation
data, …

• Humanities and Social Sciences


– Scanned books, historical documents, social interactions data, new technology
like GPS …

• Business & Commerce


– Corporate sales, stock market transactions, census, airline traffic, …

• Entertainment
– Internet images, Hollywood movies, MP3 files, …

• Medicine
– MRI & CT scans, patient records, …
Our data run the world

- An Ocean of Data

What we do with that amount of data?


Incredible!!!
We ignore them!
Zeta-Byte horizon
• En 2009, se estimaba que toda la World Wide Web
contenía cerca de 500 exabytes (10^18). Esta es la
mitad de un zettabyte (10^21).
• La cantidad total de datos globales se calculó en
2.7 zettabytes para el 2012. Es decir, 48% más
que en 2011.
x50
2012 2020

Growing!
Software y aplicaciones

MAS QUE ALMACENAMIENTO


Otros servicios Software
• Software edición de fotos
• Aplicaciones financieras en línea
• Redes sociales
• Comunicación
Biblioteca de Servicios específicos
• WorldCat
• Gliffy
• Ebsco
• Discover It
• Mindomo
Algo más

OTROS SERVICIOS EN LA NUBE


Modelos de cloud computing

Cloud computing se posee 2 modelos:

1. Modelos Implementación

2. Modelos de servicio

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Modelos de implementación
Según el proveedor:

1. Privada
2. Comunitaria
3. Publica
4. Hibrida

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Modelos de implementación

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Modelos de servicio

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Common
• Software as a Service (SaaS): modelo de
distribución de software en el que las aplicaciones
son hospedadas por un vendedor o proveedor de
servicio y se hace disponible a los clientes sobre
una red como Internet.
• http://searchcloudcomputing.techtarget.com/definition/Software-as-a-Service
Tipos de servicio
• Platform as a Service (PaaS): forma de
alquilar hardware, OS, almacenamiento y
capacidad de red sobre Internet. El modelo
de servicio le permita al cliente alquilar
servidores virtualizados y servicios
asociados para ejecutar aplicaciones
existentes o desarrollar y probar nuevas.
http://searchcloudcomputing.techtarget.com/definition/Platform-as-a-Service-PaaS
Tipos de servicio
• Infrastructure as a Service (IaaS): modelo de
suministro para tercerizar el uso de equipos para
soportar operaciones, incluyendo
almacenamiento, hardware, servidores y
componentes de red. El proveedor es responsable
por tener, poner en funcionamiento y mantener el
HW. El cliente paga por su uso.
http://searchcloudcomputing.techtarget.com/definition/Infrastructure-as-a-Service-IaaS
Modelos de servicio en la nube
Software as a Platform as a Infrastructure as a
Service (SaaS) Service (PaaS) Service (IaaS)

SalesForce CRM

LotusLive

Google App
Engine
Tipos de servicio
• Software as a Service (SaaS)
Nivel 1: Ad-Hoc/Custom –
Una instancia por cliente

Nivel 2: Configurable por el


cliente

Nivel 3: configurable &


Multi-Inquilino-Eficiente

Nivel 4: Escalable,
Configurable & Multi-
Inquilino-Eficiente

Source: Frederick Chong and Gianpaolo Carraro, “Architectures Strategies for Catching the Long Tail”
Capas de Cloud Computing
MS Live/ExchangeLabs, IBM,
Application Service
Google Apps; Salesforce.com
(SaaS) Quicken Online, Zoho, Cisco

Google App Engine, Mosso,


Application Platform Force.com, Engine Yard,
Facebook, Heroku, AWS

Server Platform 3Tera, EC2, SliceHost,


GoGrid, RightScale, Linode

Storage Platform Amazon S3, Dell, Apple, ...


Capas del servicio Cloud Computing
Services Description
Servicios – servicios completos como PayPal,
Servicios OpenID, OAuth, Google Maps, Alexa

Enfocado en Aplicación – Software basado en la nube que


Aplicación elimina la necesidad de instalaciones locales
la Aplicación como: Google Apps, Microsoft Online
Desarrollo – Plataformas de desarrollo de
Desarrollo softwareusadas para crear aplicaciones basadas
en la nube (PAAS & SAAS) como SalesForce
Plataforma – basada en la nube, típicamente
Plataforma usando virtualización, como: Amazon EC2,
Sun Grid
Enfocado en la Storage Storage – Data storage o NAS basado en la
nube como CTERA, iDisk, MyCloudNAS
Infrastructura
Hosting – centros de datos físicos como los
Hosting de IBM, HP, NaviSite, etc.
CONCEPTOS IMPORTANTES
Virtualización
• Espacio de trabajo virtual:
– Abstración de un ambiente de ejecución que puede estar disponible
dinámicamente a clientes autorizados, usando protocolos bien
definidos,
– Cuota de recursos (p.e. CPU, memoria),
– Configuración del Software (p.e. O/S, servicios suministrados).
• Implementa una Virtual Machines (VMs):
– Abstración de una máquina servidor física,
– Hypervisor intercepta y emula instrucciones de VMs, y permite
administrar VMs,
App App App
– VMWare, Xen, VirtualHost, etc.
OS OS OS
• Suministra una API de infraestructura:
Hypervisor
– Plug-ins para hardware/estructuras de soporte Hardware
Virtualized Stack
Máquinas virtuales
• VM: tecnología que permite múltiples
máquinas virtuales funcionar en una máquina
física.
App App App App App
Xen
Guest OS Guest OS Guest OS
(Linux) (NetBSD) (Windows) VMWare
VM VM VM
UML VM
Virtual Machine Monitor (VMM) / Hypervisor
Denali
Hardware
etc.
Performance: Para-virtualización (p.e. Xen) muy carca al performance físico real!
Hipervisores
También llamado monitor de máquina virtual
(VMM), es la parte principal de las tecnologías
de virtualización de hardware más populares y
eficaces, los hipervisores son aplicaciones que
presentan a los sistemas operativos virtualizados
(sistemas invitados) una plataforma operativa
virtual (hardware virtual), a la vez que ocultan a
dicho sistema operativo virtualizado las
características físicas reales del equipo sobre el
que operan.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Tipos de hipervisores
Tipo 1: también llamados nativos, un hosted o bare-metal. Estos
hipervisores se ejecutan directamente sobre el hardware físico,
así que todos los accesos directos al hardware son controlados
por él, en este tipo de hipervisores son instalados como un
sistema operativo donde se crean máquinas virtuales con
características como S.O., RAM, CPU y DD.

Tipo 2: conocidos también como tipo hosted, estos hipervisores


se ejecutan sobre un sistema operativo el cual es cargado en el
sistema antes que el hipervisor, de esta manera las máquinas
virtuales se ejecutan en un tercer nivel, este tipo de hipervisor es
muy utilizado para manejar varios sistemas operativos sobre otro
sistema operativo.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Tipos de hipervisores

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Virtualización en General
• Vantajas de las VM:
– Ejecuta OS donde no hay disponibilidad de hardware,
– Más fácil para crear nuevas máquinas, backup de máquinas, etc.,
– Pruebas de Software usan instalaciones “limpias” de OS y software,
– Emular más máquinas de las que están físicamente disponibles,
– Sistemas cargados livianos en tiempo compartido en un host,
– Problemas de depuración (suspender y reanudar los problemas de
máquina),
– Fácil migración de VM (reiniciar: necesario o no).
– Ejecutar sistemas legados!
¿Cuál es el propósito y beneficios?
• Cloud computing permite a empresas y aplicaciones,
que dependen de infraestructura, a no serlo.
• Usando la infraestructura en la nube “pay as used
and on demand”, ahorra inversiones en capital y en
operación!
• Clientes pueden:
– Poner sus datos en la plataforma en lugar de sus propios
equipos y/o en sus propios servidores.
– Pponer sus aplicaciones en la nube y usar los servidores
dentro de la nube para procesamiento y manipulación de
datos,etc.
Escalabilidad

La escalabilidad permite un equilibrio entre


componentes separados pero ligados entre sí
como lo son el software y el hardware, pues a
medida que el software requiere más apoyo
para su correcto funcionamiento, el hardware
crecerá conforme se vea necesario mediante
un buen diseño que permite escalar hasta las
condiciones requeridas por el software.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Escalabilidad
• Escalabilidad vertical (escalar hacia arriba): es
cuando se reemplazan a nivel físico uno o más
recursos de un solo nodo por otro más potente
también puede considerarse como una
actualización de los recursos a nivel físico.

• Escalabilidad horizontal: es agregar más recursos


a nivel físico para el sistema es decir, adicionar
nuevos nodos. Un claro ejemplo es el añadir otro
servidor o equipo a fin de distribuir la carga. Una
ventaja de este es el poder distribuir la carga
mediante el nuevo nodo.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Escalabilidad automática
Cuando recursos del sistema se encuentran a
disposición del usuario pero aquellos que no
estén siendo usados serán apagados para evitar
sistemas ociosos pero cuando se necesite, el
sistema hará uso de estos recursos de forma
inmediata.
Aunque todas las nubes poseen como ventaja la
escalabilidad, muy pocas poseen escalabilidad
automática.

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Escalabilidad automática

Fuente: Tesis, Nicolás Martínez y Carlos Puerta


Nubes comerciales
Nubes Open Source
Taxonomía de la nube
Windows Azure

• Nivel empresarial, bajo demanda.


• Procesamiento y storage disponible a petición
por un costo.
• Se debe usar Azure API para trabajar con la
infraestructura ofrecida por Microsoft.
• Características significativas: rol web, rol
worker, blob storage, table y drive-storage
Windows Azure
Google App Engine
• Una interfaz web para un entorno de desarrollo que ofrece
una manera simple para diseñar, desarrollar y publicar
aplicaciones Java, Go y Python.
• Google ofrece la misma confiabilidad, disponibilidad y
escalabilidad a la par con sus propias aplicacionces.
• Interfaz basada en programación software
• Plataforma de programación completa independeinte del
tamaño (pequeño o grande)
• Características especiales: plantilas, AppSpot service,
excelente consola de monitoreo y gestión.
Otros detalles
• Amazon AWS: EC2 & S3 (entre los muchos servicios de
infraestructura)
– Máquinas Linux
– Máquinas Windows
– Aplicaciones empresariales de 3 capas
• Google App Engine (GAE)
– Eclipse plug-in para GAE
– Desarrollo y publicación de una aplicación
• Windows Azure
– Storage: blob store/container
– Ambiente de desarrollo y producción MS Visual Studio
Azure
Cloud Storage
• Empresas de internet explotan la capacidad de
alamacenar datos para que se pueden alquilar a
otros.
– Permitir que los datos almacenados estén temporalmente
en computadores de escritorio, dispositivos móviles, etc.

• Amazon’s Elastic Compute Cloud (EC2) y Simple


Storage Solution (S3) ejemplos bien conocidos
– Mechanical Turk
Amazon Simple Storage Service (S3)
• Ilimitado.
• Pagar por lo que usa:
Amazon Simple Storage Service (S3)
• Pagar por lo que usa:

74
Utility Computing – EC2
• Amazon Elastic Compute Cloud (EC2):
– Elástica, solicitar de 1 a 100+ PCs a través de WS,
– Especificación de las máquinas…,
– Muy económico!
• Powered by Xen – una Virtual Machine:
– Diferente de VMware and VirtualPC como “para-virtualization” donde
el OS hospedado es modificado para usar hyper-calls especiales.
– Contribuciones Hardware de Intel (VT-x/Vanderpool) y AMD.
– Soporta “Live Migration” de una VM entre servidores.
• Linux, Windows, OpenSolaris
• Consola de administración/AP
EC2 – lo básico

• Cargar su imagen en S3 y registrarla.


• Arranque su imagen desde Web Service.
• Abrir los puertos necesarios para su imagen.
• Conectarse a su imagen a través de SSH.
• Ejecute su aplicación…
Tecnologías

MODELOS DE PROGRAMACIÓN EN
LA NUBE
El Contexto: Big-Data
• Minería de datos. Enormes cantidades de datos recogidos en una amplia gama
de dominios: astronomía, atención sanitaria, clima, etc.
• Esencial para la planificación y el rendimiento.
• Estamos en una economía del conocimiento.
– Los datos son un activo importante para cualquier organización.
– Descubrimiento del conocimiento, habilitar el descubrimiento, anotación de
los datos
– Modelos computacionales complejos.
– Un ambiente simple no es suficientemente bueno: necesita capacidades de
elasticidad y bajo demanda.
• Estamos buscando nuevos…
– Modelos de Programación, y
– Soporte de algoritmos y estructuras de datos.

Wipro Chennai 2011


Google File System
• Internet presenta un nuevo reto en la forma de
datos web, gran escala → “peta-bytes”
• Este tipo de datos tiene una característica diferente
a su forma transaccional, los datos a “la orden del
cliente”: “write once read many (WORM)”
• Información privada y protegida de salud;
• Datos financieros históricos;
• Otros datos históricos
• Google explotó esta característica en su Google File
System (GFS)
¿Qué es Hadoop?
• Una operación Google MapReduce se ejecuta en
un sistema de archivos especial (Google File System
– GFS) altamente optimizado para este propósito.
• GFS no es open source.
• Doug Cutting y otros en Yahoo! Realizaron un
proceso de ingeniería inversa al GFS, lo llamaron
Sistema de Archivos Distribuido Hadoop (HDFS).
• El software que soporta HDFS, MapReduce y otras
entidades relacionadas hacen parte del Proyecto
Hadoop.
• Open source y distribuido por Apache.
Tolerancia a Fallas
• Failure is the norm rather than exception
• Una instancia HDFS puede consistir de miles de
máquinas servidores, cada una almacenando una
parte de los datos del sistema de archivos.
• Se tiene un gran número de componentes con
probabilidad de falla, lo que significa que siempre hay
n componente que no es funcional.
• La detección de fallas y la recuperación automática y
rápida de ellas es una meta de la arquitectura de
HDFS.
HDFS Architecture
Metadata(Name, replicas..)
Metadata ops Namenode (/home/foo/data,6. ..

Client
Block ops
Read Datanodes Datanodes

replication
B
Blocks

Rack1 Write Rack2


Job Tracker
Client Task Tracker Task Tracker

Task Tracker
Wipro Chennai 2011
Hadoop Distributed File System
HDFS Server Master node

HDFS Client
Application

Local file
system
Block size: 2K
Name Nodes
Block size: 128M
Replicated

Wipro Chennai 2011


¿Qué es MapReduce?
• MapReduce modelo de programación que Google ha usado
exitosamente para procesar sus “big-data” (~20000 peta bytes por
día)
– Una función de mapa/mapeo extrae algo inteligente de datos en
bruto.
– Una función de reducción adiciona, de acuerdo a algunas guías, los
datos de salida del mapa.
– Los Usuarios especifican el cálculo en términos de una función de
mapa y reducción,
– Un sistema de ejecución divide (paraleliza) los cálculos a través de
cluster de máquinas de gran escala, y
– El sistema también se ocupa de los fallos de las máquina, las
comunicaciones eficaces y los problemas de rendimiento.
Reference: Dean, J. and Ghemawat, S. 2008. MapReduce: simplified data processing
on large clusters. Communication of ACM 51, 1 (Jan. 2008), 107-113.

Wipro Chennai 2011


Clases de problemas “MapReducable”

• Benchmark para comparaciones: Jim Gray’s challenge


Computación de datos intensivos. Ej: “Sort”
• Google lo usa para conteo de palabras, adwords, ranqueo de
páginas, indexación de datos.
• Algoritmo simple tal como grep, text-indexing, reverse indexing
• Clasificación Bayesiana: dominio del data mining
• Facebook lo usa para varias operaciones demográficas
• Servicios financieros lo usan para análisis
• Astronomía: Análisis Gausiano para localiazación de objetos
extra-terrestres.
• Se espera que tenga un rol crítico en la web semantica y en la
web 3.0

Wipro Chennai 2011


Large scale data splits Map <key, 1>
<key, value>pair Reducers (say, Count)

Parse-hash

Count
P-0000
, count1

Parse-hash

Count
P-0001
, count2
Parse-hash

Count
P-0002
Parse-hash ,count3

Wipro Chennai 2011


Motor MapReduce
• MapReduce requiere un Sistema de archivos distribuido y
un motorque pueda distribuir, coordinar, monitorear y
obtener los resultados.
• Hadoop brinda ese motos a través de su HDFS y el
sistema JobTracker + TaskTracker.
• JobTracker es un simple scheduler.
• TaskTracker es el trabajador, se le asigna una operación
de Mapeo o Reducción (u otras operaciones)
• Mapeo o Reducción corren en un nodo al igual que el
TaskTracker; cada tarea corre en su propia JVM en un
nodo.

Wipro Chennai 2011


¿Preguntas?

¡Gracias por su atención!


javhur@unicauca.edu.co

You might also like